SOLUTIONS
PARTAGER
Le Data Analytics est-il réservé aux grands groupes ?
On parle énormément de Data Analytics (DA), Business Intelligence (BI), Data Mining, Data Science, Big Data, etc. mais connaît-on bien le sens, ou devrions-nous dire les sens, de ces buzz words ? Les sens, parce que année après année les notions cachées derrière ces mots évoluent et parce que chaque professionnel de l’analytique (spécialiste de la donnée ou éditeur de logiciel) leur attribue un périmètre propre à son métier et à son environnement d’intervention. A titre d’exemple, là où les uns parleront de Data Analytics, les autres y verront du Data Mining, tandis qu’encore pour d’autres les deux notions se confondent.
Essayons donc de dégager les grandes notions afin que chacun s’y retrouve un peu mieux et surtout que les PME comprennent que le Data Analytics n’est pas réservé uniquement aux grands groupes.
Business Intelligence BI et Data Analytics.
On a longtemps parlé d’analyse de données, ou Data Analysis en anglais. Désormais on parle plus souvent de Data Analytics, ou analytique de la donnée en français ! Force est de constater que Data Analysis et Data Analytics se confondent tant dans leurs frontières que dans leur sémantique puisque ce qui est analytique procède par voie d’analyse. Les mots Data Analytics et Data Analysis renvoient sur la même page Wikipedia en langue anglaise.
Le Data Analytics (DA) consiste à examiner des données brutes (souvent en grand volume) afin d’en ressortir des informations compréhensibles par l’humain et difficilement observables par analyse directe. La représentation graphique (Data Visualisation ou DataViz) rend intelligible ces informations et permet l’interprétation et la prise de décision.
On peut différencier le Data Analytics du Data Analytics avancé (comme le Data Mining), ou encore du Big Data Analytics, en positionnant cette analytique de la donnée uniquement sur ce qui est déjà connu. En d’autres termes, le DA ne permet pas d’identifier de nouvelles relations cachées entre des données ou des évènements. Le DA permet par exemple de rechercher l’équipement responsable d’un pic de consommation en comparant les phases de démarrage de tous les équipements avec des valeurs de consommation, tandis que l’analytique avancé permettra d’identifier une cause jusqu’ici inconnue et indépendante des démarrages des équipements.
La Business Intelligence (BI) ou informatique décisionnel existe depuis plus de 20 ans mais se fait de plus en connaître grâce à la diffusion de logiciels qui proposent des environnements de visualisation et d’analyse pour des spécialistes métier (qui n’ont pas de compétences en mathématiques et en informatique pour traiter des données). Les outils informatiques de BI étant de plus en évolués, l’analytique et l’analytique avancé se confondent de plus en plus et repoussent les limites de l’analyse.
Data Visualisation ou Dataviz.
La Data Visualisation doit permettre la prise de décision et la communication. Les outils de Business Intelligence (BI) intègrent la Dataviz. A partir d’un certain volume de données, il n’est plus possible d’analyser des tableaux de données brutes, l’effort d’abstraction étant trop important. La Dataviz affiche les données sous forme graphique et permet la création de groupes, de classements, de filtres, un peu comme les tableaux croisés dynamiques dans un tableur. Mais ici, les volumes et les sources de données n’ont rien de comparable avec un fichier de tableur. Les Tableurs ne traitent pas non plus l’automatisation de la collecte et du traitement, ni de la mise à jour automatique, ni de la phase de vérification de la qualité de la donnée.
Data Science.
La Data Science est un terme que certains utilisent comme synonyme de Data Analytics, d’autres considèrent que la Data Science, littéralement science de la donnée, regroupe l’analytique (Data Analytics), l’apprentissage automatique (Machine Learning), l’exploration de données (Data Mining), l’Intelligence Artificielle (IA) et tout un ensemble de méthodes mathématiques et informatiques.
Data Mining.
Le terme Data Mining peut être traduit par forage de données. Le Data Mining consiste à forer, explorer ou encore fouiller les données. Contrairement à l’analyse conventionnelle (Data Analytics) qui fournit des informations uniquement à partir des éléments connus, le Data Mining permet d’établir des associations et relations entre les données (on parle de patterns) qui sont cachées ou non évidentes, très souvent en brassant de grands volumes de données réparties sur plusieurs bases de données relationnelles. Ces patterns permettent d’obtenir des informations exploitables à la prise de décision.
Le Data Mining est un composant essentiel du Data Analytics avancé et du Big Data Analytics. Une des formes du Data Mining est l’analyse prédictive.
Big Data – Big Data is not big !
On pourrait penser que le Big Data (mégadonnées en français) se résume à des gros volumes de données. Sans parler de Big Data, il est aujourd’hui possible de stocker et d’exploiter de très gros volumes de données avec une grande variété de sources dans de grands entrepôts de données (Data Warehouse). Les technologies actuelles permettent de traiter des gros volumes de données selon les méthodes analytiques de Business Intelligence sans avoir recours au Big Data.
Si le Big Data concerne effectivement les gros volumes de données, une de ses spécificités est de s’intéresser aussi bien aux données structurées qu’aux données non structurées. Ce sont les données non structurées que les outils habituels d’analytique ne savent pas traiter. Une autre spécificité est le stockage des données, qui ne sont plus stockées dans des Data Warehouses mais dans des Data Lakes. C’est par ailleurs, cette nouvelle forme de stockage qui permet d’appliquer l’analytique Big Data, autre spécificité du Big Data. Plus que les volumes, ce qui fait le Big Data est donc la nature des données, la manière dont on les stocke et les techniques d’analyse pratiquées avec des savoir-faire et des technologies propres.
L’analytique Big Data.
L’intérêt du Big Data est de bousculer les analyses classiques en apportant une agilité dans la façon d’appréhender et de résoudre les problèmes et en traitant des données hétérogènes. Il est possible d’appliquer les méthodes de BI, dont la data visualisation, et des méthodes d’analytique avancées comme le Data Mining, mais il existe un ensemble de méthodes et techniques propres au Big Data ; ne serait-ce que parce que les outils de BI ne peuvent pas prendre en compte des données non structurées.
L’analyse Big Data offre de nouvelles dimensions d’analyse comme la prise en compte de la chronologie des événements et du contexte des évènements. A la différence du Data Analytics, l’analytique Big Data applique des traitements différents pour traiter plusieurs problématiques simultanément et n’est pas prisonnier d’un schéma de relations prédéfini.
Data Analytics descriptive, prédictive et prescriptive.
L’analytique descriptif fournit des informations sur ce qui a été réalisé et permet donc de comprendre ce qui s’est produit.
L’analytique prédictif a pour objectif de fournir des modèles afin de prévoir ce qui pourrait se réaliser. Elle s’appuie sur le Data Mining qui fournit des modèles statistiques. Une des techniques courantes est l’analyse de régression qui prédit les valeurs de plusieurs variables liées entre elles.
L’analytique prescriptif aide à choisir la meilleure solution entre plusieurs actions possibles pour orienter ce qui va se réaliser.
Données structurées, semi-structurées et non structurées.
Les données structurées sont formatées et organisées selon une structure permettant des traitements afin d’en extraire des informations. Elles sont stockées dans des bases de données, constituant éventuellement des ensembles plus complexes que sont les entrepôts de données.
Les données non structurées décrivent les données extérieures à un type de structure. Elles sont de deux types :
- Les données non structurées textuelles issues des emails, des documents comme des lettres, des présentations, des chats, etc.
- Les données non structurées non textuelles issues des images, des fichiers audio, des fichiers vidéo.
Ces données peuvent être d’origine numérique ou physique, et doivent être stockées sous forme numérique afin de permettre des extractions par analyse sémantique. Les données non structurées ne peuvent pas être stockées dans une base de données relationnelle, structure des entrepôts de données.
Enfin, les données semi structurées ne sont pas organisées en base de données, mais des métadonnées associées permettent de décrire les données afin de permettre leur traitement. Pour exemple, l’auteur et la date de création d’un fichier (Word, MP4,…) sont des métadonnées, ainsi que les descriptifs des pages web que l’on retrouve dans un moteur de recherche.
Data Warehouse, Datamart et Data Lake.
La multiplication des bases de données ainsi que le besoin croissant en analyse a poussé la création des entrepôts de données (Data Warehouse en anglais) qui centralisent les données et facilitent leur gestion. La notion n’est pas nouvelle, mais le mot lui-même est récent. Plutôt que de requêter sur les bases de données opérationnelles (risque de baisse de performance), on applique les traitements d’analyse sur une base de données constituée et administrée dans cet objectif. Les logiciels de BI qui intègre un Data Warehouse rendent ainsi possible l’accès libre à l’ensemble des données.
Le Datamart est un sous-ensemble du Data Warehouse ; si le Data Warehouse est le référentiel central de toutes les données, le Datamart adresse les besoins d’un groupe unique d’utilisateurs et est par conséquent organisé pour la recherche de données selon un mode unique.
Le Data Lake (lac de données en français) est une forme de stockage propre au Big Data permettant de stocker dans un lieu unique des données brutes ou très peu transformées et de natures variées (données structurées, semi structurées et non structurées) et de permettre l’application de traitement d’analytique Big Data.
Ce qu’il faut retenir.
Au-delà des buzz words, le Data Analytics prend différentes formes et peut se réaliser à différents niveaux. Si l’analytique Big Data nécessite l’intervention de spécialistes et la mise en œuvre d’une architecture informatique et d’outils complexes, le Data Analytics au travers de logiciel de Business Intelligence et d’analyse métier permet de faire parler les données, à minimum confirmer des théories et commencer à déterminer des relations cachées. Données qui le plus souvent sont déjà collectées et stockées dans l’entreprise.
Mise en pratique : assistez la conférence "Comment améliorer la performance de l’outil de production grâce au Data Analytics ?"
Evènement clos
Le 15 mars, retrouvez-nous au Forum Dimo à Nantes pour la conférence qu’ATYS CONCEPT animera:
« Comment améliorer la performance de l’outil de production grâce au Data Analytics ? ou comment exploiter et mettre en œuvre le Data Analytics pour faire parler les données des équipements de production. »
Pour aller plus loin
Une question, un projet ? Contactez-nous !
Contact