Le Big Data on en parle beaucoup, on en entend parler comme de la nouvelle révolution numérique, toutes les entreprises devraient le mettre en œuvre sous peine de devenir has been, dépassées par leurs concurrents.
Vu comme ca, c’est énorme et incontournable ! En fait le Big Data c’est un ensemble de technologies très innovantes, regroupées sous un concept marketing. Décryptage…
L’origine du Big Data
Un système d’information, comme son nom l’indique, est un système destiné à gérer de l’information. Contrairement aux idées reçues, le système d’information ne se cantonne pas aux données numériques, toutes les données de l’entreprise ont vocation à être adressées par le systèmes d’information.
Durant les 30 dernières années, la gestion de l’information s’est énormément informatisée, la quantité d’information gérée a explosée, imposant une rigueur importante de purge, d’archivage et de sélection des données manipulées aux entreprises. L’objectif étant de maintenir en état opérationnel des applications informatiques conçues pour fonctionner sur des données courant « vivantes » sur la base d’infrastructures « traditionnelles » et des bases de données relationnelles.
Quels enjeux métiers le big data peut concrètement adresser ?
Le Big Data est né de cette question : L’entreprise ne perd-elle pas une opportunité en délaissant l’analyse de ces données endormies ou perdues ?
De nouveaux ordres de grandeur concernent la capture, le stockage, la recherche, le partage, l’analyse et la visualisation des données. (source : wikipedia)
En effet le Big Data apporte en effet des capacités techniques nouvelles en la matière.

Analyse de données au service de la performance
Le big data permet des analyses jusqu’alors irréalisables, comme par exemple :
- Identification des fraudes au milieu de millions de transactions
- Analyse des risques, financiers, écologiques, météorologiques
- Etude du comportement des consommateurs pour cibler des prospects
- Veille sur les réseaux sociaux pour capter des comportements ou des tendances
- Analyse d’opinion de la population
Création de valeur à partir des données
Le big data permet également d’obtenir des informations inédites par le croisement et l’analyse de données. On constate d’ailleurs une explosion des métiers de data scientist dont le rôle est de mener des études statistiques et prédictives sur des données.
Analyse prédictive
L’analyse prédictive reste un cas d’usage minoritaire du big data
Les 3V du Big Data
La règle des 3V permet d’apporter une clarification conceptuelle au Big Data.
- Volume : La volumétrie des données que l’on souhaite traiter est supérieur aux capacités des systèmes traditionnels
- Variété : Les données que l’on souhaitent assimiler et analyser peuvent être brutes, structurées ou non et exister dans différents formats.
- Vélocité : On a besoin des données tout de suite, maintenant. L’information est dynamique
Quels sont les principales technologies du Big Data ?
Capture
Les données non structurées peuvent être nettoyées, transformées afin d’en améliorer l’exploitabilité. Rapid Refine est un exemple d’outil pouvant être mis en œuvre.
Stockage
Le stockage de données de forte volumétrie peut être réalisée avec des données de données verticales à haute scalabilité, de type NoSQL, afin de permettre des analyse en temps réel. Ils gagnent ainsi en performances en termes d’écriture et de lecture des données, mais perdent en possibilités de requêtage.
Dans le cas où les volumétrie dépassent les capacités de stockage d’un seul serveur, il est possible d’utiliser des technologie de stockage distribué, de type HDFS.
Recherche
Les moteurs de recherche de dernière génération son conçus afin de mener des recherches de données sur de forte volumétrie. Il s’agit de moteurs de recherche distribués, comme par exemple Elasticsearch.
Le Machine Learning quant à lui met à contribution les capacités de l’intelligence artificielle pour mener sa recherche au sein de données
Partage
Une nouvelle manière de capter des données consiste à les partager. Il est ainsi possible de centraliser des données provenant de multiples sources afin d’en produire des analyses. Les questions de propriété, de confidentialité, d’anonymisation restent des sujets sensibles.
Analyse
Des solutions de Business Analytics & Optimization (BAO) permettent de faciliter le traitement distribué de très larges ensembles de données au travers de centaines de serveurs opérant parallèlement. La solution la plus connue étant Hadoop.
Visualisation
La Data Visualisation permet de les représenter des milliers de chiffres et de données afin de les rendre facilement compréhensible : graphiques, diagrammes, modélisations produites à partir des données de forte volumétrie pour en traduire les résultats. Il s’agit d’outils décisionnels de dernière génération.