Pourquoi vous devez mettre en place un Data Lake dès maintenant !

11 septembre 2017

Le lac de données, ou « Data Lake », est une nouvelle vision de l’informatique d’entreprise, non plus centrée sur ses applications, mais sur la donnée. Cette mémoire universelle de l’entreprise va donner les clés aux analystes, les Data Scientists, pour mieux comprendre le comportement des clients, mieux anticiper leurs attentes. Cette approche « Data » va constituer un avantage compétitif certain pour les entreprises qui la mettent en place.

C’est le concept en vogue dans le monde du Big Data. Le Data Lake, ou lac de données, c’est avant tout un vaste espace de stockage où vont pouvoir se déverser l’ensemble des informations drainées par les applications de l’entreprise. Depuis les traces laissées par vos prospects sur vos sites Web, vos sites de E-Commerce, les commentaires laissés sur Facebook, Twitter, les interactions de vos clients avec votre centre d’appel, ou plus simplement leurs historiques de commandes, etc. Toutes ces informations sont stockées et mise à disposition de spécialistes qui vont pouvoir les analyser, tant dans le cadre d’opérations de marketing opérationnel classique, que pour des besoins très divers.

Une approche permise par une chute spectaculaire des coûts du stockage

Si une telle approche est économiquement possible aujourd’hui, c’est que les technologies sous jacentes développées par les Google, Yahoo, Facebook pour leurs projets Big Data, notamment l’architecture Hadoop, ont fait baisser le coût du stockage de manière spectaculaire. Les experts estiment que le coût de stockage d’un téraoctet de données, c’est à dire 1 000 Mo, est de l’ordre de 1 000 $ seulement sur l’architecture Hadoop, coût du matériel compris. C’est 5 à 20 fois moins que l’investissement nécessaire pour stocker le même volume dans une base de données traditionnelle ! Culture Web oblige, le Data Lake s’appuie sur des solutions Open Source bien moins coûteuses en termes de licences et de supports, quant aux matériels mis en œuvre, ce sont des serveurs x86 banalisés, à faible prix.

Cette baisse du ticket d’entrée dans le stockage de très gros volumes d’informations fait que des projets qui étaient jusqu’à aujourd’hui économiquement infaisables deviennent tout à fait abordables, même pour des entreprises de taille modeste.

Le Data Lake offre une agilité sans pareille dans l’analyse des données

Moins cher que le Data Warehouse mis en place par les DSI depuis la fin des années 90, le Data Lake présente une supériorité décisive sur l’ancienne approche : sa souplesse d’utilisation. D’une part en termes de structure, le Data Lake se montre bien plus ouvert que son ainé. L’idée, c’est de stocker l’information telle qu’on la reçoit. Plus d’effort d’analyse et de structuration a priori de la donnée. On stocke et ce n’est qu’ensuite que l’analyste décidera de la façon dont il va exploiter cette information. Le Data Lake fait tomber les silos de données qui existent dans les systèmes d’information traditionnels. Ainsi, il fait cohabiter des données très structurées, comme celles émises par des capteurs, des historiques de commandes, des données de connexion, avec des informations totalement non structurées comme des fichiers Excel, des fiches produit en pdf, des commentaires dans un forum, des avis de clients. Il n’y a plus de limite.

La conception très rigide des Data Warehouse, dictée par la nécessité d’optimiser l’espace de stockage et les performances d’accès, fait désormais place à une plus grande liberté. Ajouter un nouveau flux de données n’impacte pas l’ensemble du Data Lake. Ajouter de nouvelles données, même en grand volume, ne remet plus en cause la planification qu’était amenée à faire les DSI dans le dimensionnement des ressources informatiques. L’infrastructure Hadoop est capable de s’étendre théoriquement à l’infini : quand on atteint les limites de stockage des serveurs, il suffit d’ajouter de nouvelles machines pour accroitre les capacités de l’ensemble.

Le Big Data, une autre façon d’aborder l’analyse des données

Outre faire sauter ces freins technologiques, l’approche Data Lake constitue véritablement une nouvelle philosophie dans l’analyse des données. La Business Intelligence traditionnelle imposait de réfléchir en amont à ce que l’on souhaitait obtenir en termes de rapports et en termes d’analyses, afin que la donnée soit structurée et agrégée dans le Data Warehouse pour obtenir les résultats attendus.

Avec le Big Data, c’est inverse. Puisque le coût de stockage est devenu marginal, puisqu’il est possible de faire cohabiter des données aux formats très hétérogènes, pourquoi ne pas tout stocker par défaut ! Le nouvel adage c’est : « si tu ne sais pas à quoi cette donnée va servir, tu pourras toujours le découvrir plus tard. » Ce sont les Data Scientist qui, lorsqu’on va leur demander de créer un modèle prédictif afin d’anticiper le comportement des clients par exemple, vont piocher dans ces données mises à leur disposition dans le Data Lake pour attendre leur objectif.

Grâce à cette richesse dans les données disponibles, les Data Scientists vont pouvoir intégrer de nouvelles variables à leurs modèles, trouver des corrélations inédites. Ces variables qui s’avèreront parfois inutiles, vont quelquefois faire la différence avec les modèles sur lesquels travaillent eux-aussi vos concurrents. Le coût de stockage étant faible, conserver des données « pour plus tard », sans a priori, est l’approche qui a été adoptée par de nombreux acteurs du Web, et désormais de plus en plus d’entreprises de secteur traditionnels comme la distribution, les assurances, la banque. L’essor des objets connectés, et de ce que l’on appelle aujourd’hui l’Internet des Objets, va pousser un grand nombre d’entreprises de secteurs complètement différents à adopter les technologies Big Data et s’intéresser à leur tour à l’approche Data Lake.