90% des 44 zettaoctets des données mondiales ont été créées ces deux dernières années ! Personne n’échappe à la data mais elle reste difficile à traiter, à gérer, à stocker et à exploiter à grande échelle.
Historiquement (cela date déjà des année 90), le stockage était géré par un SGBD connecté via des pipelines à des sources globalement statiques et des outils (réalisés sur mesures et assez simples) permettaient de les consulter. Puis les données distribuées en volume sont apparues ainsi que les outils open-source pour les traiter (Hadoop, Hive, etc.).
Amazon Web Services (AWS) a été le premier à déplacer l’ensemble de la Data Stack dans le cloud, à rendre l’infrastructure et le calcul élastiques, et à les proposer As a service.
Aujourd’hui, stocker dans le cloud est la base, les pipelines se sont transformés (de l’ETL à l’ELT) et l’orchestration a gagné en maturité. En revanche, même si la pile technologique a beaucoup évolué ces dernières années, de nombreux problèmes liés au traitement des données ne sont pas toujours pas résolus, voire de nouveaux sont apparus !
Excell reste toujours indétrônable dans la plupart des pipelines de données et gérer des datasets toujours plus volumétriques rajoute encore de la complexité … Et à la dimension technologique s’ajoute le facteur humain ! Les populations qui interviennent sur les données sont elles-aussi de plus en plus nombreuses et les équipes travaillent encore (trop) en silos.
Dans toutes les architectures data, on constate que de nombreux composants sont redondants. Pour répondre aux enjeux de demain, plusieurs chantiers sont lancés pour repenser la stack technologique :
- De nouvelles conceptions des référentiels de données vers un lakehouse (notamment avec Databricks) alors qu’aujourd’hui les données sont réparties dans des datalakes ou des entrepôts de données.
- Des data fabrics sur des référentiels spécialisés qui visent à extraire la valeur des relations entre les data sets ; ou des référentiels optimisés pour les séries chronologiques afin de mieux gérer les informations temps réel
- Des plateformes de BI dites « actionnables » pour réduire le temps entre l’analyse et l’action au plus près des systèmes opérationnels voir l’apparition de plateforme verticales dédiées
- Une couche de DataOps avec des plateformes qui vont gérer les catalogues de données, assurer le monitoring, la qualité, la sécurité et une utilisation toujours plus responsable des actifs de données
Et vous, quelle piste explorez-vous pour repenser l’architecture data de demain ?
Source : Thinking the modern data stack