à la une

Architectures Data Cloud, les 5 chantiers prioritaires.

28 février 202328 février 2023

0 commentaires

1. La gouvernance des données

Nous en sommes convaincus chez Smartpoint, ce sujet n’a jamais été d’autant d’actualité. Pourtant, il est tout sauf nouveau ! D’ailleurs, nous avons des années d’expérience en ce domaine lorsque les données étaient dans des entrepôts …. Mais ces chantiers se sont beaucoup complexifiés avec les nouveaux modèles d’architectures puisqu’il s’agit de gérer aujourd’hui des données dans des data lakes ou des lakehouses (stockage dans le cloud donc), non structurées, de plus en plus volumétriques et partagées largement (data mesh).

Les chantiers sont nombreux et le choix d’outils vaste ! Audit, data lineage de bout en bout, qualité des données, gestion des données de références, data catalogs, règles de accès aux des données et de partage des données de manière sécurisées, mise en conformité règlementaire (…).

La Gouvernance des données est devenu un sujet très complexe et critique pour nos clients car la solution réside dans la spécificité de chaque écosystème IT et les utilisations qui sont faites des données.

Parmi les solutions, citons celles des incontournables Informatica, Talend, Collibra ou encore Experian.

2. Le Lakehouse

Toutes les plateformes proposent désormais des fonctionnalités pour implémenter un lakehouse plutôt qu’un data warehouse ou un data lake (quelle est la différence entre data warehouse, un data lake et un lakehouse ? C’est à lire ici)

Le créateur de Spark, Databricks, a clairement une longueur d’avance en termes de solution mais cela ne va pas peut-être pas durer. En format de tables open-source, sachez que Apache Iceberg est de plus en plus adopté par les services AWS (Glue notamment). Snowflake permet aussi désormais d’implémenter un lakehouse en utilisant Iceberg.

3. L’architecture Data Mesh

Nous avons beaucoup travaillé en 2022 sur ce concept architectural qui se rapproche d’une architecture microservices avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes (Les quatre principes fondamentaux d’un data mesh sont à lire ici)

Les premiers retours d’expériences nous ont montré, qu’au-delà du concept, cela a un impact fort au niveau de l’organisation de la team Data qui doit être responsabilisées sur leur domaine Data (Le Product Thinking ou Data as product).

4. Le streaming et le traitement temps réel

Historiquement, les data warehouses étaient alimentés en fin ou en début de journée par traitements batch (et cela prenait des heures !) pour que les utilisateurs BI puissent disposer d’états ou de tableaux de bords un fois par jour. Ils attendent aujourd’hui d’être alertés en temps réel pour prendre des décisions ou réagir immédiatement. C’est devenu indispensable en gestion des risques (attrition client, risques de crédit ou fraude, etc.) ou pour alimenter les moteurs de recommandations de produits par exemple.

Cet enjeu de vitesse des données est de plus en prégnant chez nos clients. Mais avec l’augmentation des volumes, il devient de plus en plus important de ne pas uniquement les charger, mais aussi de les transformer et de les analyser en temps réel. Cela impacte fortement votre architecture data. Là, encore la plateforme lakehouse de Databricks est intéressante pour le streaming des données et pour fournir de l’analytique en temps réel. Autre solution, utiliser par exemple Apache Flick et Amazon Kinesis Data Analytics pour de l’ETL sur vos flux de données temps réel (à lire ici).

5. La modélisation de données

C’est le grand retour ! Avec Hadoop et son datalake, toutes les données étaient déversées sans aucune notion de modélisation. On sait aujourd’hui, que cela été une aberration. En termes de stockage bien sûr mais aussi sur le plan architectural car cela a rendu très compliqué l’exploitation des données et la data discovery.

Le data modeling permet de stocker les données de manière cohérente et organisée, les data scientists y ont accès plus facilement et peuvent mieux les exploiter. Les résultats sont d’autant améliorés et beaucoup plus fiables.

En rationalisant le pipeline de données et en permettant aux ingénieurs data de se concentrer sur des tâches plus complexes, la modélisation des données peut aider les organisations à mieux utiliser leurs données et à libérer tout le potentiel de la data science et de l’apprentissage automatique. En savoir plus sur les type de modélisation ? C’est ici.

Et vous, quelles sont vos priorités Data dans les mois qui viennent ?

Confiez-vos chantiers au pure player de la data 😉

Source : https://medium.com/@gauravthalpati/5-data-trends-for-y2023-da9af83cca34