Architecture data & governance-by-design

La gouvernance et la conformité des données sont indispensables pour instaurer la confiance en votre architecture data.

À l’heure du « tout data », la gouvernance des données s’impose comme un élément indispensable dès la conception architecturale. Loin de se limiter au big data historique, elle s’applique désormais à l’ensemble de la gestion des données. Intégrer la gouvernance des données dès le départ permet d’anticiper et d’atténuer les risques juridiques, financiers et de réputation liés à une approche réactive et non anticipée.

L’impact chiffré d’une gouvernance défaillante
Selon une étude récente de Gartner, 90% des projets Big Data échouent à cause de problèmes de gouvernance des données. De plus, les violations de données coûtent en moyenne 6 millions de dollars aux entreprises. Pire encore, un retard dans l’intégration de la gouvernance peut entraîner des coûts jusqu’à cinq fois supérieurs à ceux d’une implémentation initiale, sans compter les interruptions opérationnelles et les amendes faramineuses pouvant atteindre 20 millions d’euros pour non-conformité au RGPD. Les conséquences vont au-delà des pertes financières : une fuite de données peut « saper » 73% de la confiance des clients et ternir irrémédiablement l’image de l’entreprise, selon une étude de Salesforce.

Alors que chaque octet est potentiellement sujet à examen et doit être justifiable, l’intégration des principes de confidentialité, d’éthique et de conformité réglementaire dès le départ est cruciale. La négligence de ces aspects dès l’étape de conception engendre inévitablement des failles structurelles et des vulnérabilités qui compromettent la sécurité et l’intégrité des données.

Que ce soit au sein d’une architecture de data warehouse centralisée, d’un data lake ou d’un data mesh, la gouvernance des données doit être mise en œuvre de manière à garantir l’intégrité, la qualité, et la sécurité des données. Cela peut être réalisé à travers divers modèles organisationnels, allant de la gouvernance centralisée à la décentralisée, jusqu’à une méthode hybride.

Plusieurs méthodologies existent pour mettre en œuvre la gouvernance des données :

  • Modèle de gouvernance centralisée : Un comité central définit les politiques et les procédures de gouvernance qui s’appliquent à l’ensemble de l’organisation.
  • Modèle de gouvernance décentralisée : La responsabilité de la gouvernance est déléguée aux différentes unités opérationnelles.
  • Modèle hybride : C’est la combinaison entre les deux approches précédentes.

Enfin, une architecture de données conçue avec la gouvernance by design assure une bien meilleure qualité des données in fine, permettant un gain d’efficacité des analyses de 40% d’après Forrester. De même, une conformité transparente et une efficacité accrue permettent une réduction des coûts de gestion des données, estimée à 30% selon McKinsey. Intégrer la gouvernance dès la conception n’est pas seulement une question de conformité, mais une décision stratégique qui renforce la durabilité et la résilience de l’écosystème de données de l’entreprise.



Les cadres réglementaires et les normes françaises et européennes incitent également à une intégration de la gouvernance dès la conception des architectures data.

C’est le pilier incontournable de la protection des données en Europe, le RGPD impose aux entreprises de mettre en place des mesures strictes de gouvernance des données pour garantir la sécurité, la confidentialité et la protection des données personnelles des citoyens européens. L’intégration de la gouvernance dès la conception est essentielle pour respecter les principes du RGPD tels que la minimisation des données, la limitation du traitement et la responsabilisation.

Adoptée en France en 2016, la LRN vise à renforcer la confiance dans le numérique et à promouvoir l’innovation. Elle encourage l’adoption de pratiques de gouvernance des données par les entreprises pour une meilleure gestion des données sensibles. Elle fournit un cadre réglementaire et des principes directeurs qui peuvent aider les organisations à mieux gérer leurs données et à tirer parti des avantages du numérique.

Les normes ISO/IEC 27001 et ISO/IEC 27018 jouent un rôle crucial dans la mise en œuvre d’une gouvernance des données efficace dans les environnements cloud. En effet, ces normes fournissent un cadre complet pour la gestion des risques liés à la sécurité de l’information et à la protection des données personnelles dans le cloud computing. L’adoption de ces normes permet aux entreprises de mettre en place des pratiques de gouvernance des données rigoureuses et conformes aux meilleures pratiques.

La tendance est à l’adoption de réglementations strictes en matière de gouvernance des données et c’est le cas également dans d’autres pays, comme aux États-Unis avec le California Consumer Privacy Act (CCPA) et le California Privacy Rights Act (CPRA). Ces réglementations imposent des exigences similaires à celles du RGPD, incitant les entreprises à repenser leur approche de la gouvernance des données dès la conception des architectures data.

L’intégration de la gouvernance des données dès la conception n’est pas seulement une exigence réglementaire, mais c’est aussi une bonne pratique qui peut apporter de nombreux bénéfices aux entreprises. En adoptant une approche proactive de la gouvernance des données, les entreprises peuvent éviter les risques liés aux données, telles que les fuites de données et les violations de la vie privée.

La gouvernance et la conformité des données ne sont pas simplement des obligations réglementaires ; elles constituent un engagement envers toutes les parties prenantes de l’entreprise. En établissant des fondations solides sur la qualité, l’intégrité des données, des politiques de sécurité solides ainsi que des rôles et des responsabilités clairement définis ; vous disposez d’une architecture de données fiable, sécurisée et pérenne, propice à la confiance mais surtout terreau d’une l’innovation durable.

3.1 Qualité et intégrité des données

Une gouvernance efficace vise avant tout à garantir l’exactitude, la cohérence et la fiabilité des données à travers toute l’entreprise. Cela inclut des processus rigoureux de validation, de nettoyage et de rapprochement des données, essentiels pour éliminer les erreurs et assurer une base de données fiable pour les décisions stratégiques. L’intégrité des données, étroitement liée à la qualité, concerne la justesse et à la complétude des données tout au long de leur cycle de vie. Pour ce faire, il est impératif de mettre en place des mécanismes de contrôle d’accès, des protocoles de gestion des versions et des procédures d’audit pour tracer toutes modifications ou accès aux données.

Quelles solutions ? Chez Smartpoint nous utilisons plusieurs outils tels que :

  • Informatica, une plateforme complète de gestion des données qui permet aux entreprises de profiler, nettoyer, enrichir et analyser leurs données
  • Collibra, une plateforme centralisée pour la définition et l’application des règles de qualité des données. Elle permet notamment d’automatiser les tâches de gouvernance des données, telles que la validation et la surveillance des données
  • Talend Data Fabric, une plateforme de gestion des données open source qui intègre des fonctionnalités de qualité des données, d’intégration de données et de gestion des métadonnées.
  • Citons également SAS Data Quality, IBM Data Quality Fabric et SAP Data Quality Management parfait si être en environnement SAP

3.2. Politiques et mécanismes de sécurité

La protection des données est un élément essentiel de la gouvernance des données. Les entreprises doivent mettre en place des politiques et des procédures robustes pour protéger leurs données contre les accès non autorisés, les fuites de données et les autres cybermenaces. Ces politiques doivent couvrir tous les aspects du cycle de vie des données, de la collecte à la destruction. Cela implique d’utiliser des technologies telles que le chiffrement, la tokenisation et l’utilisation de solutions de gestion des identités et des accès (IAM). La surveillance continue et l’évaluation des risques sont également des aspects critiques des politiques de sécurité qui nécessitent également des outils monitoring temps réel pour détecter les comportements anormaux et les tentatives d’intrusion, ainsi que des procédures d’intervention rapide en cas d’incident.

La définition claire des rôles et des responsabilités est essentielle pour une gouvernance des données efficace. Cela permet de garantir que tout le monde sait ce qu’il est censé faire et que les données sont gérées de manière cohérente et efficace. Cela permet d’éviter les doublons de travail, les conflits et les lacunes de responsabilité. Voici les rôles les plus fréquemment observés dans la cas d’une architecture data moderne :

  • Le responsable de la gouvernance des données (Data Governance Officer) est responsable de la stratégie globale de gouvernance des données de l’organisation. Il définit les politiques et les procédures de gouvernance des données, et veille à leur mise en œuvre.
  • Le responsable des données (Data Owner) est responsable de la qualité, de la sécurité et de l’intégrité d’un ensemble de données spécifique. Il travaille avec les autres acteurs impliqués dans le data set pour définir les exigences de gouvernance des données et pour s’assurer qu’elles sont respectées.
  • Le Data Steward est responsable de la gestion quotidienne d’un data set. Il assure la liaison entre le responsable des données et les utilisateurs des données, et veille à ce que les données soient utilisées de manière conforme aux politiques de gouvernance des données.
  • L’analyste des données (Data Analyst) utilise les données pour générer des informations et des insights. Il doit avoir une bonne compréhension des politiques de gouvernance des données et doit les respecter lors de l’utilisation des données.

3.4. Zoom sur les particularités de la gouvernance des données dans le cloud

La gouvernance des données dans le cloud est devenue un enjeu crucial pour nos clients qui s’appuient toujours davantage sur le cloud pour stocker et traiter leurs données. La complexité inhérente au cloud, la distribution des données et l’évolution constante des technologies rendent la gouvernance des données plus difficile que jamais.

D’ailleurs, 66% des entreprises dénoncent le manque de visibilité sur leurs données et 73% déclarent avoir des difficultés à respecter les règlementations sur la protection des données dans le cloud.

Sources : IDC 2022 et Gartner 2021

Smartpoint se positionne en tant que partenaire stratégique pour transformer les défis du cloud en opportunités. La visibilité et le contrôle, fondamentaux pour la gouvernance des données, sont renforcés par des outils de monitoring avancés, et une maîtrise du FinOps, permettant une gestion optimisée des coûts du cloud. Smartpoint favorise l’adoption de pratiques de Cloud Security Posture Management (CSPM) pour garantir sécurité et conformité.

L’expertise de Smartpoint en matière de gestion des risques diminue la dépendance des entreprises vis-à-vis des fournisseurs de cloud, proposant des solutions qui accroissent la résilience opérationnelle. Cette indépendance est également soutenue par la promotion de la portabilité des données, évitant ainsi l’écueil des environnements propriétaires.

Dans les architectures data de dernière génération qui mobilisent tout un écosystème, la gestion des métadonnées est centrale. Elle permet une classification précise selon leur format, leur origine, leur structure, leur signification, etc. Les solutions de gestion de métadonnées permettent aux entreprises de cataloguer, organiser et gérer leurs métadonnées, facilitant ainsi la découverte, la compréhension et l’utilisation des données. Chez Smartpoint, nous utilisons notamment Informatica et Collibra.

Selon Gartner, d’ici 2023, 70% des initiatives de gouvernance des données échoueront à cause d’une mauvaise gestion des métadonnées. Cela met en évidence l’importance cruciale d’adopter des solutions de gestion de métadonnées efficaces pour une gouvernance des données réussie.

Source : Gartner 2023

Les data catalogs sont également des outils indispensables. Ils servent de référentiels centralisés permettant une vue étendue sur les actifs de données disponibles à travers l’organisation et leurs accès.

Les solutions de data lineage permettent quant à elle de cartographier le parcours des données à travers les systèmes et les applications métiers, depuis leur origine jusqu’à leur forme finale, mettant ainsi en lumières les différentes étapes successives de transformation. Cette traçabilité est indispensable pour comprendre l’impact des modifications et assurer ainsi la qualité de données

L’utilisation de la blockchain est également prometteuse comme garant de la traçabilité et de l’intégrité des données. Elle permet de créer un registre immuable et infalsifiable qui vient renforcer la confiance dans la data et son utilisation. Cela permet de vérifier et de valider les échanges de données au sein des architectures complexes. Nous pouvons ici citer des solutions comme Hyperledger Fabric ou IBM Blockchain.

En intégrant ces technologies et ces outils de gouvernance, Smartpoint s’attache à concevoir des architectures data robustes et évolutives, assurant ainsi une gouvernance data by design.

Pour conclure

En synthèse, nous pensons chez Smartpoint que les architectures de données de demain seront intrinsèquement conçues autour d’une gouvernance intégrée – un principe de « governance-by-design ». Cela implique une infrastructure où la gouvernance n’est pas une réflexion après coup mais bien la du système, assurant transparence, sécurité et conformité à chaque étape du cycle de vie des données.

LAISSEZ-NOUS UN MESSAGE

Les champs obligatoires sont indiqués avec *.

    Prénom*

    Nom*

    Société*

    E-mail*

    Téléphone*

    Objet*

    Message

    Stratégies d’ingestion de la data et solutions 2024

    Votre stratégie d’ingestion de données dépend aussi de votre architecture data et de vos choix en matière de stockage. La maîtrise des différentes stratégies d’ingestion des données essentielle dans l’ingénierie data. C’est un prérequis pour garantir l’efficacité, la fiabilité et la scalabilité des pipelines de données.

    L’ingestion de données est le premier contact entre la donnée brute et les systèmes d’information. Elle pose les bases des analyses futures et de la création de valeur.

    Cette étape est intrinsèquement liée à l’architecture globale de traitement des données et aux choix de stockage, qui doivent être adaptés pour répondre aux différents cas d’usages.


    Le choix de la stratégie d’ingestion dépend de plusieurs facteurs, comme que le volume des données, la vitesse requise pour l’obtention des insights, la complexité des opérations de transformation, et le niveau de latence acceptable. L’intégration des stratégies d’ingestion dans l’architecture de données et les choix de stockage permet de créer des pipelines robustes, efficaces et créateurs de valeur pour votre entreprise.

    1. ETL (Extract, Transform, Load)

    L’ETL est la méthode traditionnelle. Les données sont extraites de différentes sources puis transformées pour répondre aux exigences de l’entrepôt de données (nettoyage, agrégation, résumé, etc.). Elle sont ensuite chargées dans le data warehouse. Cette approche est à privilégier lorsque la transformation des données nécessite des calculs lourds qui sont non seulement couteux en ressources informatiques ; mais aussi sont plus efficaces lorsqu’ils sont effectués en dehors de la base de données cible.

    Quelques solutions recommandées par nos équipes : Talend Data Fabric, Informatica, Fivetran, Matillon, Apache NiFi, DataStage IBM

    2. ELT (Extract, Load, Transform)

    L’ELT est une variante de l’ETL. Les données sont d’abord extraites puis chargées dans la destination cible (souvent un data lake ou un entrepôt de données moderne). La transformation est effectuée à postériori. Cette stratégie tire parti de la puissance de calcul des systèmes de stockage modernes pour effectuer les différents traitements. L’ELT est à privilégier dans les environnements qui nécessitent une grande flexibilité et une exploration rapide des données, ainsi que pour les architectures big data.

    Quelques solutions recommandées par nos équipes : Stitch, Fivetran, Snowflake (propre langage SQL et fortes capacités de traitement en parallèle), Google BigQuery, Amazon Redshift, DBT

    3. Reverse ETL

    Le Reverse ETL est une approche relativement nouvelle qui consiste à prendre des données déjà transformées et organisées dans un data warehouse ou un data lake, et à les envoyer vers des systèmes opérationnels comme les CRM ou les plateformes de marketing automatisé. Cette stratégie est utilisée pour enrichir les applications opérationnelles avec des insights approfondis et favoriser ainsi des actions en temps réel basées sur des analyses de données.

    Quelques solutions recommandées par nos équipes : Airbyte, Census, Hightouch

    4. Streaming Data Ingestion

    L’ingestion de données en streaming est une approche où les données sont ingérées en temps réel à mesure qu’elles sont générées. Cette stratégie est essentielle pour les cas d’utilisation qui dépendent de la fraîcheur des données et le traitement en continu des flux, comme la détection des fraudes, la surveillance en temps réel de systèmes (IOT) ou les recommandations instantanées.

    Quelques solutions recommandées par nos équipes : Apache Kafka, Azure Data Factory, Google Cloud Dataflow

    5. Data Federation

    La fédération de données est une approche où les données restent dans leurs systèmes sources et sont virtualisées pour apparaître comme source de données unique. Cette stratégie évite le déplacement physique des données et est utile pour les requêtes ad hoc ou des cas d’utilisation d’accès aux données en temps réel. Elle est supportée par des frameworks comme Hadoop.

    6. Change Data Capture (CDC)

    Le Change Data Capture est une technique utilisée pour capturer les changements dans les données à leur source et les répliquer dans le système de destination. Le CDC est souvent utilisé pour synchroniser des bases de données en temps réel et pour garantir que les entrepôts de données et les data lakes sont constamment mis à jour avec les dernières informations.

    Quelques solutions recommandées par nos équipes : Informatica ou Talend


    La stratégie d’ingestion choisie doit être cohérente avec votre architecture data et s’aligner avec les besoins analytiques et opérationnels de votre entreprise.

    • Les architectures data warehouses sont à privilégier pour des besoins d’analyse et de reporting structuré qui requièrent des données bien organisées et souvent transformées avant la phase ingestion.
    • Les data lakes offrent davantage de flexibilité pour les données non structurées ou semi-structurées et supportent à la fois les ingestions en temps réel et par lots, permettant ainsi un traitement et une analyse à postériori.
    • Les architectures en streaming répondent au besoin d’analyses en temps réel car elles gèrent l’ingestion en continu des données via des plateformes spécialisées comme Apache Kafka.
    • Les architectures microservices et orientées événements sont décentralisées et offrent davantage de scalabilité, chaque microservice gérant son propre pipeline de données.
    • Les architectures hybrides mixent entrepôts et lacs de données pour capitaliser sur les avantages de chaque approche.
    ARCHITECTURE ET STOCKAGE DES DONNÉS

    Les choix de stockage, comme le stockage sur disque, le stockage objet dans le cloud ou les bases de données NoSQL, influencent directement la manière dont les données sont ingérées et gérées.

    • Le stockage sur disque est à privilégier pour un accès rapide et fréquent.

    • Le stockage objet dans le cloud permet plus de scalabilité pour les data lakes avec des capacités d’intégration avec des services d’analyse dans le cloud.

    • Le stockage en bloc soutient les performances en lecture/écriture pour les bases de données particulièrement exigeantes.

    • Le stockage de fichiers distribués est optimal pour l’accès sur plusieurs serveurs.

    • Les bases de données NoSQL sont à privilégier les données non structurées car elles offrent davantage de flexibilité avec les données non structurées.

    L’ingestion de données est indissociable de l’architecture de données et des solutions de stockage choisies. Nos data engineers Smartpoint appréhendent cela comme un écosystème interconnecté, optimisé pour les besoins spécifiques de votre organisation. En prenant en considération tous ces critères – cas d’utilisation, fiabilité, destination des données, fréquence d’accès, volume, format, qualité et gestion des données en streaming – ils sont en capacité de construire des bases solides pour la gestion des données qui vous permettront de tirer des insights précieux et d’alimenter vos prises de décision.


    Vous avez besoin d’être accompagné dans votre stratégie d’ingestion de données ? Vous avez besoin d’être conseillé pour trouver la solution qui vous correspond ? Vous avez besoin de renfort dans vos équipes ou un chantier à lancer ? Challengez-nous !



    Solutions IA en entreprises, les DSI au coeur du paradoxe

    L’Intelligence Artificielle en entreprise, comment conjuguer innovations et défis technologiques ?

    L’IA, une adoption massive par les DSI et des bénéfices évidents … mais des failles qui se creusent

    Dans un monde où le progrès technologique est aussi rapide qu’inexorable, les Directeurs des Systèmes d’Information (DSI) jouent un rôle central. Ils doivent orchestrer l’adoption de l’intelligence artificielle (IA), une technologie qui promet de révolutionner non seulement la manière dont nous travaillons mais aussi comment nous envisageons le rapport entre l’humain et la machine. Selon le rapport 2024 Connectivity Benchmark de MuleSoft, 80% des entreprises sont déjà sur la voie de cette révolution et ont déjà adopté plusieurs modèles d’IA. Et cela va s’accélérer avec une augmentation prévue de 78% dans les trois années à venir.

    Les gains sont tangibles :

    • une productivité accrue chez 85% des développeurs, selon les DSI.
    • Près de 50% des informaticiens considèrent que l’IA fait gagner du temps face à l’accroissement des tâches chronophage en gagnant cinq heures par semaine, afin de se consacrer aux travaux plus complexes difficiles à automatiser (étude « State of Workplace Technology » de Freshworks 2023)

    Cependant, cette adoption ne va pas sans son lot de défis. L’intégration de l’IA dans les écosystèmes IT existants s’avère difficile pour 90% des DSI, avec des problématiques de sécurité et le défi incessant des silos de données qui freinent 80% des entreprises dans leur transformation numérique.

    Le casse-tête du patrimoine informatique et l’impératif d’intégration inter-applicative

    Imaginez gérer un patrimoine de près de 1000 applications différentes, dont la durée de vie moyenne est inférieure à quatre ans. Cette réalité est le quotidien de nombreuses entreprises, où seulement un quart d’entre elles réussissent notamment à offrir une expérience client multi-canal cohérente. L’intégration est devenu un impératif stratégique, mais aussi un défi colossal. Comment allier l’impératif de gestion d’un tel patrimoine avec celui de l’innovation continue ?

    Sécurité et éthique : des considérations devenues primordiales

    La sécurité et l’éthique de l’utilisation de l’IA sont au cœur des préoccupations pour 79% et 64% des DSI respectivement. Ces enjeux, souvent relégués au second plan lors de l’implémentation initiale de l’IA, se retrouvent désormais au premier plan, nécessitant une réaction rapide et conforme aux futures régulations, telles que l’AI Act européen qui sera pleinement en vigueur d’ici fin 2025.

    Ainsi, si près de la moitié des DSI vont adopter une solution IA en 2024 … seulement 28% des applications y seront connectées.

    Smartpoint, partenaire stratégique des DSI pour relever les défis de l’IA

    Smartpoint se positionne comme le partenaire stratégique des DSI pour relever ces défis. Notre approche se focalise sur l’intégration intelligente de l’IA, soutenue par une gestion experte et responsable des données. Nous proposons :

    • Des stratégies d’intégration personnalisées, adaptées à l’environnement multi-applicatif des entreprises modernes.
    • Des solutions pour démanteler les silos de données, créant une gouvernance des données unifiée et efficace.
    • Une expertise pointue en matière de sécurité et d’éthique de l’IA pour assurer une conformité sans faille et une innovation éthique.

    Êtes-vous prêt à transformer les défis de l’IA en opportunités ?

    Source et pour aller plus loin :

    Data Mesh, une révolution en ingénierie des données … par la décentralisation.



    En ingénierie data, c’est en effet en train de devenir la pierre angulaire des nouvelles pratiques. Au-delà de changer l’approche même de la data, il permet de remettre à plat la stratégie pour traiter et exploiter pleinement leur potentiel. Au cœur de cette « révolution », le data mesh traite les données comme un produit et prône une propriété décentralisée et distribuée des données orientée vers le domaine.

    Les Data Products sont dont conçus, développés et maintenus en fonctions des besoins spécifiques de leur domaine, conformément aux principes fondamentaux de l’approche Data Mesh.

    Les principes fondamentaux de cette architecture data, de sa conception à son exécution.

    • Les données sont l’actif principal : Toute décision concernant la conception et l’architecture doit être prise en fonction des données qui sont traitées comme des produits. Elles ne sont plus une ressource cachée, mais un produit concret avec une propriété claire et des règles d’accessibilité précises.
    • La gouvernance des donnée est décentralisée : Les propriétés et le contrôle des données sont distribués parmi différents domaines et les équipes en charge de ces domaines. Les équipes de domaine sont responsables de la qualité, de l’accessibilité et de la compréhension des données, garantissant ainsi que les données sont entre les mains de ceux qui les connaissent le mieux !
    • La conception pilotée par le domaine, Domain Driven Design, est par nature adaptée à ce type d’architecture. Le développement piloté par des composants autonomes et réutilisables, Component-Driven Developement, fournit la modularité nécessaire pour la mettre en oeuvre. Dans un data mesh, ces composants correspondent à des pipelines de données, des traitements ou des systèmes de delivery des données spécifiques aux domaines.
    • L’intéropérabilité des données : Un schéma de données commun favorise un échange fluide des données entre les différents systèmes.
    • Une architecture basée sur les événements : L’échange de données s’effectue en temps réel au fur et à mesure que les événements se produisent.
    • La sécurité des données : La protection des données est réalisée via grâce à des mesures telles que le contrôle des d’accès et le chiffrement.
    • La scalabilité et résilience : l’architecture est conçue nativement pour gérer de grands volumes de données et résister aux défaillances.

    Les avantages d’une architecture Data Mesh

    La scalabilité :

    Le Data Mesh, c’est une méthode évolutive qui permet de connecter des sources de données via plusieurs plateformes et domaines. Ainsi, vous pouvez rajouter facilement de nouvelles sources au fur et à mesure que vos besoins évoluent.

    La flexibilité :

    Le Data Mesh est très flexible et prend en charge de multiples protocoles et formats de données et protocoles. Ainsi, vous pouvez utiliser différents systèmes et applications vous soucier d’éventuels problèmes de compatibilité entre les données.

    La résilience :

    Le data mesh offre une architecture robuste capable de résister aux pannes et d’assurer un échange de données en continu. Vous pouvez compter dessus même pour l’échange de données critiques sans vous préoccuper des temps d’arrêt ou des pertes de données (lors des opérations de maintenance par exemple).

    La sécurité :

    Le Data Mesh offre une manière sécurisée d’échanger des données à travers différents domaines et plateformes. Vos données sont donc par nature protégées contre tous accès non autorisés.

    Le Data Mesh n’est pas qu’un simple buzz word mais bien un changement de paradigme en ingénierie des données qui s’appuie sur des changement majeurs : la donnée est considérée comme un produit accessible, l’infrastructure est en en libre-service, une plateforme de données as a product et une gouvernance axée sur des domaines spécifiques propriétaires.

    Comment concevoir votre Data Mesh via le Domain Driven Design (DDD) et le Composant Driven Developement (CDD) ?

    La première étape consiste à identifier et délimiter vos différents domaines via le domain driven design (DDD). Cela permet de se concentrer sur le périmètre précis de chaque domaine, les relations entre eux, les processus associés, etc. Dès lors, vous avez la base de vos Data Products ! Reste à cartographier votre « paysage » de données, c’est à dire comment le domaine consomme les données, comment elles circulent, qui les exploitent, à quoi elles servent et quelles sont leurs valeurs ajoutées. Une fois le paysage posé, vous devez définir clairement votre domaine et ses limites en vous concentrant sur les données spécifiques à ce domaine en particulier et les processus associés, c’est ce qui va permettre de définir les responsabilités de chacun, puis d’attribuer la propriété des data products. C’est le principe même du data-mesh, responsabiliser les équipes les plus à même de comprendre leurs données et de gérer leur domaine !

    Une fois vos « produits de données » définis, le composant-driven developement vous permet de réaliser votre architecture en décomposant votre domaine en petits composants indépendants, autonomes, faciles à gérer et réutilisables. Chaque composant est associé à une tache spécifique comme l’ingestion, la transformation, le stockage ou encore la livraison des données. Ils sont développés, testés et déployés de manière indépendante.

    Il ne vous reste plus qu’à assembler votre data-mesh ! Chaque composant interagit avec les autres pour former un système cohérent avec des protocoles de communication normalisés et des APIs pour garantir l’intéropérabilité entre les composants.

    Je souhaite moderniser mon architecture data. Nos consultants vous accompagnent dans vos choix pour trouver la meilleure solution architecturale. Laissez-nous un message :

    Pour aller plus loin :

    https://medium.com/@msalinas92/understanding-datamesh-implementation-advantages-and-examples-3f8e0ad9071e