Architecture Data : le modèle Médaillon, la solution à la dette technique ?

Entre les promesses non tenues des Data Lakes, les ETL vieillissants et les plateformes cloud sous-exploitées, de nombreuses entreprises subissent une forte dette technique : leur architecture data ne suit plus le rythme des demandes métiers. Le modèle Médaillon, popularisé par Databricks, s’impose comme une solution intéressante et structurante pour reprendre le contrôle sur le cycle de vie de la donnée.

La modernisation des architectures data s’est souvent résumée à un empilement de technologies : ingestion par API, stockage S3, moteur Spark, outil BI, scripts SQL … Mais sans cadre structurant, cette complexité finit par générer l’effet inverse de celui recherché : une dette croissante, des pipelines data fragiles, une gouvernance floue, et des métiers désorientés.

Dans une économie pilotée par les données, où chaque décision, chaque automatisation ou modèle d’IA doit s’appuyer sur des pipelines fiables, une dette data non maîtrisée est un véritable risque.

Le modèle Médaillon, fondé sur une architecture en couches (Bronze, Silver, Gold), ne se contente pas de rationaliser les pipelines de données. Il impose une discipline d’ingénierie data à l’échelle de l’entreprise, une logique de valeur progressive de la donnée, et un socle gouverné, prêt pour la scalabilité et la conformité.

Quelles sont les solutions pour les DSI ? Continuer à colmater son legacy avec des outils modernes mal intégrés ? Ou basculer vers une approche très structurée pour sortir durablement du cercle dette / dérive / refonte ?

La promesse déçue des Data Lakes

Les Data Lakes ont longtemps représenté une alternative moderne aux entrepôts de données traditionnels : ingestion massive, prise en charge de tout type de données, faible coût de stockage… mais sans réelle structuration, beaucoup se sont transformés en data swamps. Résultat : des pipelines de données complexes, une faible qualité de données, une gouvernance difficile, et des plateformes incapables de soutenir les technologies d’IA ou les ambitions des métiers.

Face à l’empilement de solutions hétérogènes, à la dette technique croissante et à la pression des métiers, de plus en plus de DSI et de Responsables Data se trouvent dos au mur : repenser l’architecture data est une nécessité. En réponse, le modèle Médaillon apparait comme un cadre structurant, capable de redonner cohérence, fiabilité et gouvernance à l’ensemble du cycle de vie des données.

Architecture Médaillon : une solution progressive et gouvernée

L’architecture Médaillon repose sur le principe de raffinement successif de la donnée via trois couches distinctes :

  • Bronze : Données brutes, telles qu’ingérées.
  • Silver : Données nettoyées, normalisées et enrichies.
  • Gold : Données business-ready, prêtes pour la BI, l’IA ou les dashboards.

Pensée pour les architectures Lakehouse comme Databricks, elle permet une mise en qualité progressive de la donnée, tout en assurant traçabilité, gouvernance et performance.

Zoom sur les couches Médaillon

L’architecture Médaillon repose sur une organisation des données en trois couches successives, Bronze, Silver et Gold  (raw → clean → curated), chacune apportant un niveau croissant de structuration, de qualité et de valeur métier.

Bronze : données brutes traçables

La couche Bronze constitue le point d’entrée des données dans le système. Elle stocke les données dans leur format d’origine, sans aucune transformation, selon une logique append-only. Ce mode de stockage garantit la traçabilité des données, tout en assurant la reproductibilité des traitements en cas de besoin. On y retrouve des données issues de sources très diverses : APIs, fichiers plats, logs applicatifs, objets connectés (IoT), etc. Cette couche est le socle d’historisation et de fiabilité.

Silver : nettoyage, validation et enrichissement

La couche Silver, c’est le cœur opérationnel de cette architecture Data. Elle traite les données brutes issues de Bronze pour les nettoyer, valider et enrichir selon les besoins métiers ou analytiques. Les opérations types comprennent le dédoublonnage, la standardisation des formats ainsi que les vérifications des règles métiers. C’est également lors de cette étape que les données sont structurées dans des schémas exploitables, prêtes à être croisées ou analysées. La couche Silver délivre des datasets fiables pour les data discovery, la BI ou la data science.

Gold : données métiers optimisées

La couche Gold représente le niveau de raffinement optimal : les données sont agrégées, enrichies et modélisées selon les besoins spécifiques des utilisateurs métiers. On y retrouve des indicateurs clés (KPIs) et les vues agrégées. Ces datasets sont pensés pour une consommation immédiate via des outils de BI, des tableaux de bord, ou des applications IA. C’est la couche la plus exposée du pipeline, celle qui transforme les données en actifs décisionnels.

Pourquoi choisir la plateforme Databricks ?

L’architecture Médaillon révèle toute sa valeur ajoutée tout son sens lorsqu’elle est intégrée dans une plateforme unifiée. Databricks, qui a popularisé ce modèle, offre l’une des implémentations les plus matures et les plus opérationnelles. L’ensemble de ses briques techniques a été conçu pour s’aligner nativement sur le schéma Bronze / Silver / Gold, tout en permettant une scalabilité cloud, une gouvernance fine et le développement de l’IA.

1. Delta Lake, socle transactionnel

Delta Lake est le moteur de stockage et de traitement unifié de Databricks. Il permet d’enregistrer les données dans un format transactionnel ACID, avec la gestion de versions, le time travel (retour à un état antérieur de la donnée), et le support natif du streaming comme du batch. Chaque couche du modèle Médaillon peut être ainsi versionnée, historisée et auditée.

2. Delta Live Tables, automatisation des pipelines

Delta Live Tables (DLT) permet de créer des pipelines de transformation déclaratifs, orchestrés automatiquement par la plateforme. L’enchaînement Bronze → Silver → Gold est modélisé comme un workflow vivant, observable, testé, monitoré, et réexécutable à la demande. Cette brique limite les erreurs humaines et standardise les pipelines data dans un environnement multi-équipe.

3. Unity Catalog , centralisation de la gouvernance

Unity Catalog est la solution de gouvernance des data products de Databricks. Il centralise la gestion des métadonnées, des schémas, des politiques d’accès (RBAC), et assure une traçabilité complète des usages. Il devient le backbone de la gouvernance dans des environnements multi-workspaces, multi-clusters ou multi-clouds.

4. MLflow pour les modèles IA en production

MLflow complète l’écosystème avec une solution native de gestion du cycle de vie des modèles IA : entraînement, suivi, déploiement, versioning… Les datasets Silver et Gold peuvent sont directement utilisés pour créer des features sets, entraîner des modèles ou réaliser des inférences. L’intégration avec Delta Lake garantit que les modèles consomment des données fiables, gouvernées et reproductibles.

Databricks, c’est une chaîne de valeur data / IA cohérente, intégrée, et gouvernée de bout en bout. La plateforme permet de standardiser les pipelines Data, de réduire la dette technique, et de scaler les cas d’usage métiers et IA sur une infrastructure robuste.

PlateformeModèle Médaillon natif ?C’est pour vous si :
DatabricksOui (intégré nativement)Vous cherchez une solution unifiée Data + IA + gouvernance
SnowflakeNon, mais possibleVous avez un stack SQL/dbt
BigQuery
Non, mais possible
Vous êtes dans l’écosystème Google et voulez développer l’IA
Azure Synapse
Non, mais possible
Vous êtes dans un environnement Microsoft / Power BI

L’architecture Médaillon vs. ETL

Il est intéressant de comparer Médaillon avec les autres approches de transformation des données :

CritèreETL ClassiqueELTArchitecture Médaillon
Type de donnéesStructurées uniquementStructuréesTous formats (JSON, CSV, IoT, etc.)
FlexibilitéFaible (workflow rigide)Moyenne (transformations en SQL)Forte (multi-langages, multi-formats, modulaire)
Temps réelNonParfois (ajouté a posteriori)Oui (streaming natif avec Spark)
GouvernanceManuellePartielle (dépend de la plateforme)Complète avec métadonnées, lineage
MaintenanceComplexe à maintenirVariable, dépend des outomsModulaire, versionnable, traçable

Contrairement aux approches plus classiques, l’architecture Médaillon est nativement compatible avec le cloud, les workloads IA, la BI et répond aux contraintes réglementaires.

Gouvernance, sécurité et qualité de données

L’architecture Médaillon permet d’automatiser la gouvernance, couche par couche :

  • Bronze : gestion des sources, métadonnées techniques
  • Silver : logs de validation, transformation documentée
  • Gold : politiques d’accès RBAC, journalisation des consultations, KPIs traçables

Elle offre un cadre de conformité natif avec le RGPD, grâce à une traçabilité fine, un contrôle granulaire des accès et une gestion encadrée des données personnelles sensibles.

Architecture Médaillon et traitement temps réel

L’architecture Médaillon n’est pas limitée aux traitements batch ou à des usages différés. Elle supporte aussi les pipelines temps réel, : ingestion continue transformation à la volée, exposition des data prêtes à l’usage.

L’ingestion des données en temps réel peut être faite avec des technologies comme Apache Kafka, Azure Event Hubs ou Google Pub/Sub, qui alimentent directement la couche Bronze. Ces flux continus sont ensuite traités dans la couche Silver grâce à des moteurs comme Spark Structured Streaming, qui permettent de nettoyer, d’enrichir et de transformer les données.

Enfin, la couche Gold agrège ces données en quasi temps réel pour produire des indicateurs métiers ou déclencher des actions automatisées. L’architecture Médaillon permet un raffinement progressif même dans un contexte streaming, tout en maintenant les principes de traçabilité et de gouvernance.

Quelques cas d’usages : suivi logistique en temps réel (colis, flotte, IoT), pricing dynamique en fonction de la demande ou des stocks, détection de fraude sur des transactions.

Stratégie de modernisation de votre SI Data

La mise en place d’une architecture Médaillon s’inscrit souvent dans un projet plus large de modernisation du système d’information data.

Plusieurs facteurs peuvent motiver cette décision.

Parmi eux, on retrouve fréquemment les attentes croissances des métiers en matière de BI, d’IA ou de fiabilité des données. La migration vers des environnements cloud est également un accélérateur car une architecture Médaillon offre une infrastructure scalable et adaptée aux workloads data. L’adoption de plateformes unifiées, comme Databricks, a également un rôle central car elle fournit les briques prêtes à l’emploi pour concevoir des pipelines gouvernés et industrialisés.

À l’inverse, certains facteurs peuvent freiner l’adoption d’une architecture Médaillon. C’est souvent le cas lorsque les données sont fortement silotées, peu documentées, ou réparties entre plusieurs systèmes hétérogènes. Les DSI avec un legacy particulièrement complexe, basé sur des ETL propriétaires, des bases cloisonnées ou des workflows complexes, ont également du mal à mettre en place des pipelines plus agiles. Enfin, le manque d’acculturation DataOps ou en gouvernance des données est également un frein.

Vers une architecture Data moderne, distribuée et gouvernée

L’architecture Médaillon est également un socle pour des approches data plus avancées, notamment dans des environnements distribués ou fortement orientés métiers.

Elle est particulièrement adaptée à l’approche Data Mesh, où chaque domaine métier est propriétaire de ses propres pipelines de données. Grâce aux couches Bronze / Silver / Gold, chaque équipe peut concevoir, gouverner et exposer des Data Products industrialisés, versionnés et traçables, tout en respectant un cadre commun de gouvernance à l’échelle de l’organisation.

L’architecture Médaillon facilite également la mise en œuvre d’une IA à l’échelle. Les données Silver, déjà nettoyées et enrichies, sont utilisées pour entraîner des modèles de machine learning. Quant à la couche Gold, elle est parfaitement adaptée au déploiement en production pour, par exemple, des prédictions en temps réel ou des systèmes de recommandation. L’intégration avec des outils comme MLflow (nativement supporté sur Databricks) permet d’assurer un pilotage complet du cycle de vie des modèles : de la phase d’expérimentation jusqu’au monitoring post-déploiement.

Architecture Médaillon, le socle d’un SI data-first

Adopter une architecture Médaillon, c’est prioriser la fiabilité des données, la gouvernance, la traçabilité et l’évolutivité. Alors que les entreprises cherchent à industrialiser leurs cas d’usage data, tout en maîtrisant les coûts, les risques et la conformité, l’architecture Médaillon s’impose. 

Intégrée dans une plateforme comme Databricks, elle représente un véritable levier de transformation pour la BI, l’IA, le reporting réglementaire, et la migration cloud.

Smartpoint vous accompagne sur toute la chaîne de valeur :

  • Cadrage de votre architecture data
  • Déploiement de Databricks et pipelines Médaillon
  • Mise en œuvre de Unity Catalog, DataOps, MLOps
  • Migration progressive de vos systèmes legacy
  • Formations et acculturation de vos équipes Data & Métiers

Contactez-nous pour valoriser vos actifs data grâce à une architecture résiliente, agile… prête à supporter tous vos projets d’avenir.

Sources :

LAISSEZ-NOUS UN MESSAGE

Les champs obligatoires sont indiqués avec *.

    Prénom*

    Nom*

    Société*

    E-mail*

    Téléphone*

    Objet*

    Message

    Data Mesh – Gouvernance Fédérée et Architectures Distribuées

    Le Data Mesh est une approche innovante qui répond aux limitations des architectures de données traditionnelles, notamment en matière de scalabilité et d’adaptabilité. Contrairement aux modèles centralisés, le Data Mesh propose une décentralisation de la gestion des données tout en renforçant la gouvernance globale.

    Les fondamentaux du Data Mesh

    Le Data Mesh repose sur des principes fondamentaux qui redéfinissent la gestion des données au sein des organisations.

    Approche Domain-Driven Design (DDD) : Les données sont structurées et administrées par des équipes métiers responsables de leurs domaines spécifiques, alignant ainsi la gestion des données sur les besoins opérationnels.

    Gouvernance Fédérée : Plutôt que d’adopter un contrôle centralisé, le Data Mesh met en place des politiques et des standards globaux appliqués de manière cohérente par les équipes locales, assurant une gouvernance équilibrée entre standardisation et autonomie.

    Données en tant que Produit (Data as a Product) : Chaque domaine considère ses données comme un produit, intégrant des API claires, une documentation standardisée et des accords de niveau de service (SLA) pour leur consommation.

    Les caractéristiques essentielles d’un Data as a product incluent :

    • Découvrabilité : Les données doivent être facilement identifiables et accessibles par les utilisateurs potentiels.
    • Adressabilité : Chaque produit de données doit disposer d’une adresse unique permettant un accès direct.
    • Fiabilité : Les données doivent être précises, cohérentes et disponibles conformément aux SLA définis.
    • Auto-descriptif : Les métadonnées doivent fournir une compréhension claire du contenu et du contexte des données.
    • Interopérabilité : Les données doivent être compatibles avec d’autres produits de données, facilitant ainsi leur intégration.
    • Sécurité : Les données doivent être protégées contre les accès non autorisés et respecter les normes de conformité.

    Ces principes assurent une gestion décentralisée des données, tout en maintenant une cohérence et une qualité optimales à l’échelle du SI de l’entreprise.

    Différences clés avec les approches modulaires

    Bien que les architectures modulaires et les microservices soient mentionnés dans le guide de Smartpoint sur les architectures data modernes, le Data Mesh se distingue par une orientation centrée sur les utilisateurs métiers. Contrairement aux microservices qui se concentrent sur les aspects technologiques, le Data Mesh permet aux utilisateurs métiers d’accéder directement aux données, en fournissant des outils adaptés pour démocratiser leur exploitation. De plus, alors que les architectures modulaires adressent principalement la scalabilité technique, le Data Mesh répond également aux enjeux humains et organisationnels, offrant ainsi une approche plus holistique de la gestion des données.

    Enjeux et avantages du Data Mesh

    L’adoption du Data Mesh offre plusieurs avantages pour les architectures de données et les systèmes d’information.

    En décentralisant la gestion des données, les équipes métiers gagnent en autonomie en leur permettant d’accéder, de transformer et de partager des données sans dépendre d’un département IT centralisé. Cette indépendance accélère les projets Data et favorise une réactivité accrue aux besoins métiers par nature évolutifs.

    Le Data Mesh contribue en effet à la réduction des délais de mise en production. En décentralisant la propriété des données et en permettant aux équipes de travailler de façon plus indépendante, les organisations peuvent répondre plus rapidement aux attentes métiers et proposer de nouveaux produits et services plus rapidement sur le marché.

    De plus, la décentralisation réduit les goulots d’étranglement en allégeant la charge des équipes IT « centrales », ce qui améliore l’efficacité opérationnelle. La gouvernance flexible du Data Mesh, avec des standards définis globalement mais appliqués localement, permet une adaptation aux spécificités de chaque domaine, assurant ainsi une cohérence tout en respectant les particularités locales.

    Cette approche favorise également une amélioration de la qualité des données, car chaque domaine fonctionnel est le plus à même de comprendre et de garantir l’intégrité de ses propres données, ce qui conduit à une meilleure satisfaction des utilisateurs.

    Enfin, cette architecture s’intègre particulièrement bien dans des environnements distribués ou hybrides, tels que le multi-cloud, optimisant ainsi la scalabilité et la flexibilité des systèmes d’information.

    Les défis à relever pour mettre en œuvre un Data Mesh

    La mise en œuvre du Data Mesh présente plusieurs défis majeurs.

    Tout d’abord, la formation des équipes métiers est essentielle pour qu’elles comprennent et assument leurs responsabilités en matière de gouvernance et de sécurité des données. Cette transition nécessite un changement culturel significatif, car les équipes doivent apprendre à travailler de manière autonome tout en collaborant efficacement.

    Ensuite, l’intéropérabilité et la nécessaire standardisation peuvent poser des problématiques IT. Dans une architecture Data Mesh, les données sont gérées de manière décentralisée par différents domaines fonctionnels, ce qui peut entraîner des divergences dans les formats, les structures et les protocoles de communication des données, rendant leur intégration plus complexe que prévu. Pour assurer une interopérabilité efficace, il est essentiel de définir des standards communs et des interfaces claires permettant aux différents domaines de partager et de consommer les données de manière cohérente. Cela nécessite la mise en place de contrats de données explicites et l’utilisation de technologies facilitant l’échange de données entre systèmes hétérogènes.

    De plus, la diversité des pratiques et des outils utilisés par les différentes équipes peut conduire à une hétérogénéité des données, compliquant leur utilisation transversale. La standardisation vise à harmoniser les formats, les nomenclatures et les métadonnées pour garantir une compréhension et une utilisation uniformes des données à travers l’organisation. Cela implique l’élaboration de conventions de nommage, la définition de schémas de données communs et l’adoption de protocoles standardisés pour la publication et la consommation des données.

    Enfin, la complexité accrue de l’architecture décentralisée requiert une orchestration rigoureuse pour garantir la cohérence globale du système. Cela implique la mise en place de mécanismes de gouvernance fédérée et de plateformes de données en libre-service pour soutenir les équipes dans la gestion de leurs données en tant que produits.

    Ces défis soulignent l’importance d’une planification stratégique et d’un engagement organisationnel fort lors de l’adoption du Data Mesh. S’entourer d’équipes expertes en ingénierie de la data, telles que celles de Smartpoint, est essentiel pour gérer efficacement à travers ces complexités et assurer une mise en œuvre réussie.

    Les outils

    L’adoption du Data Mesh nécessite la mise en place d’outils et de plateformes conçus pour faciliter sa mise en œuvre. Parmi les solutions leaders dans ce domaine, Smartpoint recommande :

    • Databricks : Cette plateforme unifiée offre des solutions pour l’ingestion, le traitement et l’analyse des données, simplifiant ainsi la gestion des pipelines de données dans une architecture Data Mesh.
    • Snowflake : En tant que plateforme de données cloud-native, Snowflake permet le stockage, le partage et l’analyse des données à grande échelle, favorisant une approche décentralisée de la gestion des données.
    • Nextdata : Fondée par Zhamak Dehghani, à l’origine du concept de Data Mesh en 2019, cette entreprise développe des solutions visant à faciliter l’adoption du Data Mesh en fournissant des outils adaptés aux besoins des organisations.
    • Denodo : Une solution de virtualisation des données qui facilite la mise en œuvre d’une architecture Data Mesh. En offrant une vue unifiée des données provenant de sources disparates, la plateforme Denodo permet un accès simplifié et une gestion efficace des données dans un environnement décentralisé. Cette approche est particulièrement adaptée aux architectures Data Mesh, où la gouvernance fédérée et la responsabilisation des équipes métiers sont essentielles.
    • AWS Lake Formation : Ce service d’Amazon Web Services simplifie la création de datalake sécurisés, permettant aux équipes de gérer et de partager leurs données de manière autonome.
    • Microsoft Azure Synapse Analytics : Cette plateforme analytique intégrée combine l’entreposage de données et l’analyse de big data, offrant une solution complète pour les architectures Data Mesh.

    Ces outils, en facilitant la décentralisation et la gestion autonome des données, contribuent à l’essor du Data Mesh. À terme, cette architecture de données pourrait devenir un standard dans les environnements multi-cloud complexes, où l’agilité et l’autonomie sont essentielles pour répondre aux défis modernes de la gestion des données.

    Pour relever les défis liés à la mise en œuvre du Data Mesh et en tirer pleinement parti, il est souvent nécessaire de faire appel aux services d’experts en architectures data et en ingénierie des données. Chez Smartpoint, nos équipes spécialisées vous accompagnent dans la conception et la mise en place de cette architecture innovante, en adaptant les solutions à vos besoins spécifiques. N’hésitez pas à nous contacter et modernisons ensemble votre architecture data.

    LAISSEZ-NOUS UN MESSAGE

    Les champs obligatoires sont indiqués avec *.

      Prénom*

      Nom*

      Société*

      E-mail*

      Téléphone*

      Objet*

      Message

      Quelles tendances data en cette fin d’année ? le TOP 3 selon Smartpoint, le spécialiste en ingénierie de la data.

      En cette fin d’année 2024, le paysage technologique continue d’évoluer à une vitesse fulgurante, porté par des avancées majeures dans l’intelligence artificielle, les architectures de données modulaires et la cybersécurité. Ces innovations transforment la manière dont les entreprises gèrent, exploitent et sécurisent leurs données. Smartpoint, expert en ingénierie de la data depuis sa création, vous présente les trois tendances clés à suivre pour rester à la pointe de ces évolutions.

      1) Développement assisté par l’IA

      Le développement logiciel connaît une transformation majeure avec l’intégration croissante de l’intelligence artificielle (IA). L’IA générative et le machine learning (ML) sont désormais utilisés pour assister les ingénieurs dans la création, le test et la livraison d’applications. Selon Gartner, d’ici 2028, 75 % des ingénieurs logiciels en entreprise utiliseront des assistants de codage IA, contre moins de 10 % en 2023. Cette tendance reflète l’énorme potentiel de l’IA pour automatiser des tâches complexes, améliorer la productivité, et réduire les erreurs dans les processus de développement​.

      Il en est de même dans l’écosystème Data !

      Citons pour exemple Snowflake qui exploite l’IA et le machine learning pour offrir une exploitation automatisée des données via des outils comme Snowpark, qui permet de développer et exécuter des modèles de machine learning directement dans le cloud. Les utilisateurs peuvent ingérer et analyser des données à grande échelle tout en intégrant des modèles prédictifs et génératifs pour des insights avancés​.

      Informatica, avec CLAIRE Engine, son moteur d’IA intégré dans Informatica Intelligent Data Management Cloud (IDMC), automatise l’ingestion et la gestion des données tout en utilisant des algorithmes de machine learning pour optimiser l’orchestration et la qualité des données. Cela permet de tirer parti de l’IA pour automatiser des processus complexes et accélérer l’exploration de données

      Enfin, connu pour sa plateforme Lakehouse, Databricks combine data lakes et data warehouses, et intègre des capacités avancées d’IA générative et de machine learning via MLflow. La plateforme permet de créer, entraîner et déployer des modèles d’IA directement sur les données, facilitant l’exploitation rapide et automatisée pour des analyses prédictives et des cas d’usage d’IA générative

      2) Architectures de données modulaires pour plus de flexibilité pour des besoins évolutifs

      Les architectures de données modulaires permettent une adaptabilité rapide aux changements des besoins métiers et technologiques. Ces architectures se composent de modules indépendants qui peuvent être développés, déployés, et mis à jour de manière autonome, offrant ainsi une flexibilité accrue. Un exemple courant est l’architecture microservices, où chaque service gère un aspect spécifique des données (comme la gestion des utilisateurs ou l’analyse des transactions), facilitant l’évolution et l’évolutivité de l’ensemble du système. Un autre exemple est l’architecture orientée événements (Event-Driven Architecture), utilisée dans des systèmes nécessitant une réponse en temps réel, où les composants modulaires réagissent aux événements au lieu de suivre un flux de données linéaire.

      Enfin, les plateformes dites Data Mesh décentralisent la gestion des données en permettant à chaque domaine de traiter ses propres données comme un produit. Ces approches modulaires répondent à des besoins croissants en termes de traitement distribué, de résilience, et d’optimisation des flux de données complexes​.

      Pour exemples, citons AWS Lambda et Google Cloud Functions qui utilisent des architectures orientées événements et microservices pour permettre aux développeurs de créer des applications réactives en temps réel. Chaque fonction Lambda ou Cloud Function peut être déclenchée par un événement spécifique (comme l’arrivée de nouvelles données ou une modification dans un système), permettant une gestion modulaire des processus métiers complexes.

      3) Cybersécurité et intégration dans la gestion des données

      En cette rentrée 2024, la protection des données et l’intégration efficace des systèmes sont plus que jamais aux cœur des préoccupations des entreprises. Les éditeurs de solutions Data intègrent de plus en plus l’IA et le machine learning pour renforcer la sécurité tout en facilitant l’exploitation des données. Par exemple, IBM Watsonx propose des outils de surveillance et d’analyse des données en temps réel, permettant de détecter et prévenir les cybermenaces, tout en assurant une intégration fluide avec les infrastructures existantes​.

      Fivetran quant à lui se concentre sur l’automatisation de l’ingestion des données tout en offrant des fonctionnalités avancées de cybersécurité. Cela permet une protection des données continue tout au long des processus d’intégration, tout en restant compétitif en termes de coûts et de simplicité de déploiement​.

      Citons également Elastic, avec sa solution Elastic Stack (ELK), qui se positionne comme un leader dans l’ingestion, le stockage et la restitution des données en temps réel. Elastic intègre des fonctionnalités avancées de machine learning pour détecter les anomalies dans les flux de données, renforcer la sécurité et offrir une visibilité complète des environnements IT. Cette approche proactive permet non seulement de protéger les données mais aussi d’améliorer l’intégration avec les systèmes existants.


      Vous souhaitez intégrer ces avancées technologiques au sein de vos systèmes d’information ou explorer les opportunités qu’elles peuvent offrir à votre organisation ? Faites appel à Smartpoint pour transformer vos défis en solutions concrètes et innovantes. Contactez-nous dès maintenant pour en savoir plus sur la manière dont nos experts peuvent vous accompagner dans cette démarche.


      Pour aller plus loin :

      LAISSEZ-NOUS UN MESSAGE

      Les champs obligatoires sont indiqués avec *.

        Prénom*

        Nom*

        Société*

        E-mail*

        Téléphone*

        Objet*

        Message

        Lumières sur les architectures Microservices et Event Oriented : vers toujours plus d’agilité et de réactivité dans la gestion de vos données

        L’architecture microservices et orientée événements est devenue une approche privilégiée par les entreprises qui souhaitent améliorer leur agilité et leur réactivité dans la gestion de leurs données. En fragmentant les composants de la gestion des données en services indépendants et en utilisant des événements pour la communication, cette architecture permet de répondre rapidement aux changements et d’intégrer facilement de nouvelles technologies. Cette approche combine les avantages de la granularité et de la flexibilité des microservices avec la réactivité et le découplage des architectures orientées événements.

        1. Définition et principes des microservices et de l’architecture orientée événements

        Microservices dans les architectures de données : Les microservices en architectures de données sont une approche où les fonctionnalités liées à la gestion des données sont décomposées en services indépendants et autonomes. Chaque microservice est responsable d’une tâche spécifique, telle que l’ingestion des données, la transformation, le stockage, ou l’analyse. Ces microservices communiquent entre eux via des API bien définies, permettant une flexibilité inégalée dans la gestion des flux de données.

        Architecture orientée événements : Dans une architecture orientée événements appliquée aux données, les services communiquent par le biais de messages ou d’événements. Lorsqu’un événement lié aux données survient (par exemple, une nouvelle donnée est ingérée, une transformation est terminée), un message est publié sur un bus de messages et les microservices concernés réagissent en conséquence. Cela permet de traiter les données de manière asynchrone et décentralisée, favorisant ainsi une grande réactivité et flexibilité.

        Une architecture orientée événements est une approche qui utilise des événements pour modéliser et gérer les flux de données. Les événements sont des unités d’information encapsulées qui décrivent des changements dans l’état du système. Ils sont généralement composés de trois éléments clés :

        • Un identifiant unique
        • Un horodatage
        • Des données d’événement

        Les événements sont produits par des sources de données, telles que des capteurs, des applications ou des systèmes transactionnels. Ils sont ensuite transmis à des intermédiaires d’événements, qui les stockent et les distribuent aux consommateurs d’événements. Les consommateurs d’événements peuvent être des applications d’analyse, des tableaux de bord ou des systèmes de traitement de flux.

        2. Avantages des microservices et de l’architecture Orientée événements dans la gestion de vos data

        1. Flexibilité et scalabilité : Les microservices permettent de traiter les différentes étapes de la gestion des données (ingestion, transformation, stockage, analyse) de manière indépendante. Cette modularité facilite l’extension et l’amélioration des capacités de traitement des données selon les besoins, sans impact sur l’ensemble du système data. C’est également plus évolutifs car ces architectures peuvent gérer de grands volumes de données en temps réel sans nécessiter de modifications majeures de l’infrastructure.
        2. Déploiement et maintenance simplifiés : Grâce à la nature décentralisée des microservices, les mises à jour et les déploiements peuvent être effectués indépendamment pour chaque service. Cela réduit les risques d’interruption et permet d’implémenter rapidement des améliorations, des correctifs ou encore des nouvelles technologies.
        3. Réactivité et temps réel : Les architectures orientées événements permettent de réagir instantanément aux changements de données. Par exemple, une nouvelle donnée ingérée peut déclencher des processus de transformation et d’analyse immédiatement, alimentant ainsi des insights en temps réel.

        3.USAGES

        Deux cas d’utilisation des microservices et de l’architecture orientée événements en systèmes Data

        DATA FINANCE TEMPS RÉEL DETECTION FRAUDES REGULATIONS

        Finance : Les institutions financières utilisent cette architecture pour surveiller les transactions en temps réel, détecter les fraudes et se conformer aux régulations. Par exemple, chaque transaction est traitée comme un événement, ce qui déclenche des vérifications et des analyses en temps réel.

        4. Technologies et outils pour les architectures Microservices et orientées Événements

        • Conteneurs et orchestration : Les conteneurs comme Docker et les outils d’orchestration comme Kubernetes sont essentiels pour déployer et gérer les microservices de manière efficace. Ils permettent de standardiser l’environnement de déploiement et de gérer les ressources de manière optimale pour les services de données. Citons également Apache Airflow et Prefect pour l’orchestration des workflows ou encore Luigi comme une alternative plus simple pour certaines tâches de traitement des données.
        • Bus de Messages : Les bus de messages tels qu’Apache Kafka, RabbitMQ et AWS SQS sont utilisés pour la communication asynchrone entre les microservices. Ils garantissent que les messages de données sont livrés de manière fiable et que les services peuvent réagir aux événements en temps réel. Citons également Azure Service Bus pour les environnements Azure et Google Pub/Sub pour les environnements GCP.
        • Frameworks de développement : Des frameworks comme Spring Boot pour Java, Flask pour Python, et Express pour Node.js simplifient la création de microservices de données. Citons également FastAPI pour Python, qui gagne en popularité chez nos développeurs en raison de ses performances et de sa simplicité. Ils fournissent des outils et des bibliothèques pour gérer les API, la sécurité et l’intégration avec d’autres services de données.

        5. Bonnes pratiques pour l’implémentation des Microservices et d’une architecture orientée événements

        1. Conception granulaire : Chaque microservice doit être conçu pour une fonctionnalité de données spécifique et autonome, comme l’ingestion, la transformation ou l’analyse. Cette granularité facilite la gestion et l’évolution des services.
        2. Monitoring et Log Management : La surveillance continue et la gestion des journaux sont essentielles pour détecter les problèmes et optimiser les performances des microservices de données. Des outils comme Prometheus, Grafana et la ELK Stack (Elasticsearch, Logstash, Kibana) sont couramment utilisés pour cela. Citons également Jaeger ou Zipkin pour le traçage distribué, ce qui est crucial pour déboguer et surveiller les architectures microservices.
        3. Sécurité et gestion des accès : La sécurité doit être intégrée dès la conception. L’utilisation de protocoles d’authentification et d’autorisation robustes, comme OAuth2, OpenID Connect (OIDC) et JWT (JSON Web Tokens), est recommandée pour protéger les API de données et assurer la confidentialité et l’intégrité des données.

        Quelles différences entre une architecture microservices orientée événement et le Data Mesh ?


        Il est vrai que les concepts d’architecture microservices, d’architecture orientée événements et de data mesh partagent de fortes similitudes, notamment en termes de décentralisation et de modularité. Cependant, il existe des différences clés entre ces deux approches.

        Architecture Microservices et Orientée Événements

        • Définition : Les microservices sont des composants logiciels autonomes, chacun étant responsable d’une fonctionnalité spécifique. L’architecture orientée événements repose sur la communication asynchrone via des messages ou des événements pour coordonner les microservices.
        • Modularité : Les microservices décomposent les applications en services indépendants, facilitant la gestion, la mise à l’échelle et le déploiement. Ils sont souvent utilisés pour créer des pipelines de traitement de données flexibles et évolutifs.
        • Communication : L’architecture orientée événements utilise des bus de messages pour permettre la communication entre les microservices. Cela permet de réagir en temps réel aux événements.
        • Focus : Cette approche se concentre sur la flexibilité, la scalabilité et la rapidité de déploiement des applications et des services de données.

        Data Mesh

        • Définition : Le data mesh est une approche décentralisée de la gestion des données, où les données sont considérées comme des produits. Chaque domaine métier est responsable de ses propres produits de données et les gère comme une équipe produit.
        • Décentralisation : Contrairement à une architecture centralisée de données, le data mesh répartit la responsabilité de la gestion des données entre différentes équipes, chacune étant propriétaire de son propre domaine de données.
        • Propriété des Données : Dans un data mesh, chaque équipe de domaine est responsable de la qualité, de la gouvernance et de la disponibilité de ses données. Cela encourage une approche plus collaborative et responsabilisée.
        • Interopérabilité : Le data mesh favorise l’interopérabilité entre les domaines grâce à des contrats de données et des interfaces standardisées.
        • Focus : Cette approche met l’accent sur la décentralisation de la gestion des données pour améliorer l’agilité organisationnelle, la qualité des données et la réactivité aux besoins métiers.


        Les architectures microservices et orientées événements offrent une flexibilité et une réactivité sans précédent pour la gestion de vos data. En adoptant cette approche, les entreprises peuvent améliorer leur agilité, leur scalabilité et leur capacité à innover dans le traitement et l’analyse des données.
        Chez Smartpoint, nous sommes convaincus que cette architecture représente l’avenir des systèmes de gestion de données, capables de répondre aux défis croissants de la transformation numérique. Challengez-nous !

        Vous vous interrogez sur quelle démarche adopter ? Quelle architecture ou quels outils choisir ? Vous avez besoin de compétences spécifiques sur vos projets ? Challengez-nous !

        Les champs obligatoires sont indiqués avec *.

          Prénom*

          Nom*

          Société*

          E-mail*

          Téléphone*

          Objet*

          Message

          Data, les top tendances 2024.

          2023 a été très dense et rythmée notamment par les avancées technologiques spectaculaires de l’IA générative … mais pas que ! Exercice de début d’année oblige, Smartpoint, pure player data depuis 2006, vous dévoile ses prédictions pour 2024.

          01

          Une alternative pour outiller votre pipeline en open source ? C’est à lire ici avec notre top 5 outils.

          04

          L’adoption des grands modèles de langages (LLM) transforme l’interprétation des données sur de larges volumes et les rend compréhensibles pour le plus grand nombre. Ils ont d’ailleurs contribué à améliorer considérablement les performances du NLP.

          Ils permettront de toujours mieux identifier des tendances, de mener des analyses plus fines et surtout plus pertinentes.

          La conception et de le déploiement de modèles avancés de ML sont d’ailleurs devenus beaucoup plus accessibles (et rapides !) pour les ingénieurs data alors qu’ils étaient, jusqu’alors, réservés à des professionnels très expérimentés et spécialisés.

          02

          La Data Fabric fournit une vue unifiée avec un accès centralisé aux données et leur intégration dans un écosystème data distribué. Elle peut se connecter à des sources qui sont dans le cloud ou dans des environnements on-premise.

          Le Data Mesh est une architecture décentralisée axée Domaine où les données sont traitées et gouvernées par des équipes qui en ont la responsabilité – comme un produit – permettant ainsi une infrastructure en libre service.

          Leur adoption va permettre aux entreprises de gérer plus efficacement des écosystèmes toujours plus denses, et complexes ; de manière plus fluide, plus flexible et surtout plus évolutive dans la durée.

          05

          La Data a elle aussi sa part de responsabilité à assumer et c’est possible (à lire ici).

          Ainsi, on devrait voir enfin des considérations liées à l’empreinte carbone influer sur les choix des entreprises. La futur est dans des solutions plus sobres et vertueuses dès la phase de conception, au plus juste des usages attendus, moins gourmandes en termes d’échanges de données ou encore en consommation de ressources (traitement, calculs, stockage).

          L’impact environnemental des systèmes data va progressivement s’appréhender sur l’ensemble de leur cycle des vie, de leur développement à leur décommisionnement.

          Les critères ESG vont venir réguler les pratiques et c’est une bonne nouvelle pour l’ensemble de la profession.

          03

          Ainsi, les tâches répétitives, chronophages et souvent sources d’erreurs sont prises en charge par des outils toujours plus intelligents notamment en nettoyage et intégration des données.

          Il en est de même, grâce aux avancées en IA et en apprentissage automatique, pour le processus de data discovery et celui d’amélioration de la qualité des données (data quality) qui jusqu’alors demandaient beaucoup d’opérations manuelles.

          06

          écrivons ensemble le futur de la data et inventons les usages de demain.

          Data Mesh, une révolution en ingénierie des données … par la décentralisation.



          En ingénierie data, c’est en effet en train de devenir la pierre angulaire des nouvelles pratiques. Au-delà de changer l’approche même de la data, il permet de remettre à plat la stratégie pour traiter et exploiter pleinement leur potentiel. Au cœur de cette « révolution », le data mesh traite les données comme un produit et prône une propriété décentralisée et distribuée des données orientée vers le domaine.

          Les Data Products sont dont conçus, développés et maintenus en fonctions des besoins spécifiques de leur domaine, conformément aux principes fondamentaux de l’approche Data Mesh.

          Les principes fondamentaux de cette architecture data, de sa conception à son exécution.

          • Les données sont l’actif principal : Toute décision concernant la conception et l’architecture doit être prise en fonction des données qui sont traitées comme des produits. Elles ne sont plus une ressource cachée, mais un produit concret avec une propriété claire et des règles d’accessibilité précises.
          • La gouvernance des donnée est décentralisée : Les propriétés et le contrôle des données sont distribués parmi différents domaines et les équipes en charge de ces domaines. Les équipes de domaine sont responsables de la qualité, de l’accessibilité et de la compréhension des données, garantissant ainsi que les données sont entre les mains de ceux qui les connaissent le mieux !
          • La conception pilotée par le domaine, Domain Driven Design, est par nature adaptée à ce type d’architecture. Le développement piloté par des composants autonomes et réutilisables, Component-Driven Developement, fournit la modularité nécessaire pour la mettre en oeuvre. Dans un data mesh, ces composants correspondent à des pipelines de données, des traitements ou des systèmes de delivery des données spécifiques aux domaines.
          • L’intéropérabilité des données : Un schéma de données commun favorise un échange fluide des données entre les différents systèmes.
          • Une architecture basée sur les événements : L’échange de données s’effectue en temps réel au fur et à mesure que les événements se produisent.
          • La sécurité des données : La protection des données est réalisée via grâce à des mesures telles que le contrôle des d’accès et le chiffrement.
          • La scalabilité et résilience : l’architecture est conçue nativement pour gérer de grands volumes de données et résister aux défaillances.

          Les avantages d’une architecture Data Mesh

          La scalabilité :

          Le Data Mesh, c’est une méthode évolutive qui permet de connecter des sources de données via plusieurs plateformes et domaines. Ainsi, vous pouvez rajouter facilement de nouvelles sources au fur et à mesure que vos besoins évoluent.

          La flexibilité :

          Le Data Mesh est très flexible et prend en charge de multiples protocoles et formats de données et protocoles. Ainsi, vous pouvez utiliser différents systèmes et applications vous soucier d’éventuels problèmes de compatibilité entre les données.

          La résilience :

          Le data mesh offre une architecture robuste capable de résister aux pannes et d’assurer un échange de données en continu. Vous pouvez compter dessus même pour l’échange de données critiques sans vous préoccuper des temps d’arrêt ou des pertes de données (lors des opérations de maintenance par exemple).

          La sécurité :

          Le Data Mesh offre une manière sécurisée d’échanger des données à travers différents domaines et plateformes. Vos données sont donc par nature protégées contre tous accès non autorisés.

          Le Data Mesh n’est pas qu’un simple buzz word mais bien un changement de paradigme en ingénierie des données qui s’appuie sur des changement majeurs : la donnée est considérée comme un produit accessible, l’infrastructure est en en libre-service, une plateforme de données as a product et une gouvernance axée sur des domaines spécifiques propriétaires.

          Comment concevoir votre Data Mesh via le Domain Driven Design (DDD) et le Composant Driven Developement (CDD) ?

          La première étape consiste à identifier et délimiter vos différents domaines via le domain driven design (DDD). Cela permet de se concentrer sur le périmètre précis de chaque domaine, les relations entre eux, les processus associés, etc. Dès lors, vous avez la base de vos Data Products ! Reste à cartographier votre « paysage » de données, c’est à dire comment le domaine consomme les données, comment elles circulent, qui les exploitent, à quoi elles servent et quelles sont leurs valeurs ajoutées. Une fois le paysage posé, vous devez définir clairement votre domaine et ses limites en vous concentrant sur les données spécifiques à ce domaine en particulier et les processus associés, c’est ce qui va permettre de définir les responsabilités de chacun, puis d’attribuer la propriété des data products. C’est le principe même du data-mesh, responsabiliser les équipes les plus à même de comprendre leurs données et de gérer leur domaine !

          Une fois vos « produits de données » définis, le composant-driven developement vous permet de réaliser votre architecture en décomposant votre domaine en petits composants indépendants, autonomes, faciles à gérer et réutilisables. Chaque composant est associé à une tache spécifique comme l’ingestion, la transformation, le stockage ou encore la livraison des données. Ils sont développés, testés et déployés de manière indépendante.

          Il ne vous reste plus qu’à assembler votre data-mesh ! Chaque composant interagit avec les autres pour former un système cohérent avec des protocoles de communication normalisés et des APIs pour garantir l’intéropérabilité entre les composants.

          Je souhaite moderniser mon architecture data. Nos consultants vous accompagnent dans vos choix pour trouver la meilleure solution architecturale. Laissez-nous un message :

          Pour aller plus loin :

          https://medium.com/@msalinas92/understanding-datamesh-implementation-advantages-and-examples-3f8e0ad9071e