Architecture Data,  micro-services ou monolithique ? Un choix déterminant pour votre infrastructure d’entreprise.

Alors qu’il existe une multitude d’outils et de solutions data qui s’offrent à vous ; vous devez vous interroger sur votre architecture Data – et sa roadmap – car c’est elle qui doit influencer votre stack technologique. Il ne s’agit pas tant de choisir entre architecture monolithique et architecture micro-services que de s’interroger sur la pertinence de votre stratégie data dont l’objectif est de soutenir votre business et vos capacités d’innovations dans la durée. Votre « vision data » va se traduire par une décision architecturale qui définit la manière dont votre entreprise gère et valorise ses données. Explications.

Du on-premise au cloud, c’est aussi une évolution architecturale !

Le paysage technologique des deux dernières décennies a connu une transformation radicale. Hier, les architectures de données étaient intrinsèquement en silos, chaque système fonctionnant en vase clos avec des degrés de compatibilité très limités. Les applications et les données étaient prisonnières d’infrastructures « on-premise » où l’intégration et l’interopérabilité étaient des défis majeurs (et des vrais centres de coûts) qui freinaient la collaboration et la pleine exploitation des données.

Aujourd’hui, le paradigme a basculé vers le « cloud », où se mêlent des configurations hybrides et des solutions on premise toujours très présentes. L’adoption d’architectures en micro-services a radicalement changé l’approche de la conception et de la gestion des données. Cependant, avec cette nouvelle liberté vient la responsabilité de choisir judicieusement parmi un large éventail d’outils éditeurs et de services offerts par divers cloud service providers (CSP). Les micro-services offrent un catalogue de services indépendants, chacun excellant dans sa spécialité et communiquant avec les autres via des interfaces bien définies.

Architectures Data, monolithique vs. micro-services

C’est la configuration traditionnelle que l’on rencontre encore dans la plupart des entreprises. Toutes les fonctions sont regroupée en un seul et unique bloc logiciel. Imaginons par exemple, un énorme référentiel Airflow qui gère à la fois l’ingestion, la transformation des données et l’automatisation des processus métier, comme un guichet unique pour toutes les opérations data.

Avec le cloud, les architectures data ont évolué vers un modèle de micro-services, où chaque service est autonome et spécialisé dans une fonction précise : gestion des données batch, transformation des données ou data warehousing. Citons pour exemples AWS Lambda, Apache Kafka, ou encore Snowflake choisis pour leur efficacité dans leurs domaines respectifs. Chaque service opère indépendamment, permettant une spécialisation et une adaptabilité qui étaient inimaginables dans les architectures en silos du passé.

Quel choix d’outil pour quelle architecture ?

Pour une architecture monolithique : Vous pouvez choisir des outils intégrés capables de gérer l’ensemble du cycle de vie des données au sein d’une même plateforme, tels que Talend ou Informatica. Les solutions comme Microsoft SQL Server Integration Services (SSIS) pour Azure peuvent convenir à ce type d’architecture en offrant un ensemble d’outils unifié.

Pour une architecture microservices : Vous optez pour la spécialisation avec des outils dédiés pour chaque service. AWS Lambda pour l’exécution de code sans serveur, Apache Kafka pour le traitement des flux de données en temps réel, et Snowflake pour le data warehousing sont des exemples de cette diversification des outils. Ou encore Azure Functions pour des scénarios d’intégration événementielle, et Google BigQuery pour l’analyse en volume des données.

Quels critères essentiels à prendre en compte dans votre choix d’architecture data ?

  1. Spécialisation vs. Intégration : L’architecture micro-services comprend la spécialisation (une fonction = un service), mais exige une intégration rigoureuse pour éviter la création de nouveaux silos.
  2. Infrastructure distribuée : Les micro-services optimisent l’efficacité et la scalabilité. AWS Lambda, par exemple, offre une solution de calcul sans serveur, tandis qu’un cluster Kubernetes est préférable pour des charges de travail plus lourdes et constantes. Azure et AWS offrent une variété de services qui s’alignent avec cette approche, comme Azure Event Hubs pour l’ingestion d’événements à grande échelle ou AWS Kinesis pour le streaming de données.
  3. Interopérabilité et gouvernance des données : L’interconnexion entre services est un enjeu majeur ! Les outils d’orchestration comme Apache Airflow peuvent aider … mais cela induit souvent des coûts supplémentaires et de la complexité. L’interopérabilité doit être intégrée dès la conception pour éviter des solutions de gouvernance onéreuses comme les catalogues de données ou des outils d’observabilité. Les services comme Azure Data Factory et AWS Glue facilitent l’orchestration de workflows data et l’intégration de services.
  4. Gestion des coûts : Les architectures microservices peuvent entraîner des coûts de transfert de données inattendus. Des outils comme Apache Kafka réduisent ces coûts en optimisant le traitement des données avant de les déplacer vers des solutions comme Snowflake. Les coûts de transfert et de stockage des données restent un point de vigilance. Les solutions comme Apache Kafka et les services de streaming de données peuvent minimiser ces coûts et optimiser le flux de données.

Architecture Data en micro-services ou monolithique ?

L’architecture choisie est essentielle car elle va déterminer l’efficacité de votre stratégie data. Dans un monde où les fournisseurs de cloud continuent d’innover et d’intégrer des services plus efficaces, les architectures modulaires en micro-services sont appelées à devenir encore plus interconnectées, performantes et économiques. L’avenir des données se dessine dans le cloud, où la complexité cède la place à la connectivité, à toujours plus d’agilité et à l’optimisation des coûts.


Pour aller plus loin :

Data Mesh, une révolution en ingénierie des données … par la décentralisation.



En ingénierie data, c’est en effet en train de devenir la pierre angulaire des nouvelles pratiques. Au-delà de changer l’approche même de la data, il permet de remettre à plat la stratégie pour traiter et exploiter pleinement leur potentiel. Au cœur de cette « révolution », le data mesh traite les données comme un produit et prône une propriété décentralisée et distribuée des données orientée vers le domaine.

Les Data Products sont dont conçus, développés et maintenus en fonctions des besoins spécifiques de leur domaine, conformément aux principes fondamentaux de l’approche Data Mesh.

Les principes fondamentaux de cette architecture data, de sa conception à son exécution.

  • Les données sont l’actif principal : Toute décision concernant la conception et l’architecture doit être prise en fonction des données qui sont traitées comme des produits. Elles ne sont plus une ressource cachée, mais un produit concret avec une propriété claire et des règles d’accessibilité précises.
  • La gouvernance des donnée est décentralisée : Les propriétés et le contrôle des données sont distribués parmi différents domaines et les équipes en charge de ces domaines. Les équipes de domaine sont responsables de la qualité, de l’accessibilité et de la compréhension des données, garantissant ainsi que les données sont entre les mains de ceux qui les connaissent le mieux !
  • La conception pilotée par le domaine, Domain Driven Design, est par nature adaptée à ce type d’architecture. Le développement piloté par des composants autonomes et réutilisables, Component-Driven Developement, fournit la modularité nécessaire pour la mettre en oeuvre. Dans un data mesh, ces composants correspondent à des pipelines de données, des traitements ou des systèmes de delivery des données spécifiques aux domaines.
  • L’intéropérabilité des données : Un schéma de données commun favorise un échange fluide des données entre les différents systèmes.
  • Une architecture basée sur les événements : L’échange de données s’effectue en temps réel au fur et à mesure que les événements se produisent.
  • La sécurité des données : La protection des données est réalisée via grâce à des mesures telles que le contrôle des d’accès et le chiffrement.
  • La scalabilité et résilience : l’architecture est conçue nativement pour gérer de grands volumes de données et résister aux défaillances.

Les avantages d’une architecture Data Mesh

La scalabilité :

Le Data Mesh, c’est une méthode évolutive qui permet de connecter des sources de données via plusieurs plateformes et domaines. Ainsi, vous pouvez rajouter facilement de nouvelles sources au fur et à mesure que vos besoins évoluent.

La flexibilité :

Le Data Mesh est très flexible et prend en charge de multiples protocoles et formats de données et protocoles. Ainsi, vous pouvez utiliser différents systèmes et applications vous soucier d’éventuels problèmes de compatibilité entre les données.

La résilience :

Le data mesh offre une architecture robuste capable de résister aux pannes et d’assurer un échange de données en continu. Vous pouvez compter dessus même pour l’échange de données critiques sans vous préoccuper des temps d’arrêt ou des pertes de données (lors des opérations de maintenance par exemple).

La sécurité :

Le Data Mesh offre une manière sécurisée d’échanger des données à travers différents domaines et plateformes. Vos données sont donc par nature protégées contre tous accès non autorisés.

Le Data Mesh n’est pas qu’un simple buzz word mais bien un changement de paradigme en ingénierie des données qui s’appuie sur des changement majeurs : la donnée est considérée comme un produit accessible, l’infrastructure est en en libre-service, une plateforme de données as a product et une gouvernance axée sur des domaines spécifiques propriétaires.

Comment concevoir votre Data Mesh via le Domain Driven Design (DDD) et le Composant Driven Developement (CDD) ?

La première étape consiste à identifier et délimiter vos différents domaines via le domain driven design (DDD). Cela permet de se concentrer sur le périmètre précis de chaque domaine, les relations entre eux, les processus associés, etc. Dès lors, vous avez la base de vos Data Products ! Reste à cartographier votre « paysage » de données, c’est à dire comment le domaine consomme les données, comment elles circulent, qui les exploitent, à quoi elles servent et quelles sont leurs valeurs ajoutées. Une fois le paysage posé, vous devez définir clairement votre domaine et ses limites en vous concentrant sur les données spécifiques à ce domaine en particulier et les processus associés, c’est ce qui va permettre de définir les responsabilités de chacun, puis d’attribuer la propriété des data products. C’est le principe même du data-mesh, responsabiliser les équipes les plus à même de comprendre leurs données et de gérer leur domaine !

Une fois vos « produits de données » définis, le composant-driven developement vous permet de réaliser votre architecture en décomposant votre domaine en petits composants indépendants, autonomes, faciles à gérer et réutilisables. Chaque composant est associé à une tache spécifique comme l’ingestion, la transformation, le stockage ou encore la livraison des données. Ils sont développés, testés et déployés de manière indépendante.

Il ne vous reste plus qu’à assembler votre data-mesh ! Chaque composant interagit avec les autres pour former un système cohérent avec des protocoles de communication normalisés et des APIs pour garantir l’intéropérabilité entre les composants.

Je souhaite moderniser mon architecture data. Nos consultants vous accompagnent dans vos choix pour trouver la meilleure solution architecturale. Laissez-nous un message :

Pour aller plus loin :

https://medium.com/@msalinas92/understanding-datamesh-implementation-advantages-and-examples-3f8e0ad9071e

Le Data Mesh, la réponse aux limites des architectures data traditionnelles en 4 piliers fondateurs.


L’écosystème Data est en constante mutation. Alors que les entreprises cherchent des moyens de mieux collecter, gérer et exploiter leurs vastes gisements et autres actifs de données, une nouvelle approche nommée Data Mesh s’impose. Développée par Zhamak Dehghani, cette méthode vise à repenser notre façon de traiter les données.


1. Découpage en Data Domains

  • Les Data Domains représentent le découpage au sein de l’entreprise (par métiers par exemple), chacun ayant ses propres données et ses responsabilités afférentes. En découpant les données en domaines, cela permet de réduire la complexité et améliorer l’efficacité de la gestion des données.
  • Avantages:
    • Simplification de la gestion des données.
    • Meilleure optimisation et exploitation des données.
    • Capacité à évoluer sans compromettre l’intégrité des données.

2. Data as a Product

  • Le concept de « Data as a Product » encourage les organisation à appréhender et traiter leurs données comme un produit. Ceci implique une équipe dédiée pour chaque ensemble de données, assurant sa qualité et sa pertinence tout au long de son cycle de vie.
  • Avantages:
    • Assure une qualité et fiabilité des données.
    • Favorise une culture d’ownership.
    • Optimise la valeur pour les consommateurs de données.

3. Self-Service Data Infrastructure as a Platform

  • Ce la représente la mise en place d’une infrastructure qui permet aux équipes d’accéder, de gérer et d’exploiter les données sans dépendre d’une équipe centrale.
  • Avantages:
    • Accélération de l’innovation.
    • Réduction des dépendances et silos.
    • Autonomie accrue pour les équipes de données.
  • Solutions éditeurs: Des acteurs comme Databricks, Snowflake et Redshift ont adopté cette approche et sont de plus en plus populaires.

4. Gouvernance Fédérée

  • En lieu et place d’une approche centralisée, la gouvernance fédérée vise à distribuer la gestion des données à travers l’organisation, équilibrant autonomie locale et directives globales.
  • Avantages:
    • Adaptabilité aux besoins spécifiques de chaque domaine.
    • Maintien d’une standardisation et cohérence globale.

Le Data Mesh est une tendance de fond en architecture de données car elle représente une approche novatrice c’est une réponse aux défis croissants que pose la gestion des données à grande échelle. Elle permet aux organisation d’entrer réellement dans une nouvelle ère Data-Centric.


Vous souhaitez repenser votre architecture de données ? Vous souhaitez savoir quelles alternatives d’offrent à vous ? Vous avez besoin d’accompagnement sur le sujet ? Challengez-nous !

Pourquoi avez-vous besoin d’un Architecte Solutions ?

Dans un monde de plus en plus digitalisé, chaque entreprise cherche à innover et à optimiser ses processus en continu. Mais comment vous assurer que cette transformation numérique s’aligne parfaitement avec vos objectifs business ? C’est là qu’intervient l’architecte de solutions.

L’allié de votre transformation digitale

Un architecte de solutions n’est pas qu’un simple professionnel en ingénierie. Il est le lien entre vos ambitions business et les solutions technologiques les plus adaptées pour les réaliser. Il s’assure que chaque investissement technologique réalisé ait du sens pour votre entreprise et participe à la création de valeur.

L’expertise technologique au service du business

Avec l’évolution effrénée des nouvelles technologies, vous avez besoin de vous entourer d’un spécialiste qui les maîtrise, connait leur réelle maturité et sait comment elles peuvent être mises en pratique dans votre contexte d’entreprise particulier afin de vous donner un avantage concurrentiel.

La fluidification de la communication entre les métiers et les « techniciens de l’informatique »

L’architecte de solutions facilite la communication entre les équipes techniques et les métiers. Il s’assure que chaque décision est prise en connaissance de cause et qu’elle répond précisément aux besoins exprimés, ce qui l’amène souvent à les reformuler pour qu’ils soient effectivement partagés par tous.

La maîtrise des risques

De la compliance règlementaire à la sécurisation, l’architecte de solutions identifie, évalue et anticipe les risques liés à toutes les initiatives technologiques ou introduction de nouvelles technologies au sein de votre écosystème IT.

Le bon choix technologique

Que vous souhaitiez migrer vers le cloud, intégrer de nouvelles applications ou renforcer votre cybersécurité, l’architecte de solutions s’assure que la pile technologique choisie est la meilleure pour vous en fonction de votre existant mais aussi de vos ressources disponibles. Il vous propose également la bonne stratégie et la trajectoire de transformation technologique.

Le profil type d’un architecte solution

En raison des multiples dimensions de son poste et la diversité de ses missions au quotidien, il a à la fois des compétences techniques solide, une véritable vision stratégique et des qualités interpersonnelles indispensables.

  1. Expériences : C’est un professionnel expérimenté qui a souvent commencé sa carrière comme développeur ou ingénieur système suivi d’une expérience en conseil. Il a généralement plusieurs certifications dont AWS Certified Solution Architect et/ou Azure Solutions Architect Expert.
  2. Connaissances techniques : il maîtrise bien entendu toutes les dernières tendances en architectures data modernes (data fabric, data mesh, lakekouse, etc.), le cloud, l’intelligence artificielle, etc. Il a de l’expérience dans l’intégration de différentes plateformes et de technologies pour être en capacité d’être force de recommandations pour réconcilier des systèmes disparates. Il connait tous les principes de sécurité pour assurer la protection des données et la sécurisation des systèmes.
  3. Compétences en gestion de projet : Gestion et coordination d’équipe sont ses points forts ! Il est le garant du budget (suivi des dépenses et ROI projet) et de la gestion des risques afin d’identifier précocement les éventuels problèmes (anticipation).
  4. Vision stratégique : il est en capacité de traduire des besoins métiers ou des attentes métiers en solutions technologiques. Il sait également anticiper et proposer des solutions évolutives dans la durée.
  5. Qualités : C’est un communiquant qui sait expliquer des concepts complexes à des interlocuteurs souvent néophytes. C’est un négociateur qui sait trouver des compromis entre des partie prenantes qui ont souvent des intérêts divergents. Et il s’épanouit dans le travail en équipe !


Un architecte de solutions a un rôle pivot dans toute entreprise qui souhaite mener à bien sa transformation numérique. Sa capacité à jongler entre des compétences techniques pointues, une vision stratégique claire et une communication efficace en fait un atout inestimable pour toute organisation.

Besoin de renfort dans vos projets, challengez-nous !

Comprendre les architectures Data modernes, laquelle adopter en 2024 ?

Dans un monde moderne qui produit sans cesse des données qui nourrissent en continu ses économies, faire le bon choix en terme d’architecture est essentiel pour capter, gérer, analyser et exploiter les données. Les architectures de données ont beaucoup évolué pour répondre à ces nouveaux besoins sur des volumétries jamais atteintes jusqu’alors et des systèmes qui demandent de plus en plus de traitement temps réel. Voici un selon nous les architectures data les plus modernes en 2024.

Data Warehouse Appliances

Les appliances de data warehouse, tels que Teradata, Netezza, Neoview, Parallel Data Warehouse et SAP HANA, ont été conçues pour gérer les charges de travail analytiques qui ne sont pas efficacement traitées par des systèmes de gestion de bases de données traditionnels. Grâce à une architecture parallèle massive et un traitement en mémoire, ces appliances offrent des performances améliorées.

Data Lakes

Les data lakes représentent une évolution majeure par rapport aux entrepôts de données et aux data marts. Ils peuvent gérer et analyser non seulement des données structurées, mais aussi des données semi-structurées et non structurées. Ils sont généralement mis en œuvre sur des infrastructures cloud comme AWS S3, Azure ADLS, ou GCS de Google, qui offrent plus flexibilité via une séparation entre les ressources de stockage et celles de calcul.

Data Mesh

L’architecture Data Mesh vise à résoudre les problèmes de scalabilité et de disponibilité associés aux architectures de données centralisées. Avec un Data Mesh, les données sont organisées en « produits de données » (Data a a product), chacun géré par l’équipe responsable de son domaine fonctionnel respectif. Cela facilite l’exploitation des données, car les propriétaires de produits de données sont au plus proches des applications métiers qui produisent et utilisent les données.

Data Fabric

L’architecture Data Fabric, comme le Data Mesh, vise à surmonter les défis traditionnels auxquels sont confrontées les architectures de données centralisées. Cependant, à la différence du Data Mesh, qui est une approche décentralisée basée sur le domaine, le Data Fabric est une approche centralisée axée sur la technologie, s’appuyant sur les métadonnées, les catalogues, les modèles de données logiques et les APIs.

Lakehouse Architecture

La Lakehouse est une architecture qui a pour objectif de mixer les avantages des data warehouses et des data lakes tout en surmontant leurs limites respectives. Elle offre une interface commune pour toutes les charges de travail d’analyse de données et prend en charge les propriétés ACID des applications transactionnelles.

Pour conclure, le choix de la bonne architecture de données dépend de vos besoins spécifiques. Que ce soit le Data Mesh, la Data Fabric ou le Lakehouse, chaque option a ses propres intérêts qui peuvent servir votre stratégie d’exploitation des données. Chez Smartpoint, nos architectes vous conseillent car être en capacités de comprendre les différentes architectures de données est primordial afin de concevoir et mettre en œuvre des systèmes data efficaces : traitement par lots, traitement en flux, architecture Lambda, entrepôt de données, le lac de données, microservices, (…)

Data Mesh, architecture miracle pour libérer enfin la valeur promise des data ?

Au-delà du concept et des principes d’architecture, est-ce que le Data Mesh est viable à l’épreuve de réalité des organisations et des SI data ? Est-ce que cette architecture décentralisée et orientée domaine fonctionnel, qui permet une exploitation des données en libre-service, est la hauteur des promesses ?

Voici les principaux écueils à anticiper.

En tant que pure-player de la Data, nous en avons connu chez Smartpoint des architectures de données … Et nous savons à quel point il est complexe de trouver, de concevoir, de mettre en œuvre la bonne solution et de briser enfin les silos. On sait aujourd’hui qu’environ 80% des projets de Data Warehouses ont échoué et il y a déjà presque 10 ans, Gartner prédisait que 90% des Data Lakes seraient finalement inutiles. Il est vrai aussi que l’on sait qu’une équipe Data centralisée est souvent débordée et manque d’expertises par domaines métiers, ce qui nuit invariablement à la découverte et à la création de valeur data.

Revenons sur les principes fondamentaux qui caractérisent le Data Mesh ou Maillage de données tel que promus par Zhamak Dehghani(ThoughtWorks) en alternative aux structures de données centralisées et monolithiques :

1. Domain-driven ownership of data : Les données sont considérées comme des actifs appartenant à des domaines spécifiques au sein de l’organisation. Chaque domaine est responsable de la production, de l’amélioration de la qualité des données et de la gestion. Cette approche permet de créer des équipes spécialisées, composées d’experts métier et techniques, qui travaillent en étroite collaboration pour définir les normes et les règles spécifiques à leur domaine. Leur objectif est de répondre aux besoins de leur domaine fonctionnel en terme d’exploitation des données, tout en favorisant la réutilisation et l’interopérabilité entre les différents domaines métiers.

2. Data as a product : Les données sont destinées à être consommées par les utilisateurs au sein de l’organisation. Les équipes data doivent se recentrer sur le client pour fournir des data sets de qualité, fiables et bien documentés. Elles créent des interfaces claires (API) et définissent des contrats pour la consommation des données. Ainsi, les utilisateurs peuvent découvrir, accéder et utiliser les données de manière autonome, comme un produit prêt à l’emploi. On est dans la même logique que les architectures microservices.

3. Self-service data platform : Les équipes data fournissent une plateforme de données en libre-service, qui facilite la découverte, l’accès et l’exploitation des données. Cette plateforme fournit des outils, des services et des interfaces qui permettent aux utilisateurs de trouver intuitivement et de consommer les données de manière autonome. Elle favorise l’automatisation et l’orchestration des flux de données, permettant ainsi aux équipes data de se concentrer sur la qualité et l’enrichissement des données plutôt que sur des tâches opérationnelles chronophages et à faible valeur ajoutée.

4. Federated computational governance : La gouvernance des données est décentralisée et répartie entre les différentes équipes. Chaque équipe a la responsabilité de définir et d’appliquer les règles et les normes spécifiques à son domaine. La gouvernance fédérée consiste à mettre en place des processus et des outils qui permettent de gérer et de contrôler les données de manière distribuée. Cela inclut la gouvernance des métadonnées, la sécurité, la conformité réglementaire, ainsi que la prise de décision collective et transparente sur les évolutions de l’architecture et des pratiques liées aux données.

Voici pourquoi une architecture data mesh pourrait se révéler être un échec dans certaines organisations où les notions de produit data ou de propriété de domaines sont difficilement applicables.

  • Toutes les données n’ont pas forcément une valeur, c’est même le contraire. La plupart des données collectées sont inutiles et brouillent l’information car elles ne sont pas pertinentes. Dans les faits, c’est compliqué d’identifier dans la masse celles qui sont réellement précieuses et potentiellement génératrice de valeur. C’est un véritable chantier en soi, complexe et laborieux. Un travail de chercheur d’or !
  • Produire des données est une charge supplémentaire ! Certes le concept de data product est séduisant et facile à appréhender mais dans la réalité du terrain, les ingénieurs data doivent déjà les créer … Et les transformer en plus par domaine nécessite d’élargir encore leurs compétences. Certes les avancées en IA, automatisation, et autres Low Code promettent de leur faciliter la tâche mais c’est encore une promesse qui reste à éprouver.
  • On en vient naturellement à la troisième difficulté : le manque de compétences data disponibles. Le Data Engineering, c’est un métier de spécialiste de la gestion des données et nous savons qu’il est rare de trouver des professionnels qui en maîtrise toute la palette ! Déléguer la responsabilité à des équipes par domaine, sans compétences spécialisées en data, peut générer des problèmes sans aucun doute.
  • La gouvernance fédérée est aussi une évidence sur le papier. Dans les faits, ce n’est pas applicable sans de fortes contraintes avec un véritable régime central très autoritaire qui encadre les comportements et contrôle régulièrement les usages. En effet, si la gouvernance des données est détenue par une guilde fédérée composées de représentants de différents domaines, cela risque fortement d’être inefficace car chaque département a ses propres règles et priorités.
  • Une plateforme centralisée en libre-service fait rêver mais dans les faits, mettre en place ce type de solution se révèle très complexe car on est confronté à une variété vertigineuse de formats de données, une pluralité de systèmes et d’applications différents, de différentes versions voire de générations. Certes, nous disposons aujourd’hui de nombreux outils pour ingérer massivement les données et de larges bibliothèques de connecteurs … mais on peut rapidement retomber dans les travers du data warehouse.

Pour conclure, une architecture Data Mesh est très intéressante, mais au là du concept, il faut en mesurer les risques, les écueils et ses limites.

Voici les principaux avantages qui méritent qu’on étudie sa faisabilité et sa mise en pratique dans votre SI Data :

  1. Démocratisation de l’exploitation des données par un plus grand nombre (au delà des data scientist) via les applications en libre service
  2. Réduction des coûts car cette architecture distribuée est davantage #Cloud native avec des pipeline de collecte des données en temps réel (paiement à la consommation en terme de stockage)
  3. Interopérabilité car les données sont normalisées indépendamment du domaine et les consommateurs s’interfacent par APIs.
  4. Renforcement de la sécurité et de la gouvernance des données car les normes sont appliquées au-delà du domaines ainsi que la gestion des droits et des accès (journalisation, observabilité).

Sources :

Back to the basics ! Zoom sur les différences entre un data warehouse dans le cloud, un data lake et data lakehouse.

  • Un data Warehouse est une base de données analytique centralisée qui stocke les données déjà structurées. Il est utilisé par des analystes qui maîtrisent parfaitement le langage SQL et savent donc manipuler les données. Les données sont optimisées et transformées pour être accessibles très rapidement à des fins d’analyses, de génération de rapports et des tableaux de bords de pilotage des entreprises.
  • Un data lake collecte et stocke lui aussi des données mais il a été conçu pour traiter les Big Data, c’est-à-dire pour de fortes volumétries de données brutes, non structurées ou semi-structurées. Les data lakes sont à privilégier dans le cas d’un traitement en continu et d’une gestion en temps réel des données. Les données sont généralement stockées en prévision d’une utilisation ultérieure. Comme elles sont de natures brutes et non traitées, il est nécessaire de faire appel à un Data Scientist lorsqu’on souhaite les exploiter. Généralement, le datalake est utilisé pour le traitement par lots. Il permet notamment l’utilisation d’ELT en libre-service (par ex Informatica) pour automatiser l’ingestion et le traitement des données, ce qui permet de réduire la complexité de la conception et la maintenance des pipelines de données.
  • Un data Lakehouse, c’est une nouvelle architecture qui réconcilie en théorie le meilleur des deux mondes entre l’entrepôt de donnée et le data lake en une seule plateforme ! Le data lakehouse permet d’éviter la multiplication des moteurs de requêtes en exécutant des analyses directement dans le data lake lui-même.

À suivre ? les solutions proposées par Databricks …

Zoom sur l’architecture de données et son corolaire, la modélisation des données


L’objectif est de documenter tous les data assets de l’organisation, de les cartographier afin de voir comment ils circulent dans vos systèmes afin d’obtenir un schéma directeur.


La schéma directeur va donner le cadre sous-jacent aux plateformes de données qui alimentent également les outils de gestion de données. Il va permettre aussi de spécifier les normes pour la collecte, l’intégration, la transformation et le stockage de données. Aujourd’hui, on utilise de plus en plus des systèmes de streaming de données en temps réel et on prend en charge désormais les applications d’IA/ML en plus de la BI traditionnelle.

Le développement du cloud a encore apporté une couche de complexité aux architectures de données. Autre concept émergeant, la Datafabric ! Enfin, l’architecture de données doit prendre en considération la conformité règlementaire et la gouvernance des données.

Une bonne conception doit être :

  • Orientée métier pour être alignée sur l’organisation et les besoins
  • Flexible et évolutive
  • Fortement sécurisée pour interdire les accès non autorisés et les utilisations abusives

Ses composants ? Des modèles de données avec des référentiels communs, des diagrammes et des flux de données pour comprendre comment circulent les données dans les systèmes et les applications qui les consomment, des documents qui normalisent comment les données sont collectées, intégrées et stockées.

Source : https://www.techtarget.com/contributor/Craig-Stedman

Source pour aller plus loin : What is data architecture? A data management blueprint