Zoom sur l’architecture de données et son corolaire, la modélisation des données


L’objectif est de documenter tous les data assets de l’organisation, de les cartographier afin de voir comment ils circulent dans vos systèmes afin d’obtenir un schéma directeur.


La schéma directeur va donner le cadre sous-jacent aux plateformes de données qui alimentent également les outils de gestion de données. Il va permettre aussi de spécifier les normes pour la collecte, l’intégration, la transformation et le stockage de données. Aujourd’hui, on utilise de plus en plus des systèmes de streaming de données en temps réel et on prend en charge désormais les applications d’IA/ML en plus de la BI traditionnelle.

Le développement du cloud a encore apporté une couche de complexité aux architectures de données. Autre concept émergeant, la Datafabric ! Enfin, l’architecture de données doit prendre en considération la conformité règlementaire et la gouvernance des données.

Une bonne conception doit être :

  • Orientée métier pour être alignée sur l’organisation et les besoins
  • Flexible et évolutive
  • Fortement sécurisée pour interdire les accès non autorisés et les utilisations abusives

Ses composants ? Des modèles de données avec des référentiels communs, des diagrammes et des flux de données pour comprendre comment circulent les données dans les systèmes et les applications qui les consomment, des documents qui normalisent comment les données sont collectées, intégrées et stockées.

Source : https://www.techtarget.com/contributor/Craig-Stedman

Source pour aller plus loin : What is data architecture? A data management blueprint

Smart people, à la découverte des équipes.

C’est comment chez le Pure Player de la Data ?


Nous vous proposons une visite guidée de Smartpoint en vidéo, à la rencontre de nos équipes 🎬

Cette vidéo été tournée au siège (Paris 13ème, rue neuve Tolbiac) en novembre dernier, avant les restrictions sanitaires dues à la 5ème vague.

Repenser l’architecture Data aujourd’hui pour supporter les nouveaux défis de demain

90% des 44 zettaoctets des données mondiales ont été créées ces deux dernières années ! Personne n’échappe à la data mais elle reste difficile à traiter, à gérer, à stocker et à exploiter à grande échelle.


Historiquement (cela date déjà des année 90), le stockage était géré par un SGBD connecté via des pipelines à des sources globalement statiques et des outils (réalisés sur mesures et assez simples) permettaient de les consulter. Puis les données distribuées en volume sont apparues ainsi que les outils open-source pour les traiter (Hadoop, Hive, etc.).

Amazon Web Services (AWS) a été le premier à déplacer l’ensemble de la Data Stack dans le cloud, à rendre l’infrastructure et le calcul élastiques, et à les proposer As a service.
Aujourd’hui, stocker dans le cloud est la base, les pipelines se sont transformés (de l’ETL à l’ELT) et l’orchestration a gagné en maturité. En revanche, même si la pile technologique a beaucoup évolué ces dernières années, de nombreux problèmes liés au traitement des données ne sont pas toujours pas résolus, voire de nouveaux sont apparus ! 

Excell reste toujours indétrônable dans la plupart des pipelines de données et gérer des datasets toujours plus volumétriques rajoute encore de la complexité … Et à la dimension technologique s’ajoute le facteur humain ! Les populations qui interviennent sur les données sont elles-aussi de plus en plus nombreuses et les équipes travaillent encore (trop) en silos.

Dans toutes les architectures data, on constate que de nombreux composants sont redondants. Pour répondre aux enjeux de demain, plusieurs chantiers sont lancés pour repenser la stack technologique :

  • De nouvelles conceptions des référentiels de données vers un lakehouse (notamment avec Databricks) alors qu’aujourd’hui les données sont réparties dans des datalakes ou des entrepôts de données.
  • Des data fabrics sur des référentiels spécialisés qui visent à extraire la valeur des relations entre les data sets ; ou des référentiels optimisés pour les séries chronologiques afin de mieux gérer les informations temps réel
  • Des plateformes de BI dites « actionnables » pour réduire le temps entre l’analyse et l’action au plus près des systèmes opérationnels voir l’apparition de plateforme verticales dédiées
  • Une couche de DataOps avec des plateformes qui vont gérer les catalogues de données, assurer le monitoring, la qualité, la sécurité et une utilisation toujours plus responsable des actifs de données

Et vous, quelle piste explorez-vous pour repenser l’architecture data de demain ?
Source : Thinking the modern data stack

Voici venu le temps des DataOps


Les référentiels de données se multiplient (transactionnel, MDM, informationnel, etc.), les volumes explosent, les outils et les plateformes se nourrissent de données … Garantir une gouvernance et une gestion unifiée est devenue mission impossible avec les approches traditionnelles.
En revanche, nous constatons tous les jours que les entreprises qui réussissent sont des entreprises Data Driven où l’accès aux données est démocratisé et accessible par toutes les ressources qui les consomment, de manière sécurisée et contrôlée.


Pour y parvenir ? Seule une approche comme le DataOps est efficiente car elle s’applique sur l’ensemble des processus qui interviennent dans la gestion du cycle de vie des données (et des applications qui les utilisent) en mettant en pratique les principes de l’agilité et la recherche en continu de toujours plus d’automatisation.


Les avantages ? Gestion de multiple sources de données et pipelines dans toute leur variété, plus de vélocité, de fiabilité et de qualité, de réutilisation et de reproductivité de composants, plus de valeur business, accélération du time-to-market, etc.


Chez Smartpoint, nous nous appuyons entre autres sur Talend et Informatica pour automatiser la préparation et l’acquisition des données tout en garantissant la Data Quality.

Des data et des hommes

Le traitement des données et la manière dont elles sont consommées par les différents acteurs qui interviennent tout au long de son cycle de vie est un incroyable voyage ! Et ces données sont de plus en plus précieuses au fur et à mesure que notre civilisation avance.

Le monde de la Data nous ouvre chaque jour de nouvelles perspectives !


Quand on parle de data, on a tendance à résumer cela à de l’ingénierie et à des concepts techniques mais c’est aussi une question de capacités de prises de décision, de mise en opération quasiment instantanément quand l’IA s’en mêle … et de plus en plus d’éthique.

Medhi GARGOURI, Directeur Général et associé fondateur de Smartpoint


Voici un article intéressant qui résume les rôles des Data Players dans l’entreprise entre les consommateurs des données (au centre de cet écosystème), les product managers et fonctions dites métiers, les architectes, les ingénieurs data, les ingénieurs QA, les data analysts, les data scientists.

Auteur Antriksh Goel

Article à lire pour aller plus loin : https://towardsdatascience.com/an-experience-of-a-data-ecosystem-4f86e98fd013

Les composants d’une data stack moderne cloud native

Pour raccourcir au maximum le temps de mise à disposition des données aux ressources qui vont les exploiter, une data stack moderne cloud native – et agile par nature – comprend aujourd’hui :

Attention, le fait de porter votre plateforme BI dans le cloud (Lift and shift) ne suffit pas pour autant à la rendre moderne car c’est bien l’architecture qui doit être repensée !

Tous les composants qui participent à cette pile technologique moderne ont des caractéristiques communes. Déjà ils sont exposés as-a-service, orientés flux de production, les données sont centralisées dans le cloud data warehouse et on privilégie un écosystème SQL, le langage maîtrisé par le plus grand nombre. Ils fonctionnent sur des elastic workloads ou charges de travail élastiques pour plus de scalabilité (et du pay-per-use !).

Et pour 2022 ? Voici le top des 5 technologies les plus innovantes qui devraient venir enrichir votre pile technologique Data dans le cloud :

  1. Une couche d’intelligence artificielle
  2. Le partage de données ou data-as-a-service sous forme d’API
  3. La gouvernance de données, toujours plus indispensable dans les grandes entreprises qui cumulent des ensemble de données très diverses et privilégient une approche multi-cloud
  4. Le streaming de données pour tendre toujours plus vers un accès et une exécution temps réel des données
  5. Le service aux applications

Source : Data Stack, 5 prédictions pour le futur https://medium.com/@jordan_volz/five-predictions-for-the-future-of-the-modern-data-stack-435b4e911413

Le deep-learning s’invite dans les catalogues e-commerce

Les algorithmes de Deep Learning ne cessent d’ouvrir de nouveaux champs des possibles en termes d’applications ! Citons pour exemple le succès de sites comme « This Person Does Not Exist », « This Anime Does Not Exist », « This Automobile Does Not Exist ».

Chez Smartpoint, nous avons réussi à générer – from scratch – des mannequins virtuels ultraréalistes en utilisant les réseaux antagonistes génératifs GANs, nous permettant ainsi de lancer bientôt notre « This Fashion Model Does Not Exist » 😉  


Notre équipe de recherche a expérimenté de nouvelles solutions avec une base de données de photos de mode mettant en scène le port de vêtements de mannequins “réels” (des catalogues de produits utilisés dans l’e-commerce) dans l’objectif de voir comment les modèles génératifs GANs gèrent des géométries complexes et des données limitées.  


Ces modèles viendront surement enrichir à court terme le catalogue des d’outils de promotion qu’utilisent les marques de prêt-à-porter, les acteurs du retail ou encore les agences de publicité. Il faut dire que les enjeux sont de taille en termes d’économies potentielles et de gains de temps (location de studio, frais de shooting photo, mannequins, essayages multiples de modèles en différentes couleurs, etc.).  A suivre !

Omar GASSARA, Responsable du lab, Smartpoint

Fashion model generation using Generative Adversarial Networks (GANs), Smartpoint R&D

Top 3 des tendances en stratégies analytiques et migrations data-to-the cloud


Migrer en état vos traitements (workloads) qu’ils soient en Custom SQL (Python, Scala ou Java), en ETL Low-code (Fivetran ou Matillion par exemple) ou basés sur les technologies Hadoop (SPARK) peut sembler une bonne idée sur le papier… Mais dans les faits, vous ne faites que déplacer les enjeux de dette technologique et de réduction du TCO (total cost of ownership) des pipelines de données et … vous ne tirez pas pleinement partie des capacités des plateformes de dernière génération.

Voici trois best practice à suivre :

  1. Une meilleure utilisation des outils en SaaS qui apportent une valeur ajoutée immédiate sans nécessiter – ou presque – d’administration, d’autant plus qu’ils offrent aujourd’hui des fonctionnalités avancées en termes de sécurité, d’optimisation des performances et de réplication.
  2. La mise en œuvre des concepts DataOps dans vos cycles de développement tels que le contrôle de version et l’automatisation des builds, des tests et des déploiements.
  3. Une meilleure exploitation des capacités des plateformes de Data Cloud qui permettent aujourd’hui le partage massif de données via des data marketplace, sans avoir à concevoir des pipelines pour échanger des extraits des fichiers, ni copier les données, ni développer et maintenir des API pour mettre à disposition les données aux ressources qui vont les consommer. Par exemple Snowflake Data Cloud propose plus de 400 data sets et une plateforme unique pour prendre en charge toute les données de manière sécurisée avec une gouvernance centralisée !

Pour aller plus loin sur notamment l’approche de l’ingénierie de données avec dbt (Data Build tool) en particulier et sur les solutions proposées par Snowflake, c’est ici.

Réduire l’impact environnemental … passe aussi par une meilleure gestion de vos données.

Quelle méthode adopter pour une approche frugale de vos projets data ? Certes, il est nécessaire d’avoir un certain volume de données pour établir des estimations ou des prévisions mais au-delà d’un certain seuil, le gain apporté par une donnée supplémentaire décroit.


Accumuler des data n’est pas synonyme de création de valeur, alors que l’on a tendance à collecter et à stocker un maximum de données « au cas où » nous aurions besoin de les exploiter et de les analyser à moment donné…. C’est au contraire une aberration ! Non seulement les données perdent de manière générale de la valeur avec le temps et surtout, leur capture, leur stockage, leur circulation et leur diffusion génère des dépenses énergétiques exponentielles … d’autant plus que la Data est inexorablement copiée vers des destinations diverses et variées sans que la donnée source ne soit jamais supprimée.


Comment ne pas générer plus de données que nécessaire ? Comment réduire la consommation de ressources matérielles et énergétiques ?
Voici en 5 points des pistes de développement de techniques de minimisation des coûts énergétiques de vos projets Data.

  1. L’intérêt de la data. Avez-vous vraiment besoin de ces données et pour quels usages ? Il est important de ne pas perdre de vue l’objectif à atteindre et en quoi il justifie la collecte et l’informatisation de la donnée (utilité)
  2. Représentativité de la donnée : en quoi cette donnée participe à un ensemble de phénomènes ? Est-ce que cette data est la plus pertinente pour représenter ce ou ces phénomènes ?
  3. Est-ce que cette nouvelle donnée rend caduque une autre donnée déjà collectée et à quelle fréquence ?
  4. Éviter la redondance liée aux étapes de transformation des données en mutualisant notamment les étapes de préparation via un partage des pipelines (DataOps, MLOps) pour pouvoir les réutiliser et analyser les interactions entre les projets.
  5. Meilleur échantillonnage et sondage des données pour déterminer quel volume est réellement nécessaire pour une analyse ou la modélisation souhaitée. Souvent seule 10% des données suffisent pour obtenir les attendus ou suivre les évolutions d’un phénomène … et c’est autant de ressources informatiques économisées au niveau infrastructure !
Pour une approche frugale de vos projets data

Pour aller plus loin : Projets data : comment réduire l’impact environnemental

Ecosystème Data ? État de l’art en cette rentrée 2021

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

  1. Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
  2. Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
  3. Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
  4. Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
  5. Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster 
  6. Traitement des données avec des moteurs de calculs distribués comme Spark
  7. Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
  8. Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
  9. Gouvernance de données
  10. Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)

Pour aller plus loin : State of data engineering