Les avantages de la mise place d’une Data Governance

La Data Governance reste malheureusement trop souvent pensée à postériori dans les projets Data alors que c’est une problématique centrale et fondamentale.

Concrètement, au-delà de tous les projets data et autres initiatives que vous avez mené dans le temps, c’est la manière dont les données sont collectées, crées, classifiée, formatées et utilisées au-delà des silos organisationnels qui les utilisent. Cela permet justement de les briser et de permettre aux métiers de se connecter aux bonnes données pour prendre des décisions qui se basent sur des données fiables.

La gouvernance des données aborde toute la notion de gestion des données, de la création au stockage jusqu’aux exploitations qui en sont faites. Cela permet aux équipes de comprendre comment les données circulent, l’impact qu’ont les différents usages, les analyses, les tableaux de bords et autres canaux de diffusions utilisés sur leur intégrité.

L’équipe en charge de la Data Governance contribue également fortement aux politiques de sécurité, de protection et de confidentialité des données ainsi que la bonne conformité règlementaire.

Voici les 4 principaux avantages :

  1. La qualité des données ! C’est le principal écueil des projets data. Cela permet de s’assurer qu’on base ses décisions sur des informations pertinentes ou qu’on alimentent d’autres applicatifs avec les bonnes données. Cela semble une évidence mais encore aujourd’hui, c’est un problème majeur. Une fois les données de piètre qualité, incomplètes ou obsolètes ont été identifiées, cela permet de les redresser, de les corriger pour les rendre exploitables ou tout simplement de les supprimer. Autant ne pas stocker des données inutiles, c’est plus éthique et plus responsable pour la planète !
  2. Plus de performance business. Déjà, vous êtes en capacité de prendre de meilleures décisions plus rapidement car vous êtes certains de la qualité de vos données. Cela permet aussi d’enrichir les expériences clients et rendre plus pertinents les parcours d’achat. Plus vos équipes sont sensibilisées à la qualité des données, plus la culture de la data se diffusera dans votre organisation, plus elles exploiteront les data de manière pertinente et cela aura un impact concret sur vos activités (stratégies, innovations).
  3. Une meilleure efficacité. Avoir une lecture claire de la manière dont la data est collectée puis consommée dans l’organisation permet d’identifier des leviers d’optimisation ou d’innovation. Cela met également en lumière certains processus pour pourraient être automatisés, d’autres moyens de diffusion ou de partage des données qui seraient plus pertinents ou beaucoup plus rapides. On perd encore beaucoup de temps à aller chercher des informations dans des énormes Data Warehouse ou de temps tout court à ne pas savoir où chercher !
  4. La sécurisation des données et leur conformité en terme de confidentialité. Beaucoup de vos données sont de nature personnelles ou sensibles. La Data Governance permet de s’assurer que les processus qui les traitent sont suffisamment fiables et robustes pour les protéger de toute utilisation abusive. Selon le RGPB, vous en êtes en effet responsables.  
Data Governance

Data virtualisation vs. Data Fabric, comment choisir ?

Déjà, ces deux approches permettent de gagner en agilité et de pouvoir mieux exploiter des données plus rapidement même si elles sont en silos organisationnels. Elles répondent toutes deux à la volonté des entreprises de moderniser leurs architectures de données alors qu’elles subissent un legacy (ou des systèmes data hérités) qui font de la collecte et du traitement des données un processus fastidieux qui consomme beaucoup de ressources, humaines comme temporelles !

Évidemment, vous avez toujours la solution d’acquérir de nouveaux outils et de remettre à plat tout votre écosystème data dans une nouvelle architecture … mais en attendant, la virtualisation des données est un bon début pour moderniser votre architecture data !

  • Elle permet d’accéder aux données en mode Data as a service grâce à ces connecteurs multi-sources.
  • Elle organise également les données pour que vous puissiez les visualiser ou réaliser des tableaux de bords.
  • C’est une solution satisfaisante pour vos besoins en business Intelligence (BI) et autres requêtes ad hoc car aujourd’hui toutes les entreprises ont des données dans le cloud et des systèmes distribuées.

Une data fabric, elle, est une solution de data management qui vous fournit une plateforme unique capable de prendre en charge toutes les technologies qui fonctionnent sur tous vos systèmes existants.

  • Les solutions de data management sont beaucoup plus poussées et complètes ; et permettent de prendre en charge des applications et des usages plus complexes.
  • C’est un framework d’architecture avec un accès centralisé aux données qui permet de les rendre interopérables entre elles.
  • Un data fabric est le must-have pour les analytics avancés qui ont besoin de larges volumes de données : analyses prédictives, IoT, apprentissage automatique (ML), temps réel, etc.

Pour conclure, pour exploiter aux mieux vos données et étendre leurs capacités, il vous faut les deux 😊

Data visualisation, Tableau ou Qlik Sense ?

Comment départager ces deux leaders de la data alors que tous deux partagent la même note 4,3/5 avec des avis favorables de GARTNER ?

QLIK est reconnu pour la Data Visualisation et le mapping de données. Il est également efficient en analyse (avec Qlik Analytics Engine) et en data discovery. Vous pouvez ainsi créer des pipelines à partir de plusieurs sources de données et profiter du machine learning pour mieux les trier.
Son point fort ? La contextualisation. Il se concentre surtout sur l’association de données, c’est à dire la découverte de relations entre elles.
En terme de sécurité, Qlik offre une forte granularité et des capacités de contrôles d’accès avancées.

TABLEAU est quant à lui reconnu pour l’interactivité de sa data visualisation et ne nécessite pas de scripts avancés ni de macros compliquées pour pourvoir commencer à l’utiliser, c’est un outil très intuitif.
Il capte également de nombreuses sources de données : bases de données, services clouds, Google analytics, etc.
Son point fort ? Il va très loin notamment en analyses #statistiques, multidimensionnelles, prédictives et comportementales. Tableau met l’accent sur l’exploration des données et incite les utilisateurs à créer leurs propres modèles de recherche. Ainsi, pour concevoir des rapports pertinents, Tableau peut donc nécessiter davantage d’expertises technique …

Leurs points communs ?

  • Tous les deux utilisent l’apprentissage automatique (ML) pour identifier les tendances et construire des modèles robustes, mais Tableau nécessite beaucoup moins d’expertise technique.
  • Tous deux prennent en charge un large éventail d’appareils, de systèmes d’exploitation et de plateformes web et mobiles. Les données et les rapports sont accessibles depuis pratiquement tous les appareils. Les deux sociétés offrent des communautés solides et offrent un excellent support.
  • Les deux outils offrent un bon niveau de sécurité. Ils s’appuient sur des sources de données fiables et d’autres aspects essentiels de la sécurité de l’entreprise, mais Qlik propose un système plus robuste en ce domaine.
techrepublic.com

Source : https://www.techrepublic.com/article/qlik-vs-tableau/

Data Cloud Platforms, comparatif entre Snowflake et Databricks.

Comment choisir la bonne solution pour vous ? Déjà, ces produits ne sont pas – en théorie – comparables en termes d’usages.

Snowflake est un Data Warehouse dans le cloud (SaaS) qui permet de collecter et de consolider les données dans un endroit centralisé à des fins d’analyse (Business Intelligence). Il est opérable avec les principaux clouders (Azure, GCP, AWS).

Comme pour un entrepôt de données classique, on utilise SQL pour faire des requêtes, créer des rapports et des tableaux de bord. Nous sommes clairement dans l’analyse et le reporting. Il a d’ailleurs été créé pour optimiser les performances des DWH traditionnels et faciliter la tâche des analystes. En revanche, il n’est pas optimisé pour traiter du Big Data en flux continu à date… même s’il est dans la roadmap de l’éditeur de s’ouvrir à d’autres langages comme Java, Python et Scala et de prendre en charge des données non structurées.


Databricks n’est pas un data warehouse … mais un data lake dédié aux environnements Big Data où il faut stocker de fortes volumétries de données brutes non traitées. Cette solution est à privilégier en Machine Learning, en streaming de données (ELT) et en data science. Elle supporte plusieurs langages de développement mais nécessite des compétences avancées en ingénierie de la data.

Basé sur Spark, Databricks peut faire tout ce que fait Snowflake et plus encore… mais cela reste un outil complexe ! L’optimisation de la plateforme et la conception d’un lake house fonctionnel prend du temps et la maintenance est loin d’être aisée, contrairement à Snowflake.

Snowflake et databricks ne sont également pas comparables en termes d’architectures.

Snowflake est une solution serverless avec des couches séparées pour le stockage et le traitement des données à l’aide de clusters de calcul composés de plusieurs nœuds MPP. Tout est automatisé : taille des fichiers, compression, structure, métadonnées, statistiques (…) objets qui ne sont pas directement visibles par l’utilisateur et auxquels on ne peut accéder que par des requêtes SQL.

Databricks est aussi une solution serverless en SaaS et fonctionne aussi sur Azure, AWS et GCP … mais l’architecture, basée sur Spark, est complètement différente avec :

  • Le delta lake avec 3 types de tables : Bronze pour les données brutes, Silver pour celles nettoyées mais impropres à la consommation en état et les Gold pour les propres
  • Le Delta Engine, un moteur de requête haute performance pour optimiser les charges de travail.
  • Notebooks qui comprend du code réutilisable et qui permet via une interface web de construire des modèles en utilisant Scala, R, SQL et Python.
  • ML Flow qui permet de configurer des environnements ML et d’exécuter des tests à partir de bibliothèques existantes.

Source : https://medium.com/operationalanalytics/databricks-vs-snowflake-the-definitive-guide-628b0a7b4719

Tendances. Les plateformes de machine learning ont le vent en poupe !

Cette situation de crise pandémique mondiale profite clairement aux technologies d’IA et de ML, propulsées en deux ans en actifs stratégiques (…même si de nombreux projets peinent encore à sortir de la phase expérimentale).


Les entreprises ont en effet pris conscience de l’urgence d’accélérer sur des technologies de data avancées car l’humain a été fortement impacté : pénurie de main d’œuvre, remote work, confinement, …
Le saviez-vous ? Un quart des entreprises utilisent déjà l’IA dans l’automatisation dans leurs processus / systèmes… et 51% prévoient de le faire à court terme. On parle, selon Forrester, d’investissements entre 2,4 et 3,3 milliards d’euros en Europe en 2022.

Les promesses ? Rationalisation, #automatisation des tâches, désengorgement sur ce qui est faiblement générateur de valeur ajoutée, gains d’efficacité, économies…

Un marché très dynamique et particulièrement innovant où il va falloir faire son choix parmi les plateformes ML d’acteurs tels que DataikuRapidMinerDataRobotAlteryxH2O.aiDatabricksSAS ou encore IBM également très actifs en ce domaine.

Ecosystème Data ? État de l’art en cette rentrée 2021

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

  1. Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
  2. Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
  3. Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
  4. Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
  5. Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster 
  6. Traitement des données avec des moteurs de calculs distribués comme Spark
  7. Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
  8. Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
  9. Gouvernance de données
  10. Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)

Pour aller plus loin : State of data engineering

Top 10 des outils incontournables à l’usage des ingénieurs Data

Voici une sélection de 10 outils incontournables à l’usage des ingénieurs Data !

Pour concevoir et mettre en place une infrastructure robuste et efficace, un consultant data doit maîtriser différents langages de programmation, des outils de Data Management, des data warehouses, des outils de traitement des données, d’analyse mais aussi d’ IA et de ML.

  1. Python, la norme en terme de langage de programmation pour coder notamment des frameworks ETL, les interactions entre des API, automatiser certaines tâches, etc.
  2. SQL pour toutes les requêtes mêmes les plus complexes
  3. PostgreSQL, la base de données open source la plus populaire
  4. MongoDB, la base de données NoSQL pour sa capacité à traiter également les données non structurées sur de très larges volumes
  5. Spark pour sa capacité à capter et à traiter des flux de données en temps réel à grand échelle. De plus, il prend en charge de nombreux langages tels que Java, Scala, R et Python
  6. Kafka, la plateforme de streaming de données open source
  7. Redshift (Amazon), le datawarehouse dans le cloud conçu pour stocker et analyser des données sur de fortes volumétries
  8. Snowflake, la cloud Data Platform devenue incontournable aujourd’hui
  9. Amazon Athena, l’outil serverless de query interactif qui vous aide à analyser des données non structurées, semi-structurées et structurées stockées dans Amazon S3 (Amazon Simple Storage Service)
  10. Airflow (Apache) pour orchestrer et planifier les pipelines de données

La source : geek culture