Outils Data

Ecosystème Data ? État de l’art en cette rentrée 2021

8 septembre 202114 mars 2022

0 commentaires

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster
Traitement des données avec des moteurs de calculs distribués comme Spark
Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
Gouvernance de données
Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)