ecosystème data meilleurs outils

Ecosystème Data ? État de l’art en cette rentrée 2021

Smartpoint partage avec vous les principaux composants des plateformes data d’aujourd’hui selon lakeFS.

  1. Ingestion des Data soit par lots avec Spark ou Pandas, soit par streaming avec Kafka, soit issues de systèmes opérationnels via managed SaaS ou d’autres BDD internes en utilisant des outils comme Stitch
  2. Datalake avec principalement deux types d’architectures par stockage d’objets dans le cloud (GCP, Azure, AWS) et moteur d’analyse avec une interface SQL (Snowflake, Redshift, Databricks lakehouse, …)
  3. Gestion des métadonnées avec des formats ouverts de tables et des métastores comme celui de Hive
  4. Gestion du cycle de vie des données par CI/CD et des environnement dédié de développement de données
  5. Orchestration des tâches pour les pipelines de données qui s’exécutent sur le datalake avec Airflow ou Dagster 
  6. Traitement des données avec des moteurs de calculs distribués comme Spark
  7. Virtualisation avec des outils tels que Trino (ex PrestoSQL) ou Denodo
  8. Analytics et Data Science en utilisant un modèle MLOps (Meta Flow développé par Netflix ou Kuberslow par Google), des workflows analytiques et des outils de discovery comme datahub (linkedIN), metacat (Netflix) ou dataportal (airbnb)
  9. Gouvernance de données
  10. Qualité des données basée sur des tests et des règles de monitoring enrichies en apprentissage automatique (ML)

Pour aller plus loin : State of data engineering