à la une
Migrer en état vos traitements (workloads) qu’ils soient en Custom SQL (Python, Scala ou Java), en ETL Low-code (Fivetran ou Matillion par exemple) ou basés sur les technologies Hadoop (SPARK) peut sembler une bonne idée sur le papier… Mais dans les faits, vous ne faites que déplacer les enjeux de dette technologique et de réduction du TCO (total cost of ownership) des pipelines de données et … vous ne tirez pas pleinement partie des capacités des plateformes de dernière génération.
Voici trois best practice à suivre :
- Une meilleure utilisation des outils en SaaS qui apportent une valeur ajoutée immédiate sans nécessiter – ou presque – d’administration, d’autant plus qu’ils offrent aujourd’hui des fonctionnalités avancées en termes de sécurité, d’optimisation des performances et de réplication.
- La mise en œuvre des concepts DataOps dans vos cycles de développement tels que le contrôle de version et l’automatisation des builds, des tests et des déploiements.
- Une meilleure exploitation des capacités des plateformes de Data Cloud qui permettent aujourd’hui le partage massif de données via des data marketplace, sans avoir à concevoir des pipelines pour échanger des extraits des fichiers, ni copier les données, ni développer et maintenir des API pour mettre à disposition les données aux ressources qui vont les consommer. Par exemple Snowflake Data Cloud propose plus de 400 data sets et une plateforme unique pour prendre en charge toute les données de manière sécurisée avec une gouvernance centralisée !
Pour aller plus loin sur notamment l’approche de l’ingénierie de données avec dbt (Data Build tool) en particulier et sur les solutions proposées par Snowflake, c’est ici.