Migration de Teradata vers Snowflake.

Depuis ces dernières années, et le mouvement s’accélère, nombreux sont nos clients à engager des projets de migration de Teradata vers Snowflake. Pourquoi cette migration massive de Teradata vers Snowflake ?

Premier argument ? Le prix !

le TCO reste un argument de poids en faveur de Snowflake … le coût des data Warehouse avec Teradata reste très élevé et leur manque d’agilité dans le cloud est montrée du doigt. Avec Teradata, la facture comprend le coût du stockage des données mais aussi la puissance de calcul. On constate souvent un écart X10 … sans compter les gains en termes de temps et autres ressources économisées que l’on peut faire avec Snowflake. Snowflake, c’est 1€ par jour par téraoctet de données stockées.

Au niveau de l’architecture, Teradata utilise le « shared nothing », c’est-à-dire que chaque nœud a sa propre CPU, mémoire et stockage ce qui permet de traiter de larges volumes.  

Snowflake utilise une architecture de données partagées multi-cluster et sépare le calcul du stockage ; ce qui permet une performance de requête plus rapide (mêmes complexes).

En analytique, Snowflake a su combiner le meilleur des deux mondes avec les avantages du on-premise et ceux du cloud en termes d’élasticité, scalabilité et paiement à la consommation réelle … et c’est automatiquement géré contrairement à Teradata.

Teradata demande en effet une administration et une supervision beaucoup plus poussées.

Snowflake a su séduire par son intuitivité et toutes ses fonctionnalités avancées en termes d’automatisation comme la compression des données, la collecte de statistiques, la gestion de la charge de travail, la simultanéité des requêtes, la récupération après sinistre, etc.

Snowflake offre également un support natif pour des langages de programmation très populaires, comme Python et R, et prend en charge diverses méthodes d’ingestion de données.

Économies, meilleures performances, scalabilité, voici les raisons pour lesquelles les entreprises choisissent snowflake :

  1. Un coût moindre pour plus de valeur
  2. Une migration vers le cloud encore plus facilitée
  3. L’automatisation de fonctionnalités nécessitant peu ou pas de supervision
  4. Élasticité, scalabilité, et tarification basée sur la consommation
  5. De nombreux partenaires et un large catalogue de plugins qui limitent l’intégration API tierce

Teradata reste tout de même un must-have pour de nombreuses entreprises, en témoigne son large parc de clients fidèles ! C’est un incontournable reconnu pour ses capacités d’analyse avancée comme la modélisation prédictive et l’apprentissage automatique. Bien qu’il soit arrivé tardivement dans le mouvement move-to-cloud, Teradata a lancé une contre offensive intéressante avec Teradata Vantage. Cette nouvelle version de la plateforme analytique est optimisée pour le cloud et évite ainsi les refontes d’applications. Nous pensons que c’est une solution intéressante à étudier pour tout client existant.

Quels challenges relever pour migrer vers Snowflake ?

Comme tout processus de migration, cela peut se révéler long et complexe surtout sur de très larges volumes.

Smartpoint vous accompagne pour planifier ce chantier en termes d’étapes, de délais et de risques : devez-vous nettoyer et transformer vos données avant de migrer ? est ce vos applications sont compatibles avec Snowflake ? Comment préserver la sécurité des données ?

Vous avez un projet de migration de Teradata vers Snowflake, interrogez-nous !

Pour aller plus loin :

Metadata Management, de quoi parle-t-on exactement ?

Les métadonnées fournissent des informations sur les data (des données sur les données en somme !) : caractéristiques, contextualisation, signification, usages prévus, lineage, etc. Une gestion efficace a donc un impact direct sur la qualité globale des données mais aussi leur gouvernance et leur conformité dans la durée.

Les métadonnées permettent donc à ceux qui sont amenés à exploiter les données, à mieux les comprendre et à les utiliser.

Quels sont les différents types de métadonnées ?

  • Métadonnées descriptives : elles contiennent les informations de base comme le titre, la date de création, l’auteur et le format
  • Métadonnées structurelles : elles décrivent comment les données sont structurées comme les relations entre les différents éléments et la manière dont elles doivent être visualisées ou exposées
  • Métadonnées administratives : Elles donnent les informations sur la gestion des données comme qui en est responsable ou propriétaire, les droits et les accès ainsi que les règles de sauvegarde (ou de suppression)
  • Métadonnées business : Elles décrivent le contexte, les processus et les règles métiers

Quel prérequis à la mise en place un Metadata Management efficace ?

Le stockage des métadonnées dans un référentiel centralisé est essentiel.

Cela permet de rechercher, extraire et mettre à jour les données tout au long de leur cycle de vie. Les metadata sont organisées et classées. On a ainsi l’assurance que les données sont toujours « fraiches » et correctes. Alors que les pipelines de données deviennent de plus en plus volumétriques et en temps réel, stocker les données en silos de manière traditionnelle nuit à la qualité des données, leur accessibilité, génère des incohérences et des erreurs. Un référentiel centralisé facile le travail des ingénieurs data et des analystes.

Quels avantages du Metadata Management ?

  1. Meilleure accessibilité des données
  2. Gouvernance et sécurité renforcés
  3. Prise de décision facilitée grâce à la meilleure compréhension et partage des données
  4. Qualité des données améliorée

Top 4 tendances Data à suivre en 2023

L’intelligence Artificielle toujours au top ! Qui n’a pas été bluffé par le chat GPT de Open AI ? Clairement, c’est la technologie (IA et son corolaire ML) qui est en train de révolutionner nos manières de travailler, de vendre et de vivre ! Alors que les volumes de données ne cessent de croitre, les algorithmes se nourrissent, apprennent et ne cessent de s’améliorer.

Le Data as a service (DaaS) devrait se démocratiser encore davantage dans les entreprises alors qu’elles adoptent massivement le cloud pour moderniser leurs infrastructures vieillissantes et leurs systèmes data hérités (Legacy), devenus trop lourds à maintenir et trop gourmands en ressources.

Cela facilite l’accès aux données, leur analyse et leur partage au sein de l’organisation.

Le DaaS pourrait bien devenir la méthode la plus courante pour intégrer, gérer, stocker et analyser toutes les données. Normal quand on sait qu’un meilleur partage et une exploitation des données par le plus grand nombre, permet aux organisations d’être plus efficaces et performantes.

L’automatisation ! De nombreuses tâches analytiques sont désormais automatisées et ce phénomène va s’accentuer. C’est déjà une réalité en préparation des données mais aussi sur l’automatisation de certains processus prédictifs ou de recommandation.

Nous vous invitons à regarder la plateforme APA (automatisation des processus analytiques) de Alteryx qui promet de révolutionner le Data Wrangling.

La gouvernance des données n’a jamais été autant au cœur de l’actualité et ce sera encore le cas en 2023 !

On n’a en effet jamais autant produit, collecté et consommé de données. La question de leur qualité est non seulement centrale, car c’est là que réside que toute sa valeur, mais les entreprises ont également besoin de s’appuyer sur une plateforme qui permet de les partager de manière sécurisée au sein de l’organisation tout en respectant les règlementations notamment en termes de protection et de confidentialité.  

En 2023, si vous ne l’avez pas déjà fait, ce sera le moment de mettre en place un programme de Data Management … 

Tendances Tech au top en cette rentrée 2022

Les technologies sont les catalyseurs d’un monde qui change. Elles contribuent à l’amélioration de la productivité des entreprises mais pas que ! Elles permettent d’inventer et de réinventer des offres, de participer à un meilleur bien-être de l’humanité, d’innover pour repenser nos manières de vivre …

Nous partageons cette étude très intéressante menée par Mc Kinsey qui donne des perspectives sur comment ces tendances technologiques pourraient s’appliquer à votre organisation.

  1. L’intelligence artificielle est entrée dans sa phase d’applications concrètes : résolution de problèmes, prédictions, lancement d’actions automatisées en fonction des phénomènes, offres augmentées, meilleures prises de décisions.
  2. Toujours plus de connectivité avec les technologies 5G/6G, les réseaux wireless à faible puissance, les satellites en orbite et autres technologies qui prennent en charge une multitude de solutions numériques susceptibles de stimuler la croissance et la productivité dans tous les secteurs.
  3. La bio-ingénierie. La convergence des technologies biologiques et IT contribue à améliorer la santé et les performances humaines, transforme les chaînes de valeur alimentaire et crée une multitude de nouveaux produits et de services innovants.
  4. Une énergie plus propre ! De nouvelles solutions plus propres et plus responsables vont voir le jour. Cela va bouleverser nos métiers, ne serait-ce que dans la manière de collecter, de traiter et de stocker les data que nous produisons et consommons de manière exponentielle. Il était temps ! Chez Smartpoint, nous prônons cette approche smart data depuis notre création dont la lutte contre le data swamp.
  5. De nouvelles solutions de mobilité vont apparaitre aussi pour un transport des personnes et des marchandises plus efficace, optimisé et surtout durable.
  6. La technologie va aussi participer à transformer la consommation industrielle et individuelle pour faire face aux enjeux environnementaux dont le changement climatique.
  7. L’avènement du Web 3 basé sur des plateformes et des applications qui permettent d’évoluer vers un futur d’Internet décentralisé avec des normes et des protocoles ouverts, tout en protégeant les droits de propriété numérique, en offrant aux utilisateurs une plus grande propriété de leurs données et en catalysant de nouveaux modèles économiques.
  8. Industrialisation du Machine Learning avec des solutions logicielles et matérielles désormais matures pour accélérer le développement et le déploiement du ML et pour soutenir le pilotage des performances, la stabilité et l’amélioration continue.
  9. Technologies de réalité immersive qui utilisent des technologies de détection et l’informatique spatiale pour aider les utilisateurs à « voir le monde différemment » grâce à la réalité mixte ou augmentée ou encore à « voir un monde différent » grâce à la réalité virtuelle.
  10. Le cloud et l’edge computing vont continuer à se déployer. Concrètement, cela consiste à répartir les charges de travail informatiques entre des centres de données distants et des nœuds locaux afin d’améliorer la souveraineté des données, l’autonomie, la productivité des ressources, la latence et la sécurité.
  11. L’avénement d’architectures de confiance numérique qui vont permettre aux organisations d’instaurer, de développer et de préserver une relation de confiance entre chaque partie prenante dans l’utilisation des données et l’usage des produits et autres services numériques.
  12. Suite aux progrès réalisés dans les technologies spatiales, la réduction des couts des satellites, des lanceurs et des capacités d’habitations, on va assister à une nouvelle génération d’opérations et la naissance de services spatiaux innovants.
  13. Les technologies quantiques devraient permettre une augmentation exponentielle des performances de calcul et la résolution de problématiques inédites. Elles devraient permettre de transformer les réseaux en les rendant plus sûrs.
  14. L’avènement d’une nouvelle génération de logiciels qui s’appuient sur un développement et des tests assistés par l’intelligence artificielle et les plateformes low code ou non code.

Source Mc Kinsey https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/the-top-trends-in-tech

Larges volumes et complexité croissante des données, quelle data dream team mettre en place.

On constate que la taille des équipes Data au sein des organisations ne cesse de croitre, comme si elle était proportionnelle à la complexité et au volume croissant des données à exploiter.

Sur le papier, cela peut sembler cohérent car, à l’échelle, les données sont en effet plus complexes. Affecter plus de ressources dédiées, c’est plus d’informations collectées, plus d’analyses, plus de modèles de ML, plus de données restituées pour mieux piloter ou enrichir vos applicatifs.

Mais cela génère aussi plus de complexité, de dépendances, d’exigences mais aussi d’incohérences et de nouveaux problèmes !

L’impact de la taille des équipes data sur l’efficacité

  1. Une petite équipe, c’est des ressources plus limitées mais cela a l’avantage de faciliter les choses ! Tout le monde se connait et appréhende les compétences de chacun. Il est plus facile de mettre en place une méthode de travail et de l’appliquer. Chacun maîtrise la data stack utilisée et si il y a un dysfonctionnement quelque part, c’est relativement rapide de l’identifier et de le régler.
  2. Au-delà de 10 personnes au sein de l’équipe data, cela se complique ! On commence à avoir des doutes sur la fiabilité des données qu’on utilise, le data lineage (traçabilité des données / data catalog) commence à être trop important pour avoir encore du sens … et les sources d’insatisfactions chez les utilisateurs métiers se multiplient.
  3. Sur des très grosses équipes, cela devient critique ! Nous voyons cela chez nos clients où on dépasse désormais souvent 50 collaborateurs ! Personne ne se connait vraiment, il y a eu du turn-over inéluctable, on ne maîtrise plus vraiment la data stack car chacun y a contribué sans vraiment prendre le temps de documenter quoi que ce soit ni de comprendre l’historique. Les initiatives individuelles se sont multipliées pour satisfaire ponctuellement des besoins utilisateurs plus critiques que d’autres. Cela a généré du coding spécifique, difficile à maintenir et encore moins à faire évoluer dans la durée. Le Daily pipeline se termine beaucoup trop tard pour avoir encore du sens.
Inside Data by Mikkel Dengsøe https://mikkeldengsoe.substack.com/

On arrive à un résultat exactement à l’opposé des attentes. Et cela s’explique :

  • Le processus permettant la traçabilité des données (data lineage) qui consiste à créer une sorte de cartographie pour recenser l’origine des données, les différentes étapes de transformation et pourquoi elles ont été mis en place ainsi que les différentes évolutions dans la durée … devient ingérable. Pourtant, la visualisation de toute cette arborescence est indispensable pour comprendre toutes les dépendances entre les données et comment elles circulent effectivement. Dès lors qu’on franchit des centaines de modèles de données, le data lineage perd toute son utilité. A cette échelle, il devient impossible de comprendre la logique ni de localiser les goulots d’étranglement.
  • Résultat, le pipeline de données fonctionne de plus en plus lentement, il se dégrade inexorablement car il y a trop de dépendances sans compter qu’il y a forcément quelqu’un qui a essayé de colmater des joints quelque part 😉 Et cela a des conséquences : le fameux retour du plat de spaghettis ! Résultats : les données ne sont jamais prêtes dans les temps.
  • Les Data Alerts deviennent votre quotidien et vous passez désormais votre temps à essayer de les résoudre sans compter qu’il est difficile de savoir à qui incombe la résolution du problème à la base !

En conclusion.

Votre capacité à exploiter vos données convenablement, même si elles sont de plus en plus volumineuses et complexes, se résume finalement à des enjeux d’ordre davantage organisationnels que techniques. Même si, à ce stade, une véritable solution de Data Catalog s’impose tout de même !

A l’échelle, vous devez composer avec des équipes hybrides qui ont du mal à intégrer comment votre data stack fonctionne. C’est un état de fait contre lequel il est difficile de lutter. Une des solutions consiste à diviser votre team data en plusieurs petites équipes qui seront en charge d’une pile technologique en particulier qu’ils devront pour le coup bien maîtriser, documenter et transmettre lors de l’onboarding de nouvelles équipes : ceux en charge de l’exploration ou de la collecte, ceux en charge de l’analyse, ceux en charge d’optimiser les performances du pipeline, ceux en charge de l’amélioration de l’architecture globale, etc. 

C’est notamment pour ces raisons que chez Smartpoint, nous vous proposons d’intervenir en apportant des compétences très pointues : Architectes data, ingénieurs data, data analysts, etc. Nous sommes également une ESN spécialisée en Data avec les capacités de mobiliser en volume des équipes Data qui ont l’habitude de travailler ensemble, selon une méthodologie de travail commune et cela change tout.

Source https://mikkeldengsoe.substack.com/p/data-team-size

Du Data Modeling … à « déménageur » de données, quel est le rôle de l’ingénieur data aujourd’hui ?

Terminé le temps où l’ingénieur data se concentrait sur la modélisation de données et passait l’essentiel de son temps en transformations ETL !

Des générations d’ingénieurs data se sont épuisées à mettre en œuvre les meilleures pratiques de modélisation de données (modèle conceptuel, logique et physique) segmentés par domaines, sous-domaines puis interconnectés entre eux. Il existe encore plusieurs types modélisation de données : modèle de données hiérarchique, en réseau, relationnel, orienté objet pour les plus traditionnels mais aussi modèle de données entité-relation, dimensionnel ou encore orienté graphe.

Ne nous y trompons pas, la modélisation de données, est toujours bel et bien indispensable en BI & Analytics avancées. Mais le rôle d’ingénieur data a beaucoup évolué ces dernières années et ce n’est que le commencement ! Il est beaucoup moins focus sur la modélisation de données, il se concentre davantage sur les capacités à déplacer les données et s’appuie sur de nouvelles approches pour traiter les données.

L’approche Data Lake couplée avec un processus d’ELT

La différence ? On ne sélectionne plus les données que l’on considère utiles à stocker mais on les déverse dans le lac de données pour qu’elles soient accessibles pour le reste de l’organisation, quand ils auront besoin. Dans les faits, on n’a plus besoin de transformer les données. Les Data Scientists peuvent ainsi accéder aux données brutes (sans avoir besoin de faire appel à un ingénieur data) et effectuer eux-mêmes les transformations qu’ils souhaitent. Ainsi, en fonction de la complexité des données et des compétences (et l’autonomie) de ceux qui vont les consommer, les ingénieurs n’ont finalement plus besoin de passer beaucoup de temps sur les phases de modélisation.

Le cloud avec ses bibliothèques de connecteurs et l’automatisation

Le cloud a contribué également à minimiser les pratiques de modélisation au préalable des données. Le Move-to-the-cloud massif de solutions autrefois sur site, a poussé les ingénieurs data à se concentrer sur la migration des données en utilisant notamment des outils en SaaS comme Fivetran ou Stich qui proposent des Datasets pre-modélisés pour de larges scénarios d’intégration.

Le Machine Learning

La montée en puissance du ML et surtout du développement AutoML ont aussi contribué à transformer les ingénieurs data en « Data Movers ».

Source Microsoft / 05/2022

Le streaming de données et le traitement temps réel  

Certes, il est toujours possible d’effectuer des agrégations sur des flux (via Spark par exemple). Mais dans la réalité, la plupart des traitements effectués sur les flux tendent à se concentrer sur le filtrage des données (triggers) et leur enrichissement … et non plus leur modélisation. De plus, les exigences accrues de traitement en temps réel éloignent les phases initiales de transformation des données vers l’application centrale (Core).

Cependant, la modélisation des données (Data Modeling) reste incontournable dans de nombreux cas d’usages en data warehousing et BI mais aussi pour être en capacités de mener des analyses avancées en temps réel via les techniques de modélisation dimensionnelle (architecture Lambda).

En effet, rien ne vaut la modélisation des données pour comprendre vraiment comment fonctionnent les données, comment les exploiter au mieux. La modélisation offre aussi des capacités de découverte et d’interprétation inégalées.
De plus, les techniques de modélisation évoluent, les systèmes convergent !

Des outils comme Dbt permettent aujourd’hui d’orchestrer des séries de transformations.

The analytics engineering workflow – DBT

L’introduction de la jointure flux-flux permet de gérer les mises à jour dimensionnelles et réduit la nécessité d’utiliser des modèles de réconciliation. Les bases de données en continu vont encore plus loin en faisant des flux de données en temps réel une partie intégrante du modèle de données. Cette architecture « Kappa » permet une approche simplifiée pour exploiter les données en temps réel.

Avec l’arrivée de solutions de bases de données MPP (comme Snowflake), les différences entre data lake, data warehouse et data lake house sont de plus en plus floues… et quoi qu’ils en soient, elles convergent (même si elles ne couvrent pas encore toutes les fonctionnées des entrepôts de données) pour faciliter certains cas de modélisation de données.

En somme, le data modeling a encore de beaux jours devant lui ! Et le rôle de l’ingénieur data n’a pas fini de se transformer.

Sources :

Les 7 modèles de données les plus utilisés aujourd’hui en entreprises : https://www.lemagit.fr/conseil/Les-sept-modeles-de-donnees-les-plus-utilises-en-entreprise

The lost art of data modeling : https://medium.com/analytics-and-data/the-lost-art-of-data-modeling-1118e88d9d7a

Bienvenue à la génération XOps !

Ops (ou Operators en anglais), c’est le buzzword qui n’en finit pas de buzzer. L’idée sous-jacente est de rendre tout « opérationnable » (c’est-à-dire aligné sur les priorités business pour créer plus de valeur). On a déjà le FinOps, le RevOps … mais parlons de XOps !


C’est le phénomène de fond qui agite le monde de l’ingénierie de la Data à laquelle nous appartenons chez Smartpoint.
Il faut rappeler que Gartner l’a identifié dans son top des 10 tendances à suivre l’année dernière (à lire ici).

Déjà XOps comprend dans les faits DataOps, MLOps, ModelOps et PlatformOps.


Le principe ? Le XOps se base sur les meilleurs pratiques du DevOps (et historiquement du lean) pour être plus efficace et faire des économies d’échelle.

L’objectif est de :

  • Automatiser pour accélérer et endiguer la duplication de technologies et la multiplication de processus (et autres workflows) dès que c’est possible
  • Concevoir une stack technologique de qualité, résiliente, réutilisable, évolutive et qui fonctionne dans la durée.

La nouveauté est qu’on intègre désormais l’IA et le ML … et surtout qu’on ne réfléchit plus à ce qui pourrait être rationalisé et automatisé à postériori mais bien dès la phase de conception.

Concrètement le XOps accélère l’ensemble des processus, lutte contre le gaspillage technologique et améliore la qualité des livrables des produits (DevOps et désormais DevSecOps), des données et leur analyse (DataOps) et des modèles d’IA (MLOps).

Dernier né des Ops ✨ ?
Le ClouOps qui se concentre sur l’orchestration alors que les stratégies multi-cloud se développent dans les entreprises.

Bienvenue à la génération XOPS