Le futur des infrastructures Data se dessine avec l’IA !

Chez Smartpoint, nous assistons à une nouvelle révolution industrielle axée sur la génération d’intelligence grâce à l’IA … et cette révolution nécessite des infrastructures adaptées aux nouvelles exigences des entreprises, notamment en matière de gestion de volumes massifs et diversifiés de données. Nous pensons que le prochain axe majeur d’investissement sera la couche d’infrastructure de données, indispensable pour donner vie à des applications d’IA personnalisées.

L’infrastructure de données : fondation de la révolution IA

Les infrastructures de données doivent évoluer pour gérer des données non structurées à grande échelle, telles que les vidéos, images, audios, et même les données spatiales ! Avec l’essor de l’IA générative (GenAI), la qualité des données devient primordiale, non seulement pour l’entraînement des modèles, mais aussi pour leur inférence. La capacité à acquérir, nettoyer, transformer et organiser ces données est désormais un facteur clé de réussite.

D’ailleurs, le marché mondial des infrastructures IA connaît une croissance fulgurante. Il est estimé à 68,46 milliards de dollars en 2024 et pourrait atteindre 171,21 milliards de dollars d’ici 2029, avec un taux de croissance annuel moyen (CAGR) de 20,12 %. Cette progression est alimentée par l’adoption rapide de l’IA dans des secteurs variés, allant des grandes entreprises aux startups​.

Automatisation et pipelines de données optimisés par l’IA

L’une des principales avancées concerne l’automatisation des pipelines de données. Grâce à l’IA, des workflows end-to-end peuvent être mis en place pour gérer le traitement des données non structurées, de leur extraction à leur stockage en passant par leur transformation. Cela inclut des technologies comme le chunking (fractionnement des données en petites portions), l’indexation et la génération d’embeddings (représentations vectorielles) qui permettent une recherche plus rapide et pertinente. Cette approche devient indispensable dans des applications d’IA conversationnelle et d’agents autonomes​.

Impact de l’inférence IA et essor de l’edge computing

L‘inférence IA, qui consiste à utiliser des modèles pour prendre des décisions en temps réel, est en pleine essor. Cet engouement est notamment soutenu par le edge computing, qui rapproche le traitement des données de leur source pour réduire les latences et optimiser les performances, tout en minimisant les coûts liés à la transmission des données vers le cloud. Cette technologie devient primordiale dans des secteurs tels que l’industrie manufacturière et évidemment la santé​.

La récupération augmentée (RAG) : maximiser l’efficacité des applications IA

Une des innovations majeures observées dans les infrastructures de données est la génération augmentée par récupération (RAG). Cette méthode permet aux entreprises d’activer leurs données pour fournir des réponses plus précises et à jour via des modèles de langage (LLM). En combinant les données internes avec des requêtes, le RAG permet d’améliorer considérablement la fiabilité et la personnalisation des réponses générées par l’IA. Cela constitue un avantage concurrentiel pour les entreprises qui cherchent à fournir des expériences utilisateurs plus précises et crédibles​.

Une gestion éthique et durable des données

Chez Smartpoint, nous croyons fermement à l’importance d’une gestion responsable et éthique des infrastructures de données. Nous nous engageons à éviter le Data Swamp, où des données non pertinentes s’accumulent, en nous concentrant sur la collecte et l’exploitation des données à forte valeur ajoutée. Cette approche permet non seulement d’améliorer la performance opérationnelle, mais aussi de respecter les régulations en matière de confidentialité, telles que le RGPD, tout en adoptant une démarche durable pour un usage plus responsable des ressources informatiques.

… Une infrastructure résiliente pour un avenir axé sur l’IA

Les infrastructures de données sont en pleine transformation sous l’impulsion de l’IA. Chez Smartpoint, pure player data depuis 2006, nous aidons nos clients à adapter leur architecture aux besoins croissants de l’IA, tout en assurant une gestion responsable et éthique des données. Ces évolutions permettront non seulement d’améliorer les performances des modèles IA, mais aussi d’offrir aux entreprises les moyens de se démarquer dans un marché toujours plus compétitif.

LAISSEZ-NOUS UN MESSAGE

Les champs obligatoires sont indiqués avec *.

    Prénom*

    Nom*

    Société*

    E-mail*

    Téléphone*

    Objet*

    Message

    Les DevOps ont connait ! Mais les DataOps ?

    Alors qu’on considère de plus la Data as a Product, les deux rôles peuvent sembler similaires puisque le DevOps se concentre sur le Software as a Product. Et il est vrai que les deux se concentrent sur la qualité de leurs produits respectifs, l’anticipation et la résolution des problèmes qui peuvent affecter l’efficacité de l’entreprise.

    Le DataOps est focalisé sur la production de données de qualité et les données sont le produit.

    Le DevOps lui se concentre sur la qualité du code et les modifications ou évolutions des applications mais ne regarde pas vraiment les spécifiés liées aux données alors qu’en DataOps, dès que l’on touche au code et qu’on met en production, on vérifie l’intégrité des métadonnées pour qu’elles soient conformes aux attendus.


    Le DevOps se concentre sur le déploiement et les tests des modifications apportées au niveau du code dans tous les différents environnements ; puis la validation avec ceux qui ont fait ces changements.

    Il met en place les pipelines CI/CD (Jenkins, Gitlab par ex) et les tests nécessaires.

    En général les DevOps n’écrivent pas le code qu’ils déploient, ils ne vérifient pas sa qualité ni si le code est bien optimisé mais ils encouragent les code review et mettent en place des tests automatisés qui participent à la qualité du code. Ils sont souvent aussi impliqués dans le codage de scripts pour automatiser les processus.

    Ils gèrent l’infrastructure qui supporte le code dont le dimensionnement et la validation des ressources cloud nécessaires (clusters) avec des outils comme Docker, Kubernetes, Ansible (…).  

    Le DevOps est focusé sur la qualité du delivery et la stabilité de l’environnement de production. Il doit limiter au maximum les temps d’arrêt, ce qui est l’indicateur le plus utilisé en termes de suivi de ses performances.


    Le DataOps est quant à lui sur la data as a product, il n’est pas focusé sur la partie logicielle de base mais sur la qualité des métadonnées, c’est-à-dire les plus précises, fiables et fraiches possibles.

    Le DataOps n’est pas tant une « fonction » ou un profil en tant que tel en ingénierie des données mais davantage un rôle avec une méthodologie distincte et un ensemble de tâches que chaque ingénieur des données doit intégrer dans son travail au quotidien avec des outils spécifiques (Apache Aitrflow par exemple). C’est un processus d’amélioration continue de bout-en-bout qui vise aussi à automatiser les flux relatifs aux données (collecte, traitement puis analyse).

    Du moins, c’est comme cela que nous l’envisageons chez Smartpoint. En effet, dans nos missions, chaque data engineer doit avoir la capacité de valider les modèles et les données qui sont produites, il mène ses propres tests, il en assure le monitoring et il contrôle la qualité de l’intégration des données dans le système data existant chez nos clients.

    Comme le DevOps, le DataOps applique les pratiques agiles, met en place un pipeline CI/CD afin de fiabiliser les changements et un outil de contrôle des versions. Il peut également nécessiter la mise en place de d’environnements de tests pour valider les impacts des changements apportés aux données sources ou aux modèles.

    Il est donc focusé sur la qualité des données et la gouvernance. Pour mesurer ses performances, on utilise les mêmes critères qu’en observabilité (disponibilité et fréquence des données, fraicheur, etc).

      Prénom*

      Nom*

      Société*

      E-mail*

      Téléphone*

      Objet*

      Message

      Migration de Teradata vers Snowflake. Effet de mode ou nécessité ?

      Avis de notre expert, El Mahdi EL MEDAGHRI EL ALAOUI, Data Platform Practice Manager

      Récemment, la question de la migration de Teradata vers Snowflake est devenue récurrente parmi les architectes de données et les entreprises utilisatrices. Ce dilemme est souvent posé sous l’angle des avancements architecturaux, de la gestion de la charge de travail, de la rentabilité et de la scalabilité. Est-ce que ce mouvement migratoire est une simple tendance ou repose-t-il sur des fondements solides de nécessités technologiques et économiques ?

      1. L’ARCHITECTURE

      La différence architecturale entre Teradata et Snowflake est le socle de la discussion sur la migration. Teradata, avec son architecture de type « shared-nothing », a longtemps été un incontournable dans la gestion efficace de grands volumes de données. Dans cette architecture, chaque nœud fonctionne indépendamment avec son propre CPU, mémoire et stockage, assurant un environnement robuste de traitement parallèle.

      De l’autre côté, l’architecture cloud multi-cluster “shared data architecture” de Snowflake ouvre de nouvelles perspectives. En séparant les ressources de calcul et de stockage, Snowflake apporte un niveau de scalabilité horizontale et verticale, offrant un environnement agile pour une performance de requête plus rapide, même avec des requêtes de données complexes.

      2. LA GESTION DE LA CHARGE DE TRAVAIL

      La gestion des Workload dans Teradata est assez mature, avec des outils sophistiqués comme Teradata Active System Management (TASM) offrant un contrôle granulaire sur les ressources du système. Cela contraste à notre sens avec l’approche minimaliste de Snowflake qui s’appuie sur son architecture pour gérer automatiquement les charges de travail, ce qui pourrait être considéré comme un avantage … ou une limitation selon les cas d’utilisation.

      3. LE COÛT ET L’AGILITÉ

      L’investissement initial et les coûts de maintenance et d’administration de Teradata peuvent représenter une charge importante, en particulier pour les organisations avec des besoins fluctuants en matière de traitement de données. Le modèle de tarification basé sur la consommation de Snowflake (1€ par jour par téraoctet de stockage) apparait comme une alternative financièrement plus intéressante. Cette approche pay-as-you-go est de plus en plus populaire en termes de mode de consommation des technologies, beaucoup la trouve plus rentable et surtout plus agile.

      4. LA PERFORMANCE ET SON OPTIMISATION

      L’optimisation des performances est au cœur de tout système de gestion de bases de données. Teradata dispose de mécanismes bien huilés pour le tuning SQL et l’optimisation des plans d’exécution. Snowflake, bien que n’ayant pas certaines fonctionnalités avancées de tuning, compense en exploitant son architecture et les ressources cloud pour fournir des améliorations des performances à la demande.

      5. LA SCALABILITÉ ET L’ÉLASTICITÉ

      Teradata, traditionnellement reconnu pour la puissance de son architecture on-premise, a innové avec la fonctionnalité Epod (Elastic Performance on Demand) au sein de sa plateforme IntelliFlex. Cette avancée technologique permet de mobiliser des ressources machine CPU/IO supplémentaires pour faire face à des pics de charge via une simple requête. C’est un véritable virage vers une plus grande élasticité de son infrastructure.

      Snowflake bénéficie quant à lui de son infrastructure cloud « native » et se distingue par ses capacités en termes de scalabilité et d’élasticité. Il est en effet capable d’allouer automatiquement des ressources en fonction des besoins et des variations de charges, une faculté particulièrement précieuse pour gérer les pics de charge de travail ou les flux soudains de données.

      En conclusion

      La migration de Teradata vers Snowflake n’est pas un phénomène passager mais semble être enracinée dans des considérations technologiques et économiques de fond. L’innovation architecturale de Snowflake adossée à un environnement plus rentable, scalable et relativement auto-gérable, représente un argument de poids pour les organisations qui cherchent à moderniser leur infrastructure de gestion de données. Cependant, avec ses fonctionnalités robustes, matures et éprouvées ; Teradata reste une valeur sûre pour beaucoup de clients et incontournable dans certains cas d’utilisation. De plus, en réponse à la concurrence croissante des nouveaux entrant, Teradata innove ! L’éditeur a lancé notamment une nouvelle offre, « Teradata Vantage Cloud Lake », qui vient rivaliser avec Snowflake sur le terrain du native-cloud.

      Comme toute migration technologique, le passage de Teradata à Snowflake doit être minutieusement réfléchi et rapporté au contexte propre des exigences organisationnelles, des ressources financières et des stratégies de gestion des données à long terme de chaque organisation.

      Quels challenges relever pour migrer vers Snowflake ?

      Comme tout processus de migration, cela peut se révéler long et complexe surtout sur de très larges volumes.

      Smartpoint vous accompagne pour planifier ce chantier en termes d’étapes, de délais et de risques : devez-vous nettoyer et transformer vos données avant de migrer ? est-ce que vos applications sont compatibles avec Snowflake ? Comment préserver la sécurité des données 

      Vous avez un projet de migration de Teradata vers Snowflake, interrogez-nous !

      Pour aller plus loin :

      Metadata Management, de quoi parle-t-on exactement ?

      Les métadonnées fournissent des informations sur les data (des données sur les données en somme !) : caractéristiques, contextualisation, signification, usages prévus, lineage, etc. Une gestion efficace a donc un impact direct sur la qualité globale des données mais aussi leur gouvernance et leur conformité dans la durée.

      Les métadonnées permettent donc à ceux qui sont amenés à exploiter les données, à mieux les comprendre et à les utiliser.

      Quels sont les différents types de métadonnées ?

      • Métadonnées descriptives : elles contiennent les informations de base comme le titre, la date de création, l’auteur et le format
      • Métadonnées structurelles : elles décrivent comment les données sont structurées comme les relations entre les différents éléments et la manière dont elles doivent être visualisées ou exposées
      • Métadonnées administratives : Elles donnent les informations sur la gestion des données comme qui en est responsable ou propriétaire, les droits et les accès ainsi que les règles de sauvegarde (ou de suppression)
      • Métadonnées business : Elles décrivent le contexte, les processus et les règles métiers

      Quel prérequis à la mise en place un Metadata Management efficace ?

      Le stockage des métadonnées dans un référentiel centralisé est essentiel.

      Cela permet de rechercher, extraire et mettre à jour les données tout au long de leur cycle de vie. Les metadata sont organisées et classées. On a ainsi l’assurance que les données sont toujours « fraiches » et correctes. Alors que les pipelines de données deviennent de plus en plus volumétriques et en temps réel, stocker les données en silos de manière traditionnelle nuit à la qualité des données, leur accessibilité, génère des incohérences et des erreurs. Un référentiel centralisé facile le travail des ingénieurs data et des analystes.

      Quels avantages du Metadata Management ?

      1. Meilleure accessibilité des données
      2. Gouvernance et sécurité renforcés
      3. Prise de décision facilitée grâce à la meilleure compréhension et partage des données
      4. Qualité des données améliorée

      Top 4 tendances Data à suivre en 2023

      L’intelligence Artificielle toujours au top ! Qui n’a pas été bluffé par le chat GPT de Open AI ? Clairement, c’est la technologie (IA et son corolaire ML) qui est en train de révolutionner nos manières de travailler, de vendre et de vivre ! Alors que les volumes de données ne cessent de croitre, les algorithmes se nourrissent, apprennent et ne cessent de s’améliorer.

      Le Data as a service (DaaS) devrait se démocratiser encore davantage dans les entreprises alors qu’elles adoptent massivement le cloud pour moderniser leurs infrastructures vieillissantes et leurs systèmes data hérités (Legacy), devenus trop lourds à maintenir et trop gourmands en ressources.

      Cela facilite l’accès aux données, leur analyse et leur partage au sein de l’organisation.

      Le DaaS pourrait bien devenir la méthode la plus courante pour intégrer, gérer, stocker et analyser toutes les données. Normal quand on sait qu’un meilleur partage et une exploitation des données par le plus grand nombre, permet aux organisations d’être plus efficaces et performantes.

      L’automatisation ! De nombreuses tâches analytiques sont désormais automatisées et ce phénomène va s’accentuer. C’est déjà une réalité en préparation des données mais aussi sur l’automatisation de certains processus prédictifs ou de recommandation.

      Nous vous invitons à regarder la plateforme APA (automatisation des processus analytiques) de Alteryx qui promet de révolutionner le Data Wrangling.

      La gouvernance des données n’a jamais été autant au cœur de l’actualité et ce sera encore le cas en 2023 !

      On n’a en effet jamais autant produit, collecté et consommé de données. La question de leur qualité est non seulement centrale, car c’est là que réside que toute sa valeur, mais les entreprises ont également besoin de s’appuyer sur une plateforme qui permet de les partager de manière sécurisée au sein de l’organisation tout en respectant les règlementations notamment en termes de protection et de confidentialité.  

      En 2023, si vous ne l’avez pas déjà fait, ce sera le moment de mettre en place un programme de Data Management … 

      Tendances Tech au top en cette rentrée 2022

      Les technologies sont les catalyseurs d’un monde qui change. Elles contribuent à l’amélioration de la productivité des entreprises mais pas que ! Elles permettent d’inventer et de réinventer des offres, de participer à un meilleur bien-être de l’humanité, d’innover pour repenser nos manières de vivre …

      Nous partageons cette étude très intéressante menée par Mc Kinsey qui donne des perspectives sur comment ces tendances technologiques pourraient s’appliquer à votre organisation.

      1. L’intelligence artificielle est entrée dans sa phase d’applications concrètes : résolution de problèmes, prédictions, lancement d’actions automatisées en fonction des phénomènes, offres augmentées, meilleures prises de décisions.
      2. Toujours plus de connectivité avec les technologies 5G/6G, les réseaux wireless à faible puissance, les satellites en orbite et autres technologies qui prennent en charge une multitude de solutions numériques susceptibles de stimuler la croissance et la productivité dans tous les secteurs.
      3. La bio-ingénierie. La convergence des technologies biologiques et IT contribue à améliorer la santé et les performances humaines, transforme les chaînes de valeur alimentaire et crée une multitude de nouveaux produits et de services innovants.
      4. Une énergie plus propre ! De nouvelles solutions plus propres et plus responsables vont voir le jour. Cela va bouleverser nos métiers, ne serait-ce que dans la manière de collecter, de traiter et de stocker les data que nous produisons et consommons de manière exponentielle. Il était temps ! Chez Smartpoint, nous prônons cette approche smart data depuis notre création dont la lutte contre le data swamp.
      5. De nouvelles solutions de mobilité vont apparaitre aussi pour un transport des personnes et des marchandises plus efficace, optimisé et surtout durable.
      6. La technologie va aussi participer à transformer la consommation industrielle et individuelle pour faire face aux enjeux environnementaux dont le changement climatique.
      7. L’avènement du Web 3 basé sur des plateformes et des applications qui permettent d’évoluer vers un futur d’Internet décentralisé avec des normes et des protocoles ouverts, tout en protégeant les droits de propriété numérique, en offrant aux utilisateurs une plus grande propriété de leurs données et en catalysant de nouveaux modèles économiques.
      8. Industrialisation du Machine Learning avec des solutions logicielles et matérielles désormais matures pour accélérer le développement et le déploiement du ML et pour soutenir le pilotage des performances, la stabilité et l’amélioration continue.
      9. Technologies de réalité immersive qui utilisent des technologies de détection et l’informatique spatiale pour aider les utilisateurs à « voir le monde différemment » grâce à la réalité mixte ou augmentée ou encore à « voir un monde différent » grâce à la réalité virtuelle.
      10. Le cloud et l’edge computing vont continuer à se déployer. Concrètement, cela consiste à répartir les charges de travail informatiques entre des centres de données distants et des nœuds locaux afin d’améliorer la souveraineté des données, l’autonomie, la productivité des ressources, la latence et la sécurité.
      11. L’avénement d’architectures de confiance numérique qui vont permettre aux organisations d’instaurer, de développer et de préserver une relation de confiance entre chaque partie prenante dans l’utilisation des données et l’usage des produits et autres services numériques.
      12. Suite aux progrès réalisés dans les technologies spatiales, la réduction des couts des satellites, des lanceurs et des capacités d’habitations, on va assister à une nouvelle génération d’opérations et la naissance de services spatiaux innovants.
      13. Les technologies quantiques devraient permettre une augmentation exponentielle des performances de calcul et la résolution de problématiques inédites. Elles devraient permettre de transformer les réseaux en les rendant plus sûrs.
      14. L’avènement d’une nouvelle génération de logiciels qui s’appuient sur un développement et des tests assistés par l’intelligence artificielle et les plateformes low code ou non code.

      Source Mc Kinsey https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/the-top-trends-in-tech

      Larges volumes et complexité croissante des données, quelle data dream team mettre en place.

      On constate que la taille des équipes Data au sein des organisations ne cesse de croitre, comme si elle était proportionnelle à la complexité et au volume croissant des données à exploiter.

      Sur le papier, cela peut sembler cohérent car, à l’échelle, les données sont en effet plus complexes. Affecter plus de ressources dédiées, c’est plus d’informations collectées, plus d’analyses, plus de modèles de ML, plus de données restituées pour mieux piloter ou enrichir vos applicatifs.

      Mais cela génère aussi plus de complexité, de dépendances, d’exigences mais aussi d’incohérences et de nouveaux problèmes !

      L’impact de la taille des équipes data sur l’efficacité

      1. Une petite équipe, c’est des ressources plus limitées mais cela a l’avantage de faciliter les choses ! Tout le monde se connait et appréhende les compétences de chacun. Il est plus facile de mettre en place une méthode de travail et de l’appliquer. Chacun maîtrise la data stack utilisée et si il y a un dysfonctionnement quelque part, c’est relativement rapide de l’identifier et de le régler.
      2. Au-delà de 10 personnes au sein de l’équipe data, cela se complique ! On commence à avoir des doutes sur la fiabilité des données qu’on utilise, le data lineage (traçabilité des données / data catalog) commence à être trop important pour avoir encore du sens … et les sources d’insatisfactions chez les utilisateurs métiers se multiplient.
      3. Sur des très grosses équipes, cela devient critique ! Nous voyons cela chez nos clients où on dépasse désormais souvent 50 collaborateurs ! Personne ne se connait vraiment, il y a eu du turn-over inéluctable, on ne maîtrise plus vraiment la data stack car chacun y a contribué sans vraiment prendre le temps de documenter quoi que ce soit ni de comprendre l’historique. Les initiatives individuelles se sont multipliées pour satisfaire ponctuellement des besoins utilisateurs plus critiques que d’autres. Cela a généré du coding spécifique, difficile à maintenir et encore moins à faire évoluer dans la durée. Le Daily pipeline se termine beaucoup trop tard pour avoir encore du sens.
      Inside Data by Mikkel Dengsøe https://mikkeldengsoe.substack.com/

      On arrive à un résultat exactement à l’opposé des attentes. Et cela s’explique :

      • Le processus permettant la traçabilité des données (data lineage) qui consiste à créer une sorte de cartographie pour recenser l’origine des données, les différentes étapes de transformation et pourquoi elles ont été mis en place ainsi que les différentes évolutions dans la durée … devient ingérable. Pourtant, la visualisation de toute cette arborescence est indispensable pour comprendre toutes les dépendances entre les données et comment elles circulent effectivement. Dès lors qu’on franchit des centaines de modèles de données, le data lineage perd toute son utilité. A cette échelle, il devient impossible de comprendre la logique ni de localiser les goulots d’étranglement.
      • Résultat, le pipeline de données fonctionne de plus en plus lentement, il se dégrade inexorablement car il y a trop de dépendances sans compter qu’il y a forcément quelqu’un qui a essayé de colmater des joints quelque part 😉 Et cela a des conséquences : le fameux retour du plat de spaghettis ! Résultats : les données ne sont jamais prêtes dans les temps.
      • Les Data Alerts deviennent votre quotidien et vous passez désormais votre temps à essayer de les résoudre sans compter qu’il est difficile de savoir à qui incombe la résolution du problème à la base !

      En conclusion.

      Votre capacité à exploiter vos données convenablement, même si elles sont de plus en plus volumineuses et complexes, se résume finalement à des enjeux d’ordre davantage organisationnels que techniques. Même si, à ce stade, une véritable solution de Data Catalog s’impose tout de même !

      A l’échelle, vous devez composer avec des équipes hybrides qui ont du mal à intégrer comment votre data stack fonctionne. C’est un état de fait contre lequel il est difficile de lutter. Une des solutions consiste à diviser votre team data en plusieurs petites équipes qui seront en charge d’une pile technologique en particulier qu’ils devront pour le coup bien maîtriser, documenter et transmettre lors de l’onboarding de nouvelles équipes : ceux en charge de l’exploration ou de la collecte, ceux en charge de l’analyse, ceux en charge d’optimiser les performances du pipeline, ceux en charge de l’amélioration de l’architecture globale, etc. 

      C’est notamment pour ces raisons que chez Smartpoint, nous vous proposons d’intervenir en apportant des compétences très pointues : Architectes data, ingénieurs data, data analysts, etc. Nous sommes également une ESN spécialisée en Data avec les capacités de mobiliser en volume des équipes Data qui ont l’habitude de travailler ensemble, selon une méthodologie de travail commune et cela change tout.

      Source https://mikkeldengsoe.substack.com/p/data-team-size

      Du Data Modeling … à « déménageur » de données, quel est le rôle de l’ingénieur data aujourd’hui ?

      Terminé le temps où l’ingénieur data se concentrait sur la modélisation de données et passait l’essentiel de son temps en transformations ETL !

      Des générations d’ingénieurs data se sont épuisées à mettre en œuvre les meilleures pratiques de modélisation de données (modèle conceptuel, logique et physique) segmentés par domaines, sous-domaines puis interconnectés entre eux. Il existe encore plusieurs types modélisation de données : modèle de données hiérarchique, en réseau, relationnel, orienté objet pour les plus traditionnels mais aussi modèle de données entité-relation, dimensionnel ou encore orienté graphe.

      Ne nous y trompons pas, la modélisation de données, est toujours bel et bien indispensable en BI & Analytics avancées. Mais le rôle d’ingénieur data a beaucoup évolué ces dernières années et ce n’est que le commencement ! Il est beaucoup moins focus sur la modélisation de données, il se concentre davantage sur les capacités à déplacer les données et s’appuie sur de nouvelles approches pour traiter les données.

      L’approche Data Lake couplée avec un processus d’ELT

      La différence ? On ne sélectionne plus les données que l’on considère utiles à stocker mais on les déverse dans le lac de données pour qu’elles soient accessibles pour le reste de l’organisation, quand ils auront besoin. Dans les faits, on n’a plus besoin de transformer les données. Les Data Scientists peuvent ainsi accéder aux données brutes (sans avoir besoin de faire appel à un ingénieur data) et effectuer eux-mêmes les transformations qu’ils souhaitent. Ainsi, en fonction de la complexité des données et des compétences (et l’autonomie) de ceux qui vont les consommer, les ingénieurs n’ont finalement plus besoin de passer beaucoup de temps sur les phases de modélisation.

      Le cloud avec ses bibliothèques de connecteurs et l’automatisation

      Le cloud a contribué également à minimiser les pratiques de modélisation au préalable des données. Le Move-to-the-cloud massif de solutions autrefois sur site, a poussé les ingénieurs data à se concentrer sur la migration des données en utilisant notamment des outils en SaaS comme Fivetran ou Stich qui proposent des Datasets pre-modélisés pour de larges scénarios d’intégration.

      Le Machine Learning

      La montée en puissance du ML et surtout du développement AutoML ont aussi contribué à transformer les ingénieurs data en « Data Movers ».

      Source Microsoft / 05/2022

      Le streaming de données et le traitement temps réel  

      Certes, il est toujours possible d’effectuer des agrégations sur des flux (via Spark par exemple). Mais dans la réalité, la plupart des traitements effectués sur les flux tendent à se concentrer sur le filtrage des données (triggers) et leur enrichissement … et non plus leur modélisation. De plus, les exigences accrues de traitement en temps réel éloignent les phases initiales de transformation des données vers l’application centrale (Core).

      Cependant, la modélisation des données (Data Modeling) reste incontournable dans de nombreux cas d’usages en data warehousing et BI mais aussi pour être en capacités de mener des analyses avancées en temps réel via les techniques de modélisation dimensionnelle (architecture Lambda).

      En effet, rien ne vaut la modélisation des données pour comprendre vraiment comment fonctionnent les données, comment les exploiter au mieux. La modélisation offre aussi des capacités de découverte et d’interprétation inégalées.
      De plus, les techniques de modélisation évoluent, les systèmes convergent !

      Des outils comme Dbt permettent aujourd’hui d’orchestrer des séries de transformations.

      The analytics engineering workflow – DBT

      L’introduction de la jointure flux-flux permet de gérer les mises à jour dimensionnelles et réduit la nécessité d’utiliser des modèles de réconciliation. Les bases de données en continu vont encore plus loin en faisant des flux de données en temps réel une partie intégrante du modèle de données. Cette architecture « Kappa » permet une approche simplifiée pour exploiter les données en temps réel.

      Avec l’arrivée de solutions de bases de données MPP (comme Snowflake), les différences entre data lake, data warehouse et data lake house sont de plus en plus floues… et quoi qu’ils en soient, elles convergent (même si elles ne couvrent pas encore toutes les fonctionnées des entrepôts de données) pour faciliter certains cas de modélisation de données.

      En somme, le data modeling a encore de beaux jours devant lui ! Et le rôle de l’ingénieur data n’a pas fini de se transformer.

      Sources :

      Les 7 modèles de données les plus utilisés aujourd’hui en entreprises : https://www.lemagit.fr/conseil/Les-sept-modeles-de-donnees-les-plus-utilises-en-entreprise

      The lost art of data modeling : https://medium.com/analytics-and-data/the-lost-art-of-data-modeling-1118e88d9d7a

      Bienvenue à la génération XOps !

      Ops (ou Operators en anglais), c’est le buzzword qui n’en finit pas de buzzer. L’idée sous-jacente est de rendre tout « opérationnable » (c’est-à-dire aligné sur les priorités business pour créer plus de valeur). On a déjà le FinOps, le RevOps … mais parlons de XOps !


      C’est le phénomène de fond qui agite le monde de l’ingénierie de la Data à laquelle nous appartenons chez Smartpoint.
      Il faut rappeler que Gartner l’a identifié dans son top des 10 tendances à suivre l’année dernière (à lire ici).

      Déjà XOps comprend dans les faits DataOps, MLOps, ModelOps et PlatformOps.


      Le principe ? Le XOps se base sur les meilleurs pratiques du DevOps (et historiquement du lean) pour être plus efficace et faire des économies d’échelle.

      L’objectif est de :

      • Automatiser pour accélérer et endiguer la duplication de technologies et la multiplication de processus (et autres workflows) dès que c’est possible
      • Concevoir une stack technologique de qualité, résiliente, réutilisable, évolutive et qui fonctionne dans la durée.

      La nouveauté est qu’on intègre désormais l’IA et le ML … et surtout qu’on ne réfléchit plus à ce qui pourrait être rationalisé et automatisé à postériori mais bien dès la phase de conception.

      Concrètement le XOps accélère l’ensemble des processus, lutte contre le gaspillage technologique et améliore la qualité des livrables des produits (DevOps et désormais DevSecOps), des données et leur analyse (DataOps) et des modèles d’IA (MLOps).

      Dernier né des Ops ✨ ?
      Le ClouOps qui se concentre sur l’orchestration alors que les stratégies multi-cloud se développent dans les entreprises.

      Bienvenue à la génération XOPS