Pourquoi rejoindre Smartpoint, le pure player de la data ?

Interview d’Audrina, responsable du recrutement chez Smartpoint

C’est quoi un « Talent Growth Acquisition » chez Smartpoint ?

Je suis un peu le profil « chasseur » qu’on peut retrouver dans le commerce ! Je recherche les personnalités qui seront les futurs talents de Smartpoint.

Il est vrai que – au-delà des compétences actuelles des candidats – c’est davantage leur curiosité et leur capacité à apprendre tout au long de leur vie professionnelle qui nous intéresse. Le domaine de la data est très riche en innovations technologiques, les outils évoluent en permanence, les langages aussi ! Un ingénieur data aujourd’hui, c’est presque un  « couteau suisse » 😉

audrina rh recrutement data
Audrina Rajaonarison, Talent Growth Acquisition

Est-ce que tu peux nous présenter Smartpoint en quelques mots ?

Smartpoint existe depuis 2006. Bientôt 17 ans !

L’équipe, c’est aujourd’hui environ 250 collaborateurs essentiellement à Paris-ile-de-France. Nous sommes un pure player de la Data. Les fondateurs de Smartpoint sont d’ailleurs des ingénieurs data de formation.

Nous avons aussi un lab r&d en interne avec des docteurs qui mènent des recherches sur les dernières innovations technologiques en ingénierie de la data.

Nous accompagnons de très belles entreprises dans leurs projets data comme : la Société Générale, BNP Paribas, la Stime, HSBC, Enedis, edf, Veolia, Engie, France television …. et bien d’autres encore.

C’est quoi le supplément d’âme de Smartpoint par rapport aux autres ESN ?

Ce qui fait notre différence par rapport aux autres ? C’est notre côté « smart » ! Nous nous sommes fixés comme mission d’évangéliser nos clients pour adopter une approche plus responsable et éthique dans la collecte, le stockage et le traitement de leurs données. Car les volumes explosent littéralement et c’est très énergivore ! Avec les enjeux de sobriété énergétique, on commence enfin à comprendre que les serveurs dans les nuages, ça n’existe pas ! Clairement, cela ne sert à rien de collecter et de stocker des data qui ne seront jamais utilisées ou peu. Nous avons d’ailleurs rejoint Planet Tech’Care.

Et ça change quoi concrètement au niveau des projets ?

Au niveau de notre approche des projets data, cela demande une méthode et une conception complètement différence au niveau de l’architecture, de la stratégie de stockage, de la gestion du cycle de vie de la donnée. Bref, ça change la manière d’appréhender notre travail !

Quels sont les profils que tu cherches en ce moment ?

Smartpoint est une entreprise en croissance. Nous recherchons des ingénieurs Data, des Data Analysts, des Consultants BI, Big Data, MS BI, SAS, Power BI mais aussi des architectes, des développeurs Java, React ou encore Angular.  La liste est longue !

Le mot de la fin ?

Vous êtes smart, vous aimez la data ? Rejoignez Smartpoint, le pure player de la data !

Audrina Rajaonarison 

Les avantages de la mise place d’une Data Governance

La Data Governance reste malheureusement trop souvent pensée à postériori dans les projets Data alors que c’est une problématique centrale et fondamentale.

Concrètement, au-delà de tous les projets data et autres initiatives que vous avez mené dans le temps, c’est la manière dont les données sont collectées, crées, classifiée, formatées et utilisées au-delà des silos organisationnels qui les utilisent. Cela permet justement de les briser et de permettre aux métiers de se connecter aux bonnes données pour prendre des décisions qui se basent sur des données fiables.

La gouvernance des données aborde toute la notion de gestion des données, de la création au stockage jusqu’aux exploitations qui en sont faites. Cela permet aux équipes de comprendre comment les données circulent, l’impact qu’ont les différents usages, les analyses, les tableaux de bords et autres canaux de diffusions utilisés sur leur intégrité.

L’équipe en charge de la Data Governance contribue également fortement aux politiques de sécurité, de protection et de confidentialité des données ainsi que la bonne conformité règlementaire.

Voici les 4 principaux avantages :

  1. La qualité des données ! C’est le principal écueil des projets data. Cela permet de s’assurer qu’on base ses décisions sur des informations pertinentes ou qu’on alimentent d’autres applicatifs avec les bonnes données. Cela semble une évidence mais encore aujourd’hui, c’est un problème majeur. Une fois les données de piètre qualité, incomplètes ou obsolètes ont été identifiées, cela permet de les redresser, de les corriger pour les rendre exploitables ou tout simplement de les supprimer. Autant ne pas stocker des données inutiles, c’est plus éthique et plus responsable pour la planète !
  2. Plus de performance business. Déjà, vous êtes en capacité de prendre de meilleures décisions plus rapidement car vous êtes certains de la qualité de vos données. Cela permet aussi d’enrichir les expériences clients et rendre plus pertinents les parcours d’achat. Plus vos équipes sont sensibilisées à la qualité des données, plus la culture de la data se diffusera dans votre organisation, plus elles exploiteront les data de manière pertinente et cela aura un impact concret sur vos activités (stratégies, innovations).
  3. Une meilleure efficacité. Avoir une lecture claire de la manière dont la data est collectée puis consommée dans l’organisation permet d’identifier des leviers d’optimisation ou d’innovation. Cela met également en lumière certains processus pour pourraient être automatisés, d’autres moyens de diffusion ou de partage des données qui seraient plus pertinents ou beaucoup plus rapides. On perd encore beaucoup de temps à aller chercher des informations dans des énormes Data Warehouse ou de temps tout court à ne pas savoir où chercher !
  4. La sécurisation des données et leur conformité en terme de confidentialité. Beaucoup de vos données sont de nature personnelles ou sensibles. La Data Governance permet de s’assurer que les processus qui les traitent sont suffisamment fiables et robustes pour les protéger de toute utilisation abusive. Selon le RGPB, vous en êtes en effet responsables.  
Data Governance

Tendances Tech au top en cette rentrée 2022

Les technologies sont les catalyseurs d’un monde qui change. Elles contribuent à l’amélioration de la productivité des entreprises mais pas que ! Elles permettent d’inventer et de réinventer des offres, de participer à un meilleur bien-être de l’humanité, d’innover pour repenser nos manières de vivre …

Nous partageons cette étude très intéressante menée par Mc Kinsey qui donne des perspectives sur comment ces tendances technologiques pourraient s’appliquer à votre organisation.

  1. L’intelligence artificielle est entrée dans sa phase d’applications concrètes : résolution de problèmes, prédictions, lancement d’actions automatisées en fonction des phénomènes, offres augmentées, meilleures prises de décisions.
  2. Toujours plus de connectivité avec les technologies 5G/6G, les réseaux wireless à faible puissance, les satellites en orbite et autres technologies qui prennent en charge une multitude de solutions numériques susceptibles de stimuler la croissance et la productivité dans tous les secteurs.
  3. La bio-ingénierie. La convergence des technologies biologiques et IT contribue à améliorer la santé et les performances humaines, transforme les chaînes de valeur alimentaire et crée une multitude de nouveaux produits et de services innovants.
  4. Une énergie plus propre ! De nouvelles solutions plus propres et plus responsables vont voir le jour. Cela va bouleverser nos métiers, ne serait-ce que dans la manière de collecter, de traiter et de stocker les data que nous produisons et consommons de manière exponentielle. Il était temps ! Chez Smartpoint, nous prônons cette approche smart data depuis notre création dont la lutte contre le data swamp.
  5. De nouvelles solutions de mobilité vont apparaitre aussi pour un transport des personnes et des marchandises plus efficace, optimisé et surtout durable.
  6. La technologie va aussi participer à transformer la consommation industrielle et individuelle pour faire face aux enjeux environnementaux dont le changement climatique.
  7. L’avènement du Web 3 basé sur des plateformes et des applications qui permettent d’évoluer vers un futur d’Internet décentralisé avec des normes et des protocoles ouverts, tout en protégeant les droits de propriété numérique, en offrant aux utilisateurs une plus grande propriété de leurs données et en catalysant de nouveaux modèles économiques.
  8. Industrialisation du Machine Learning avec des solutions logicielles et matérielles désormais matures pour accélérer le développement et le déploiement du ML et pour soutenir le pilotage des performances, la stabilité et l’amélioration continue.
  9. Technologies de réalité immersive qui utilisent des technologies de détection et l’informatique spatiale pour aider les utilisateurs à « voir le monde différemment » grâce à la réalité mixte ou augmentée ou encore à « voir un monde différent » grâce à la réalité virtuelle.
  10. Le cloud et l’edge computing vont continuer à se déployer. Concrètement, cela consiste à répartir les charges de travail informatiques entre des centres de données distants et des nœuds locaux afin d’améliorer la souveraineté des données, l’autonomie, la productivité des ressources, la latence et la sécurité.
  11. L’avénement d’architectures de confiance numérique qui vont permettre aux organisations d’instaurer, de développer et de préserver une relation de confiance entre chaque partie prenante dans l’utilisation des données et l’usage des produits et autres services numériques.
  12. Suite aux progrès réalisés dans les technologies spatiales, la réduction des couts des satellites, des lanceurs et des capacités d’habitations, on va assister à une nouvelle génération d’opérations et la naissance de services spatiaux innovants.
  13. Les technologies quantiques devraient permettre une augmentation exponentielle des performances de calcul et la résolution de problématiques inédites. Elles devraient permettre de transformer les réseaux en les rendant plus sûrs.
  14. L’avènement d’une nouvelle génération de logiciels qui s’appuient sur un développement et des tests assistés par l’intelligence artificielle et les plateformes low code ou non code.

Source Mc Kinsey https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/the-top-trends-in-tech

Data Mesh, les 4 principes fondamentaux de l’architecture data de demain.

En introduction, rappelons qu’un data mesh (ou maillage de données) ne remplace absolument pas un data warehouse ou un data lake mais qu’en quelque sorte, il étend leurs capacités dans un contexte où les volumes, les formats, les sources, les localisations et les usages d’exploitation des données continuent à croitre de manière exponentielle.

Un Data Mesh, c’est d’abord un concept architectural qui se rapproche d’une architecture microservice dans sa conception avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes.

Un Data mesh se base sur 4 principes fondamentaux qui sont :

  1. La propriété des données est orientée domaine donc les données sont décentralisées car elles sont exploitées dans chaque unité business (ou sujet restreint) qui en a besoin pour fonctionner. Chaque domaine peut donc avoir un schéma spécifique. Chaque domaine gère ses propres pipelines de données et en a la responsabilité.
  2. La gouvernance des données est fédérée afin que le système soit viable dans la durée (normes d’intéropérabilité et de qualité, culture DevOps, sémantique, etc.). Sans gouvernance inter-domaines, les données se retrouvent cloisonnées et on perd l’intérêt de cette architecture en termes d’agilité et d’évolutivité.
  3. Le Product Thinking ou Data as product. Chaque équipe, au sein de chaque domaine, considère que les différentes ressources de données dont elle a besoin sont les différents composants qui forment un produit. Chaque produit de données est donc créé par les équipes des domaines et consommé par des clients qui peuvent être des ingénieurs data, des data scientists, des développeurs, etc. Chaque produit de données doit donc être accessible, adressable, fiable, définissable et intéropérable.
  4. Self-service via une infrastructure de données en tant que plateforme. Ainsi tous les utilisateurs peuvent s’approvisionner en données exploitables selon leurs besoins. Cela permet également de s’affranchir de la complexité et de rationaliser les processus de stockage et de traitement.

Est-ce que vous avez besoin d’un data mesh ? Est-ce que votre data warehouse suffit pour gérer et exploiter convenablement votre écosystème de données ? Est-ce qu’un data lake est plus approprié ?

Nous partageons avec vous cet article d’Actualité Informatique qui a mis en place un sondage simple qui va vous donner un score. Si vous obtenez une note supérieure à 30, il serait judicieux d’étudier cette solution ensemble !

Pour aller plus loin, voici également un article intéressant publié par Terradata.

Principes d’architectures Data Mesh

Larges volumes et complexité croissante des données, quelle data dream team mettre en place.

On constate que la taille des équipes Data au sein des organisations ne cesse de croitre, comme si elle était proportionnelle à la complexité et au volume croissant des données à exploiter.

Sur le papier, cela peut sembler cohérent car, à l’échelle, les données sont en effet plus complexes. Affecter plus de ressources dédiées, c’est plus d’informations collectées, plus d’analyses, plus de modèles de ML, plus de données restituées pour mieux piloter ou enrichir vos applicatifs.

Mais cela génère aussi plus de complexité, de dépendances, d’exigences mais aussi d’incohérences et de nouveaux problèmes !

L’impact de la taille des équipes data sur l’efficacité

  1. Une petite équipe, c’est des ressources plus limitées mais cela a l’avantage de faciliter les choses ! Tout le monde se connait et appréhende les compétences de chacun. Il est plus facile de mettre en place une méthode de travail et de l’appliquer. Chacun maîtrise la data stack utilisée et si il y a un dysfonctionnement quelque part, c’est relativement rapide de l’identifier et de le régler.
  2. Au-delà de 10 personnes au sein de l’équipe data, cela se complique ! On commence à avoir des doutes sur la fiabilité des données qu’on utilise, le data lineage (traçabilité des données / data catalog) commence à être trop important pour avoir encore du sens … et les sources d’insatisfactions chez les utilisateurs métiers se multiplient.
  3. Sur des très grosses équipes, cela devient critique ! Nous voyons cela chez nos clients où on dépasse désormais souvent 50 collaborateurs ! Personne ne se connait vraiment, il y a eu du turn-over inéluctable, on ne maîtrise plus vraiment la data stack car chacun y a contribué sans vraiment prendre le temps de documenter quoi que ce soit ni de comprendre l’historique. Les initiatives individuelles se sont multipliées pour satisfaire ponctuellement des besoins utilisateurs plus critiques que d’autres. Cela a généré du coding spécifique, difficile à maintenir et encore moins à faire évoluer dans la durée. Le Daily pipeline se termine beaucoup trop tard pour avoir encore du sens.
Inside Data by Mikkel Dengsøe https://mikkeldengsoe.substack.com/

On arrive à un résultat exactement à l’opposé des attentes. Et cela s’explique :

  • Le processus permettant la traçabilité des données (data lineage) qui consiste à créer une sorte de cartographie pour recenser l’origine des données, les différentes étapes de transformation et pourquoi elles ont été mis en place ainsi que les différentes évolutions dans la durée … devient ingérable. Pourtant, la visualisation de toute cette arborescence est indispensable pour comprendre toutes les dépendances entre les données et comment elles circulent effectivement. Dès lors qu’on franchit des centaines de modèles de données, le data lineage perd toute son utilité. A cette échelle, il devient impossible de comprendre la logique ni de localiser les goulots d’étranglement.
  • Résultat, le pipeline de données fonctionne de plus en plus lentement, il se dégrade inexorablement car il y a trop de dépendances sans compter qu’il y a forcément quelqu’un qui a essayé de colmater des joints quelque part 😉 Et cela a des conséquences : le fameux retour du plat de spaghettis ! Résultats : les données ne sont jamais prêtes dans les temps.
  • Les Data Alerts deviennent votre quotidien et vous passez désormais votre temps à essayer de les résoudre sans compter qu’il est difficile de savoir à qui incombe la résolution du problème à la base !

En conclusion.

Votre capacité à exploiter vos données convenablement, même si elles sont de plus en plus volumineuses et complexes, se résume finalement à des enjeux d’ordre davantage organisationnels que techniques. Même si, à ce stade, une véritable solution de Data Catalog s’impose tout de même !

A l’échelle, vous devez composer avec des équipes hybrides qui ont du mal à intégrer comment votre data stack fonctionne. C’est un état de fait contre lequel il est difficile de lutter. Une des solutions consiste à diviser votre team data en plusieurs petites équipes qui seront en charge d’une pile technologique en particulier qu’ils devront pour le coup bien maîtriser, documenter et transmettre lors de l’onboarding de nouvelles équipes : ceux en charge de l’exploration ou de la collecte, ceux en charge de l’analyse, ceux en charge d’optimiser les performances du pipeline, ceux en charge de l’amélioration de l’architecture globale, etc. 

C’est notamment pour ces raisons que chez Smartpoint, nous vous proposons d’intervenir en apportant des compétences très pointues : Architectes data, ingénieurs data, data analysts, etc. Nous sommes également une ESN spécialisée en Data avec les capacités de mobiliser en volume des équipes Data qui ont l’habitude de travailler ensemble, selon une méthodologie de travail commune et cela change tout.

Source https://mikkeldengsoe.substack.com/p/data-team-size

Quoi de neuf dans le monde de la Data ? Les outils et les technologies à suivre à la rentrée 2022

Cette année aura été marquée par les consolidations entre les éditeurs, les rachats ou le développement de fonctionnalités pour des outils existants pour couvrir de nouvelles briques de la data stack. Détails.

Ingestion

Cette couche couvre le streaming de données et les services SaaS qui permettent de mettre en place des pipelines de données des systèmes opérationnels jusqu’au stockage. Airbyte (open source) sort du lot avec une croissance exponentielle en termes d’entreprises utilisatrices (plus de 15 000) et le lancement d’un outil de Reverse ETL (via acquisition de Grouparoo).

Datalakes

Dans cette segmentation de technologies, on part du principe qu’un datalake est un moteur d’analyse (bien que dans Databricks, cela inclut à la fois le data lake et le moteur d’analyse). Cette architecture permet d’optimiser Spark SQL pour créer un moteur analytique sur le format de table Delta. Cette même logique s’applique à Dremio sur Iceberg, ou à Snowflake supportant Iceberg comme tables externes à sa base de données.

Gestion des métadonnées

Dans cette couche, on retrouve les formats Open Table qui sont en train de devenir la norme pour prendre en charge les données structurées dans un datalake. Il y a un an, Delta Lake était un projet de Databricks avec un produit commercialisé sous le nom de Delta. Aujourd’hui, nous avons Apache Hudi commercialisé par Onehouse et Apache Iceberg commercialisé par Tabular. Ces deux sociétés ont été fondées par les créateurs de ces deux projets open-source.

Git pour la data

Le concept de Git pour les données s’installe dans la communauté des ingénieurs data. dbt encourage les analystes à utiliser les meilleures pratiques sur différentes versions de données (dev, stage et production), mais ne prend pas en charge la création et la maintenance de ces jeux de données dans les data lakes.

Les équipes DataOps cherchent de plus en plus à avoir un contrôle de version des données inter-organisations afin de mieux contrôler les différents jeux de données qui ont différentes révisions au fil du temps. Pour exemples de révisions courantes de jeux de données : le recalcul nécessaire pour les algorithmes et les modèles ML, ou de backfills provenant de systèmes opérationnels comme cela arrive souvent en BI, ou la suppression d’un sous-ensemble en raison de réglementations telles que le droit à l’oubli dans le cadre du GDPR.

Computing

Dans ce tableau, la partie virtualisation a été supprimée car elle a moins de vent en poupe ! On y retrouve les technologies de calculs distribués et les moteurs d’analyse.

La principale différence entre ces deux catégories est comment ces outils positionnement leur couche de stockage :

  • Les moteurs de calcul distribué traditionnels permettent aux ingénieurs de distribuer tout ce qui est SQL ou tout autre code. Au-delà de Spark, les deux outils à suivre dans cette catégorie sont Ray et Dask. Ray est un projet open-source qui permet aux ingénieurs de mettre à l’échelle toute charge de travail Python à forte intensité de calcul, utilisée principalement pour l’apprentissage automatique. Dask est également un moteur Python distribué basé sur Pandas.
  • La catégorie des moteurs d’analyse comprend tous les entrepôts de données tels que Snowflake, BigQuery, Redshift, Firebolt et toujours PostgreSQL. Elle contient également des entrepôts de données comme Databricks lakehouse, Dremio, ou Apache Pinot. Tous les moteurs d’analyse utilisent le datalake comme leur source de stockage. Il est à noter que Snowflake prend désormais en charge Apache Iceberg comme l’un des formats de table externe qui peut être lu par Snowflake directement à partir du datalake.

Orchestration

Airflow reste le plus produit open-source le plus populaire. Astronomer le talonne depuis quelques années déjà et depuis que la société a sauté dans le train du cloud, elle est maintenant en concurrence directe avec les principaux fournisseurs de cloud. À noter que Astronomer a également fait l’acquisition de Datakin qui fournit du data lineage. Que se passe t’il lorsqu’un outil d’orchestration a des capacités de lignage ? En théorie, cela pourrait permettre de construire des pipelines plus sûrs et plus résilients. En comprenant quels sont les ensembles de données qui sont impactés par des données manquantes, corrompues ou de mauvaise qualité, cela faciliterait considérablement l’analyse d’impact en liant la logique (gérée par les outils d’orchestration) et la sortie (gérée dans les outils de lignage). À suivre donc !

Observabilité

Cette catégorie est dominée par Monte Carlo qui a effectué plusieurs levées de fonds.  Ce produit ne cesse d’évoluer, offrant davantage d’intégrations notamment avec l’écosystème databricks.

Data science

Cette catégorie comprend trois grandes familles d’outils :

  • Les end-to-end ML Ops. Il semble que dans les faits, aucun de ces outils ne soient vraiment « de bout en bout » du pipeline de ML mais certains sont sur la bonne voie dont Comet.
  • Data centric ML. Deux nouveaux entrants à suivre (toujours selon LakeFS) en termes d’outils avec Activeloop et Graviti.
  • L’ observabilité et monitoring ML, il s’agit de tous les outils orientés suivi et observabilité de la qualité des modèles. Tout comme la catégorie de l’observabilité des données, c’est une catégorie d’outils en plein développement. A noter que début de 2022, Deepchecks est devenu open source et a rapidement gagné en adoption.

Data Catalog

C’est devenu un incontournable ! On retrouve les désormais acteurs de longue date comme Alation et Collibra. À suivre Immuta qui se concentre sur le contrôle de l’accès aux données mais qui a fait une importante levée de fonds pour accélérer sa croissance.

Article source https://lakefs.io/the-state-of-data-engineering-2022/

https://lakefs.io/the-state-of-data-engineering-2022/
Source LakeJS

Data visualisation, Tableau ou Qlik Sense ?

Comment départager ces deux leaders de la data alors que tous deux partagent la même note 4,3/5 avec des avis favorables de GARTNER ?

QLIK est reconnu pour la Data Visualisation et le mapping de données. Il est également efficient en analyse (avec Qlik Analytics Engine) et en data discovery. Vous pouvez ainsi créer des pipelines à partir de plusieurs sources de données et profiter du machine learning pour mieux les trier.
Son point fort ? La contextualisation. Il se concentre surtout sur l’association de données, c’est à dire la découverte de relations entre elles.
En terme de sécurité, Qlik offre une forte granularité et des capacités de contrôles d’accès avancées.

TABLEAU est quant à lui reconnu pour l’interactivité de sa data visualisation et ne nécessite pas de scripts avancés ni de macros compliquées pour pourvoir commencer à l’utiliser, c’est un outil très intuitif.
Il capte également de nombreuses sources de données : bases de données, services clouds, Google analytics, etc.
Son point fort ? Il va très loin notamment en analyses #statistiques, multidimensionnelles, prédictives et comportementales. Tableau met l’accent sur l’exploration des données et incite les utilisateurs à créer leurs propres modèles de recherche. Ainsi, pour concevoir des rapports pertinents, Tableau peut donc nécessiter davantage d’expertises technique …

Leurs points communs ?

  • Tous les deux utilisent l’apprentissage automatique (ML) pour identifier les tendances et construire des modèles robustes, mais Tableau nécessite beaucoup moins d’expertise technique.
  • Tous deux prennent en charge un large éventail d’appareils, de systèmes d’exploitation et de plateformes web et mobiles. Les données et les rapports sont accessibles depuis pratiquement tous les appareils. Les deux sociétés offrent des communautés solides et offrent un excellent support.
  • Les deux outils offrent un bon niveau de sécurité. Ils s’appuient sur des sources de données fiables et d’autres aspects essentiels de la sécurité de l’entreprise, mais Qlik propose un système plus robuste en ce domaine.
techrepublic.com

Source : https://www.techrepublic.com/article/qlik-vs-tableau/

ETL, zoom sur Fivetran vs Stitch

Vous cherchez un outil d’intégration de données ? Smartpoint vous propose une rapide comparaison entre deux outils d’ETL qui ont actuellement le vent en poupe.

Les entreprises stockent leurs données dans différents endroits en interne mais aussi désormais de plus en plus dans le cloud. Pour disposer d’une vision unifiée de vos activités et être en capacité de les analyser, vous devez rassembler toutes ces data dans un entrepôt de données ou un data lake.

On utilise un ETL pour différents usages comme classiquement l’extraction, la transformation et le chargement dans des entrepôt de données. Ils sont aussi utilisés pour redresser la qualité des données afin qu’elles soient exploitables en data visualisation.

LEURS POINTS COMMUNS

Ils se connectent tous deux à de nombreuses sources de données (env 150 connecteurs pré-paramétrés chacun), ils sont RGPD et SOC 2 compliant. Les deux sont de purs ETL, ils ne transforment pas les données avant de les charger. Enfin, ils proposent tous deux un essai gratuit pendant 14 jours.

FIVETRAN

C’est un outil cloud destiné aux ingénieurs data et aux data analysts. Il est opérable avec tous les principaux entrepôts de données, bases de données… mais pas les data lakes. On peut difficilement personnaliser les connecteurs depuis le cloud … mais vous pouvez demander à l’éditeur de créer une nouvelle source de données. Cependant, vous ne pourrez pas le faire vous-même, ni modifier les sources existantes. Ainsi, si vous avez des besoins spécifiques, mieux vaut vous entourer d’un ingénieur data ! Fivetran ne transforme pas les données avant de les charger mais il permet désormais de faire à postériori via un copier-coller SQL.

STITCH

C’est également un outil dans le cloud. Il fait désormais partie de Talend Data Fabric. En termes de destinations, via l’API Rest, il est capacité de déplacer les données dans tous les principaux entrepôts de données et bases de données mais aussi les data lakes. On peut rajouter de nouvelles sources en utilisant Singer (open source) pour réaliser des scripts mais ce n’est pas encore optimal en termes qualité, il faut tester ;-). Il ne permet pas non plus de transformer les données mais, via les outils proposés par Talend, il est possible de le faire soit au sein de l’entrepôt de données, soit via des moteurs de traitement externes tels que Spark et MapReduce. Les transformations peuvent être définies en SQL, Python ou Java.

Pour aller plus loin : https://www.techrepublic.com/article/stitch-vs-fivetran/ et https://airbyte.com/etl-tools/fivetran-vs-stitch

Captiva rejoint le groupe Smartpoint 

Le nouvel ensemble propose désormais deux pôles d’expertises majeurs en Data et Développement de produits.

Paris, le 10 juin 2022

Smartpoint, pure player de la Data, annonce le rapprochement avec Captiva, ESN parisienne de près de 80 collaborateurs, spécialisée dans le développement de produits et la qualité logicielle.

Désormais, le groupe Smartpoint, c’est une proposition de valeur élargie en expertises technologiques autour des deux principaux chantiers des entreprises en France pour soutenir leur transformation digitale : l’exploitation de la data et sa valorisation ; ainsi que le développement de nouveaux produits.

Le nouvel ensemble compte plus 250 collaborateurs qui réalisent des prestations IT ou délivrent des projets au forfait pour des entreprises des secteurs de la banque-assurance, la grande distribution, le transport, l’énergie, les média et les services.

Conformément à notre plan de croissance, nous cherchions à nous développer en nous rapprochant d’entreprises qui nous ressemblent en termes de valeurs et de vision. C’est chose faite avec Captiva et ses 80 collaborateurs, qui rejoignent l’aventure et vont désormais partager nos ambitions. Captiva est spécialisée en développement applicatif, testing et AMOA. En termes de références clients, pour ne citer que quelques comptes, Captiva intervient aujourd’hui au sein du Groupe Crédit Agricole, Accor Hotels et Manpower. Nous sommes donc très complémentaires et ce rapprochement va nous permettre d’avoir une position plus forte sur notre marché.

Yazid Nechi, Président de Smartpoint

 

Du Data Modeling … à « déménageur » de données, quel est le rôle de l’ingénieur data aujourd’hui ?

Terminé le temps où l’ingénieur data se concentrait sur la modélisation de données et passait l’essentiel de son temps en transformations ETL !

Des générations d’ingénieurs data se sont épuisées à mettre en œuvre les meilleures pratiques de modélisation de données (modèle conceptuel, logique et physique) segmentés par domaines, sous-domaines puis interconnectés entre eux. Il existe encore plusieurs types modélisation de données : modèle de données hiérarchique, en réseau, relationnel, orienté objet pour les plus traditionnels mais aussi modèle de données entité-relation, dimensionnel ou encore orienté graphe.

Ne nous y trompons pas, la modélisation de données, est toujours bel et bien indispensable en BI & Analytics avancées. Mais le rôle d’ingénieur data a beaucoup évolué ces dernières années et ce n’est que le commencement ! Il est beaucoup moins focus sur la modélisation de données, il se concentre davantage sur les capacités à déplacer les données et s’appuie sur de nouvelles approches pour traiter les données.

L’approche Data Lake couplée avec un processus d’ELT

La différence ? On ne sélectionne plus les données que l’on considère utiles à stocker mais on les déverse dans le lac de données pour qu’elles soient accessibles pour le reste de l’organisation, quand ils auront besoin. Dans les faits, on n’a plus besoin de transformer les données. Les Data Scientists peuvent ainsi accéder aux données brutes (sans avoir besoin de faire appel à un ingénieur data) et effectuer eux-mêmes les transformations qu’ils souhaitent. Ainsi, en fonction de la complexité des données et des compétences (et l’autonomie) de ceux qui vont les consommer, les ingénieurs n’ont finalement plus besoin de passer beaucoup de temps sur les phases de modélisation.

Le cloud avec ses bibliothèques de connecteurs et l’automatisation

Le cloud a contribué également à minimiser les pratiques de modélisation au préalable des données. Le Move-to-the-cloud massif de solutions autrefois sur site, a poussé les ingénieurs data à se concentrer sur la migration des données en utilisant notamment des outils en SaaS comme Fivetran ou Stich qui proposent des Datasets pre-modélisés pour de larges scénarios d’intégration.

Le Machine Learning

La montée en puissance du ML et surtout du développement AutoML ont aussi contribué à transformer les ingénieurs data en « Data Movers ».

Source Microsoft / 05/2022

Le streaming de données et le traitement temps réel  

Certes, il est toujours possible d’effectuer des agrégations sur des flux (via Spark par exemple). Mais dans la réalité, la plupart des traitements effectués sur les flux tendent à se concentrer sur le filtrage des données (triggers) et leur enrichissement … et non plus leur modélisation. De plus, les exigences accrues de traitement en temps réel éloignent les phases initiales de transformation des données vers l’application centrale (Core).

Cependant, la modélisation des données (Data Modeling) reste incontournable dans de nombreux cas d’usages en data warehousing et BI mais aussi pour être en capacités de mener des analyses avancées en temps réel via les techniques de modélisation dimensionnelle (architecture Lambda).

En effet, rien ne vaut la modélisation des données pour comprendre vraiment comment fonctionnent les données, comment les exploiter au mieux. La modélisation offre aussi des capacités de découverte et d’interprétation inégalées.
De plus, les techniques de modélisation évoluent, les systèmes convergent !

Des outils comme Dbt permettent aujourd’hui d’orchestrer des séries de transformations.

The analytics engineering workflow – DBT

L’introduction de la jointure flux-flux permet de gérer les mises à jour dimensionnelles et réduit la nécessité d’utiliser des modèles de réconciliation. Les bases de données en continu vont encore plus loin en faisant des flux de données en temps réel une partie intégrante du modèle de données. Cette architecture « Kappa » permet une approche simplifiée pour exploiter les données en temps réel.

Avec l’arrivée de solutions de bases de données MPP (comme Snowflake), les différences entre data lake, data warehouse et data lake house sont de plus en plus floues… et quoi qu’ils en soient, elles convergent (même si elles ne couvrent pas encore toutes les fonctionnées des entrepôts de données) pour faciliter certains cas de modélisation de données.

En somme, le data modeling a encore de beaux jours devant lui ! Et le rôle de l’ingénieur data n’a pas fini de se transformer.

Sources :

Les 7 modèles de données les plus utilisés aujourd’hui en entreprises : https://www.lemagit.fr/conseil/Les-sept-modeles-de-donnees-les-plus-utilises-en-entreprise

The lost art of data modeling : https://medium.com/analytics-and-data/the-lost-art-of-data-modeling-1118e88d9d7a