Smartpoint réalise son bilan carbone

Notre score nous place dans le 10% des entreprises françaises les plus engagées en ce domaine.

Chez Smartpoint, nous sommes une entreprise engagée et nous sommes particulièrement sensibles aux enjeux climatiques. Nous militons également pour un numérique plus responsable et nous nous mobilisons pour réduire l’empreinte environnementale de la Tech sein de la communauté Planet Tech’Care.

Smartpoint poursuit son engagement et réalise son premier bilan de ses émissions carbone avec Greenly selon une méthodologie standardisée par l’ADEME sur les scopes 1, 2 et 3.

Avec un bilan de 3,5 tonnes de CO2 par collaborateur, nous sommes déjà bien en dessous de la moyenne de notre secteur d’activité (Agence de création digitale et ESN) qui se situe à 7,6 tonnes de CO2 par collaborateur. C’est mieux mais pas suffisant pour Smartpoint, nous sommes collectivement déterminés et nous souhaitons aller plus loin !


Nous allons mettre en place un ensemble d’actions et de mesures qui vont nous permettre de limiter encore davantage notre impact et contribuer à limiter le réchauffement climatique.

Notre ambition ? La neutralité carbone !

Comment reconnaitre un bon ingénieur Data Full Stack quand vous en croisez un ?

Dans la data, c’est exactement comme dans le développement logiciel de produits ! Avant, il y avait des développeurs spécialisés front et d’autres back-end, d’autres chargés que de la mise en production, d’autres des tests, etc. En data, on avait aussi des DBA. Chacun avait un rôle bien précis. Mais depuis les pratiques Agile, le DevOps, le CI/CD et l’automatisation des tests se sont démocratisés en même temps que la course à l’innovation et les contraintes de time-to-market se sont accentuées.

Être ingénieur data aujourd’hui ne se résume plus à la conception de Datawarehouse, la mise en place d’ETL, le lancement de requêtes SQL et la restitution dans des tableaux de bord. Certes, il ne s’agit pas d’être spécialiste en tout mais un ingénieur data fullstack a désormais des connaissances étendues dans de nombreux domaines.

Yazid Nechi, Président de Smartpoint

Architecture

C’est la base, il doit comprendre comment sont organisées les données et quels sont les objectifs en termes de traitement et de gestion des données. Cela suppose aussi d’avoir une bonne culture générale sur les nouvelles méthodes de data ingestion (comme Kafka), les différentes alternatives de stockage ainsi que les normes de sécurité pour la protection des données (dont la gestion des droits et des authentifications).

SQL

C’est une compétence certes traditionnelle mais toujours indispensable !

ETL (ou ELT)

C’est la base du métier : mettre en place le pipeline de données pour capturer, transformer et charger dans le système cible. Cela demande des compétences en modélisation des données mais aussi la connaissance d’un ou plusieurs outils. Citons évidemment Talend, Informatica mais aussi des nouveaux entrants comme Fivetran ou Stitch.

Visualisation de données

C’est un incontournable même si historiquement, c’est une compétence davantage attendue chez les analystes de données mais dans le même logique de maîtrise du flux de données de bout en bout, nous encourageons nos ingénieurs data à connaître au moins un des outils comme Tableau ou plus récemment Looker ou ThoughtSpot.

Spark

C’est un must-have en ingénierie des données, Spark est le framework open source désormais incontournable en raison notamment de sa très riche bibliothèque pour le traitement par lots, le streaming, les analytics, le ML, la datascience, etc. 

Connaissances en programmation

Avant SQL et un outil comme Informatica suffisait. Aujourd’hui un ingénieur data intervient dans le pipeline CI/CD et pour le maîtriser, il est nécessaire aujourd’hui d’avoir aussi des compétences en langages de programmation comme Java, Python ou encore Scala.

Expériences en développement

L’intégration et le développement continus (CI/CD) sont aujourd’hui la norme (ou presque) ainsi que le DevOps et cela vaut également pour l’ingénieur Data. Il doit avoir des connaissances en gestion de la base de code, en testing, etc. La connaissance d’outils tels que Jenkins, Jenkins, DataDog, Gitlab, Jira sont donc un vrai plus !

L’incontournable cloud !

Impossible aujourd’hui de passer à côté de cette compétence alors que les entreprises ont de plus en plus recours au cloud pour accéder, traiter, gérer, stocker et sécuriser leurs données. Cela permet de bénéficier de puissance de traitement et de calcul inégalé sans parler de la scalabilité. Chaque ingénieur Data se doit de connaître au moins un cloud provider comme GCP ou Azure.

Vous cherchez un Data engineer fullstack avec toutes ces compétences ? Il est surement chez Smartpoint 🤩 Vous voulez gagnez en compétences et vous investir dans de supers projets data ? Nous recrutons aussi aujourd’hui nos futurs talents !

Sources :

Innovations Data vs. Sobriété numérique ? Oui, c’est possible.

Comment contribuer au plan de sobriété énergétique présenté par le gouvernement début octobre ? Chez Smartpoint, on s’engage et on conseille nos clients car c’est une démarche qui s’applique à toutes les phases de votre projet : cadrage, conception, design d’architecture, développement, choix de solutions et de technologies, hébergement, etc.

Rappelons que le numérique, c’est 10% de la consommation électrique française et 2% de l’empreinte carbone au niveau national (selon les études de l’Ademe, Agence de la transition écologique et l’Arcep), émissions qui pourraient atteindre les 7% d’ici 2040. Au niveau mondial, les datacenters représentent 1% de la consommation électrique et en France (rapport du Sénat en 2020) ils représentaient déjà 14% de l’empreinte carbone du numérique en 2019 ! Il est temps d’agir concrètement car – et c’est bien le paradoxe – notre monde de plus en plus digitalisé consomme toujours plus de matières et génère toujours plus de pollution numérique.

Concrètement, voici nos conseils pour repenser vos projets data en adoptant une démarche plus responsable et moins énergivore.

  1. Rationaliser le stockage de la data en ne stockant que les données vraiment utiles, éviter la duplication des données et mettre en place un processus automatisé de gestion du cycle de vie des données pour supprimer celles qui ne sont plus nécessaires (et lutter ainsi contre le DataSwamp)
  2. Couper les serveurs non utilisés et en profiter pour passer aux greens data centers (norme Energy Star par exemple) qui ont une plus faible consommation énergétique
  3. Regarder où les serveurs de votre Cloud Provider sont implantés car la source d’énergie locale utilisée diffère. Un data center en France est alimenté par l’énergie dé-carbonée du nucléaire … et non issue d’usines à charbon !
  4. Adopter les serveurs virtuels qui ne fonctionnent que lorsqu’on les sollicite ou choisir des serveurs mutualisés
  5. Réfléchir à la consommation énergétique additionnelle que l’introduction d’une nouvelle technologie va induire avant de l’adopter. Par exemple, avons-nous vraiment besoin de traitement temps réel dans tel ou tel projet data quand on connait la consommation de ce type de fonctionnement ? Avons-nous besoin de lancer autant de requêtes à cette fréquence ?
  6. Adopter l’écoconception dès la phase de design de votre projet car on sait qu’au final près d’1/3 des fonctionnalités demandées par les métiers … ne seront finalement pas utilisées ou n’étaient pas vraiment nécessaires ! A suivre d’ailleurs l’initiative très intéressante de APIDAYS en ce domaine. .
  7. Engager une démarche de normalisation ISO 25010 ou ISO 5055:2021 qui encadre la qualité logicielle et donne des orientations pour améliorer une conception plus « sobre » du code
  8. Optimiser l’architecture technique de vos applications
  9. Décommissionner ou initier le refactoring de vos applications Legacy devenues ingérables et extrêmement énergivores en termes de fonctionnement suite au rajout successifs de « couches » année après année
  10. Penser à la réusabilité de vos composants et à la maintenabilité dans le temps en adoptant par exemple une architecture micro-services

sobriété écologique et transformation numérique

Python vs Rust, quel langage est le plus adapté à votre projet Data ?

indétrônable Python en ingénierie de la Data ? la langage de programmation Rust pourrait bien lui voler la vedette !

Au niveau des langages de programmation, Python reste incontournable mais Rust intéresse de plus en plus d’ingénieurs data … D’ailleurs Meta le recommande désormais avec C++ et Python qui est désormais davantage cantonné aux applications de Data Science ou de Machine Learnings. Microsoft estime quant à lui que C et C++ ne sont pas assez sûrs pour les logiciels critiques et investit de plus en plus dans Rust.

Pourquoi cet engouement ?

  • Rust permet de garantir un haut niveau de performance dans le traitement de larges volumes de données et offre un bien meilleur niveau de sécurité et de contrôle de qualité du code.
  • Il revient moins cher que Python qui est beaucoup lourd lors de la mise en production. Python nécessite en effet plus de tests et peut générer des interruptions en production. C’est plus facile – et plus précoce – d’identifier d’éventuel bugs avec Rust !
  • Il permet aussi de mieux optimiser le stockage des données et l’usage en mémoire. Il a en effet la particularité d’allouer la mémoire par un système de gestion de la propriété au moment de la compilation. Ainsi, les données inutilisées sont nettoyées automatiquement sans que personne n’ait besoin de penser à allouer ou libérer de la mémoire. Alors que les cloud providers appliquent des tarifs élevés lorsque les entreprises nécessitent plus de mémoires ou de nœuds, c’est un vrai avantage !

Certes la communauté est encore un peu réduite mais elle est très active.

Un inconvénient ? Oui, la courbe d’apprentissage est plus longue que les autres langages (partez sur deux semaines !) et comme Rust reste tout de même encore récent, vous n’avez pas encore toutes les ressources et autres bibliothèques dont vous pourriez avoir besoin (cf STACK OVERFLOW).

Trois raisons pour lesquels vous devriez sérieusement envisager de passer à Rust ?

  1. Vous avez besoin de traiter de grandes quantités de données
  2. Votre projet exige des performances élevées
  3. Vous menez des opérations très gourmandes en CPU comme l’exécution d’algorithmes

Et trois raisons pour lesquelles vous avez bien raison d’utiliser ce bon vieux Python (il remonte à 1991)

  1. Vous avez besoin d’un langage simple, flexible et facile à coder (accessible même aux débutants)
  2. Votre projet consomme beaucoup d’IA et de ML
  3. Vous êtes davantage dans la data science et les performances ne sont pas l’enjeu principal

Sources :

Pourquoi rejoindre Smartpoint, le pure player de la data ?

Interview d’Audrina, responsable du recrutement chez Smartpoint

C’est quoi un « Talent Growth Acquisition » chez Smartpoint ?

Je suis un peu le profil « chasseur » qu’on peut retrouver dans le commerce ! Je recherche les personnalités qui seront les futurs talents de Smartpoint.

Il est vrai que – au-delà des compétences actuelles des candidats – c’est davantage leur curiosité et leur capacité à apprendre tout au long de leur vie professionnelle qui nous intéresse. Le domaine de la data est très riche en innovations technologiques, les outils évoluent en permanence, les langages aussi ! Un ingénieur data aujourd’hui, c’est presque un  « couteau suisse » 😉

audrina rh recrutement data
Audrina Rajaonarison, Talent Growth Acquisition

Est-ce que tu peux nous présenter Smartpoint en quelques mots ?

Smartpoint existe depuis 2006. Bientôt 17 ans !

L’équipe, c’est aujourd’hui environ 250 collaborateurs essentiellement à Paris-ile-de-France. Nous sommes un pure player de la Data. Les fondateurs de Smartpoint sont d’ailleurs des ingénieurs data de formation.

Nous avons aussi un lab r&d en interne avec des docteurs qui mènent des recherches sur les dernières innovations technologiques en ingénierie de la data.

Nous accompagnons de très belles entreprises dans leurs projets data comme : la Société Générale, BNP Paribas, la Stime, HSBC, Enedis, edf, Veolia, Engie, France television …. et bien d’autres encore.

C’est quoi le supplément d’âme de Smartpoint par rapport aux autres ESN ?

Ce qui fait notre différence par rapport aux autres ? C’est notre côté « smart » ! Nous nous sommes fixés comme mission d’évangéliser nos clients pour adopter une approche plus responsable et éthique dans la collecte, le stockage et le traitement de leurs données. Car les volumes explosent littéralement et c’est très énergivore ! Avec les enjeux de sobriété énergétique, on commence enfin à comprendre que les serveurs dans les nuages, ça n’existe pas ! Clairement, cela ne sert à rien de collecter et de stocker des data qui ne seront jamais utilisées ou peu. Nous avons d’ailleurs rejoint Planet Tech’Care.

Et ça change quoi concrètement au niveau des projets ?

Au niveau de notre approche des projets data, cela demande une méthode et une conception complètement différence au niveau de l’architecture, de la stratégie de stockage, de la gestion du cycle de vie de la donnée. Bref, ça change la manière d’appréhender notre travail !

Quels sont les profils que tu cherches en ce moment ?

Smartpoint est une entreprise en croissance. Nous recherchons des ingénieurs Data, des Data Analysts, des Consultants BI, Big Data, MS BI, SAS, Power BI mais aussi des architectes, des développeurs Java, React ou encore Angular.  La liste est longue !

Le mot de la fin ?

Vous êtes smart, vous aimez la data ? Rejoignez Smartpoint, le pure player de la data !

Audrina Rajaonarison 

Les avantages de la mise place d’une Data Governance

La Data Governance reste malheureusement trop souvent pensée à postériori dans les projets Data alors que c’est une problématique centrale et fondamentale.

Concrètement, au-delà de tous les projets data et autres initiatives que vous avez mené dans le temps, c’est la manière dont les données sont collectées, crées, classifiée, formatées et utilisées au-delà des silos organisationnels qui les utilisent. Cela permet justement de les briser et de permettre aux métiers de se connecter aux bonnes données pour prendre des décisions qui se basent sur des données fiables.

La gouvernance des données aborde toute la notion de gestion des données, de la création au stockage jusqu’aux exploitations qui en sont faites. Cela permet aux équipes de comprendre comment les données circulent, l’impact qu’ont les différents usages, les analyses, les tableaux de bords et autres canaux de diffusions utilisés sur leur intégrité.

L’équipe en charge de la Data Governance contribue également fortement aux politiques de sécurité, de protection et de confidentialité des données ainsi que la bonne conformité règlementaire.

Voici les 4 principaux avantages :

  1. La qualité des données ! C’est le principal écueil des projets data. Cela permet de s’assurer qu’on base ses décisions sur des informations pertinentes ou qu’on alimentent d’autres applicatifs avec les bonnes données. Cela semble une évidence mais encore aujourd’hui, c’est un problème majeur. Une fois les données de piètre qualité, incomplètes ou obsolètes ont été identifiées, cela permet de les redresser, de les corriger pour les rendre exploitables ou tout simplement de les supprimer. Autant ne pas stocker des données inutiles, c’est plus éthique et plus responsable pour la planète !
  2. Plus de performance business. Déjà, vous êtes en capacité de prendre de meilleures décisions plus rapidement car vous êtes certains de la qualité de vos données. Cela permet aussi d’enrichir les expériences clients et rendre plus pertinents les parcours d’achat. Plus vos équipes sont sensibilisées à la qualité des données, plus la culture de la data se diffusera dans votre organisation, plus elles exploiteront les data de manière pertinente et cela aura un impact concret sur vos activités (stratégies, innovations).
  3. Une meilleure efficacité. Avoir une lecture claire de la manière dont la data est collectée puis consommée dans l’organisation permet d’identifier des leviers d’optimisation ou d’innovation. Cela met également en lumière certains processus pour pourraient être automatisés, d’autres moyens de diffusion ou de partage des données qui seraient plus pertinents ou beaucoup plus rapides. On perd encore beaucoup de temps à aller chercher des informations dans des énormes Data Warehouse ou de temps tout court à ne pas savoir où chercher !
  4. La sécurisation des données et leur conformité en terme de confidentialité. Beaucoup de vos données sont de nature personnelles ou sensibles. La Data Governance permet de s’assurer que les processus qui les traitent sont suffisamment fiables et robustes pour les protéger de toute utilisation abusive. Selon le RGPB, vous en êtes en effet responsables.  
Data Governance

Data virtualisation vs. Data Fabric, comment choisir ?

Déjà, ces deux approches permettent de gagner en agilité et de pouvoir mieux exploiter des données plus rapidement même si elles sont en silos organisationnels. Elles répondent toutes deux à la volonté des entreprises de moderniser leurs architectures de données alors qu’elles subissent un legacy (ou des systèmes data hérités) qui font de la collecte et du traitement des données un processus fastidieux qui consomme beaucoup de ressources, humaines comme temporelles !

Évidemment, vous avez toujours la solution d’acquérir de nouveaux outils et de remettre à plat tout votre écosystème data dans une nouvelle architecture … mais en attendant, la virtualisation des données est un bon début pour moderniser votre architecture data !

  • Elle permet d’accéder aux données en mode Data as a service grâce à ces connecteurs multi-sources.
  • Elle organise également les données pour que vous puissiez les visualiser ou réaliser des tableaux de bords.
  • C’est une solution satisfaisante pour vos besoins en business Intelligence (BI) et autres requêtes ad hoc car aujourd’hui toutes les entreprises ont des données dans le cloud et des systèmes distribuées.

Une data fabric, elle, est une solution de data management qui vous fournit une plateforme unique capable de prendre en charge toutes les technologies qui fonctionnent sur tous vos systèmes existants.

  • Les solutions de data management sont beaucoup plus poussées et complètes ; et permettent de prendre en charge des applications et des usages plus complexes.
  • C’est un framework d’architecture avec un accès centralisé aux données qui permet de les rendre interopérables entre elles.
  • Un data fabric est le must-have pour les analytics avancés qui ont besoin de larges volumes de données : analyses prédictives, IoT, apprentissage automatique (ML), temps réel, etc.

Pour conclure, pour exploiter aux mieux vos données et étendre leurs capacités, il vous faut les deux 😊

Tendances Tech au top en cette rentrée 2022

Les technologies sont les catalyseurs d’un monde qui change. Elles contribuent à l’amélioration de la productivité des entreprises mais pas que ! Elles permettent d’inventer et de réinventer des offres, de participer à un meilleur bien-être de l’humanité, d’innover pour repenser nos manières de vivre …

Nous partageons cette étude très intéressante menée par Mc Kinsey qui donne des perspectives sur comment ces tendances technologiques pourraient s’appliquer à votre organisation.

  1. L’intelligence artificielle est entrée dans sa phase d’applications concrètes : résolution de problèmes, prédictions, lancement d’actions automatisées en fonction des phénomènes, offres augmentées, meilleures prises de décisions.
  2. Toujours plus de connectivité avec les technologies 5G/6G, les réseaux wireless à faible puissance, les satellites en orbite et autres technologies qui prennent en charge une multitude de solutions numériques susceptibles de stimuler la croissance et la productivité dans tous les secteurs.
  3. La bio-ingénierie. La convergence des technologies biologiques et IT contribue à améliorer la santé et les performances humaines, transforme les chaînes de valeur alimentaire et crée une multitude de nouveaux produits et de services innovants.
  4. Une énergie plus propre ! De nouvelles solutions plus propres et plus responsables vont voir le jour. Cela va bouleverser nos métiers, ne serait-ce que dans la manière de collecter, de traiter et de stocker les data que nous produisons et consommons de manière exponentielle. Il était temps ! Chez Smartpoint, nous prônons cette approche smart data depuis notre création dont la lutte contre le data swamp.
  5. De nouvelles solutions de mobilité vont apparaitre aussi pour un transport des personnes et des marchandises plus efficace, optimisé et surtout durable.
  6. La technologie va aussi participer à transformer la consommation industrielle et individuelle pour faire face aux enjeux environnementaux dont le changement climatique.
  7. L’avènement du Web 3 basé sur des plateformes et des applications qui permettent d’évoluer vers un futur d’Internet décentralisé avec des normes et des protocoles ouverts, tout en protégeant les droits de propriété numérique, en offrant aux utilisateurs une plus grande propriété de leurs données et en catalysant de nouveaux modèles économiques.
  8. Industrialisation du Machine Learning avec des solutions logicielles et matérielles désormais matures pour accélérer le développement et le déploiement du ML et pour soutenir le pilotage des performances, la stabilité et l’amélioration continue.
  9. Technologies de réalité immersive qui utilisent des technologies de détection et l’informatique spatiale pour aider les utilisateurs à « voir le monde différemment » grâce à la réalité mixte ou augmentée ou encore à « voir un monde différent » grâce à la réalité virtuelle.
  10. Le cloud et l’edge computing vont continuer à se déployer. Concrètement, cela consiste à répartir les charges de travail informatiques entre des centres de données distants et des nœuds locaux afin d’améliorer la souveraineté des données, l’autonomie, la productivité des ressources, la latence et la sécurité.
  11. L’avénement d’architectures de confiance numérique qui vont permettre aux organisations d’instaurer, de développer et de préserver une relation de confiance entre chaque partie prenante dans l’utilisation des données et l’usage des produits et autres services numériques.
  12. Suite aux progrès réalisés dans les technologies spatiales, la réduction des couts des satellites, des lanceurs et des capacités d’habitations, on va assister à une nouvelle génération d’opérations et la naissance de services spatiaux innovants.
  13. Les technologies quantiques devraient permettre une augmentation exponentielle des performances de calcul et la résolution de problématiques inédites. Elles devraient permettre de transformer les réseaux en les rendant plus sûrs.
  14. L’avènement d’une nouvelle génération de logiciels qui s’appuient sur un développement et des tests assistés par l’intelligence artificielle et les plateformes low code ou non code.

Source Mc Kinsey https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/the-top-trends-in-tech

Data Mesh, les 4 principes fondamentaux de l’architecture data de demain.

En introduction, rappelons qu’un data mesh (ou maillage de données) ne remplace absolument pas un data warehouse ou un data lake mais qu’en quelque sorte, il étend leurs capacités dans un contexte où les volumes, les formats, les sources, les localisations et les usages d’exploitation des données continuent à croitre de manière exponentielle.

Un Data Mesh, c’est d’abord un concept architectural qui se rapproche d’une architecture microservice dans sa conception avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes.

Un Data mesh se base sur 4 principes fondamentaux qui sont :

  1. La propriété des données est orientée domaine donc les données sont décentralisées car elles sont exploitées dans chaque unité business (ou sujet restreint) qui en a besoin pour fonctionner. Chaque domaine peut donc avoir un schéma spécifique. Chaque domaine gère ses propres pipelines de données et en a la responsabilité.
  2. La gouvernance des données est fédérée afin que le système soit viable dans la durée (normes d’intéropérabilité et de qualité, culture DevOps, sémantique, etc.). Sans gouvernance inter-domaines, les données se retrouvent cloisonnées et on perd l’intérêt de cette architecture en termes d’agilité et d’évolutivité.
  3. Le Product Thinking ou Data as product. Chaque équipe, au sein de chaque domaine, considère que les différentes ressources de données dont elle a besoin sont les différents composants qui forment un produit. Chaque produit de données est donc créé par les équipes des domaines et consommé par des clients qui peuvent être des ingénieurs data, des data scientists, des développeurs, etc. Chaque produit de données doit donc être accessible, adressable, fiable, définissable et intéropérable.
  4. Self-service via une infrastructure de données en tant que plateforme. Ainsi tous les utilisateurs peuvent s’approvisionner en données exploitables selon leurs besoins. Cela permet également de s’affranchir de la complexité et de rationaliser les processus de stockage et de traitement.

Est-ce que vous avez besoin d’un data mesh ? Est-ce que votre data warehouse suffit pour gérer et exploiter convenablement votre écosystème de données ? Est-ce qu’un data lake est plus approprié ?

Nous partageons avec vous cet article d’Actualité Informatique qui a mis en place un sondage simple qui va vous donner un score. Si vous obtenez une note supérieure à 30, il serait judicieux d’étudier cette solution ensemble !

Pour aller plus loin, voici également un article intéressant publié par Terradata.

Principes d’architectures Data Mesh

Larges volumes et complexité croissante des données, quelle data dream team mettre en place.

On constate que la taille des équipes Data au sein des organisations ne cesse de croitre, comme si elle était proportionnelle à la complexité et au volume croissant des données à exploiter.

Sur le papier, cela peut sembler cohérent car, à l’échelle, les données sont en effet plus complexes. Affecter plus de ressources dédiées, c’est plus d’informations collectées, plus d’analyses, plus de modèles de ML, plus de données restituées pour mieux piloter ou enrichir vos applicatifs.

Mais cela génère aussi plus de complexité, de dépendances, d’exigences mais aussi d’incohérences et de nouveaux problèmes !

L’impact de la taille des équipes data sur l’efficacité

  1. Une petite équipe, c’est des ressources plus limitées mais cela a l’avantage de faciliter les choses ! Tout le monde se connait et appréhende les compétences de chacun. Il est plus facile de mettre en place une méthode de travail et de l’appliquer. Chacun maîtrise la data stack utilisée et si il y a un dysfonctionnement quelque part, c’est relativement rapide de l’identifier et de le régler.
  2. Au-delà de 10 personnes au sein de l’équipe data, cela se complique ! On commence à avoir des doutes sur la fiabilité des données qu’on utilise, le data lineage (traçabilité des données / data catalog) commence à être trop important pour avoir encore du sens … et les sources d’insatisfactions chez les utilisateurs métiers se multiplient.
  3. Sur des très grosses équipes, cela devient critique ! Nous voyons cela chez nos clients où on dépasse désormais souvent 50 collaborateurs ! Personne ne se connait vraiment, il y a eu du turn-over inéluctable, on ne maîtrise plus vraiment la data stack car chacun y a contribué sans vraiment prendre le temps de documenter quoi que ce soit ni de comprendre l’historique. Les initiatives individuelles se sont multipliées pour satisfaire ponctuellement des besoins utilisateurs plus critiques que d’autres. Cela a généré du coding spécifique, difficile à maintenir et encore moins à faire évoluer dans la durée. Le Daily pipeline se termine beaucoup trop tard pour avoir encore du sens.
Inside Data by Mikkel Dengsøe https://mikkeldengsoe.substack.com/

On arrive à un résultat exactement à l’opposé des attentes. Et cela s’explique :

  • Le processus permettant la traçabilité des données (data lineage) qui consiste à créer une sorte de cartographie pour recenser l’origine des données, les différentes étapes de transformation et pourquoi elles ont été mis en place ainsi que les différentes évolutions dans la durée … devient ingérable. Pourtant, la visualisation de toute cette arborescence est indispensable pour comprendre toutes les dépendances entre les données et comment elles circulent effectivement. Dès lors qu’on franchit des centaines de modèles de données, le data lineage perd toute son utilité. A cette échelle, il devient impossible de comprendre la logique ni de localiser les goulots d’étranglement.
  • Résultat, le pipeline de données fonctionne de plus en plus lentement, il se dégrade inexorablement car il y a trop de dépendances sans compter qu’il y a forcément quelqu’un qui a essayé de colmater des joints quelque part 😉 Et cela a des conséquences : le fameux retour du plat de spaghettis ! Résultats : les données ne sont jamais prêtes dans les temps.
  • Les Data Alerts deviennent votre quotidien et vous passez désormais votre temps à essayer de les résoudre sans compter qu’il est difficile de savoir à qui incombe la résolution du problème à la base !

En conclusion.

Votre capacité à exploiter vos données convenablement, même si elles sont de plus en plus volumineuses et complexes, se résume finalement à des enjeux d’ordre davantage organisationnels que techniques. Même si, à ce stade, une véritable solution de Data Catalog s’impose tout de même !

A l’échelle, vous devez composer avec des équipes hybrides qui ont du mal à intégrer comment votre data stack fonctionne. C’est un état de fait contre lequel il est difficile de lutter. Une des solutions consiste à diviser votre team data en plusieurs petites équipes qui seront en charge d’une pile technologique en particulier qu’ils devront pour le coup bien maîtriser, documenter et transmettre lors de l’onboarding de nouvelles équipes : ceux en charge de l’exploration ou de la collecte, ceux en charge de l’analyse, ceux en charge d’optimiser les performances du pipeline, ceux en charge de l’amélioration de l’architecture globale, etc. 

C’est notamment pour ces raisons que chez Smartpoint, nous vous proposons d’intervenir en apportant des compétences très pointues : Architectes data, ingénieurs data, data analysts, etc. Nous sommes également une ESN spécialisée en Data avec les capacités de mobiliser en volume des équipes Data qui ont l’habitude de travailler ensemble, selon une méthodologie de travail commune et cela change tout.

Source https://mikkeldengsoe.substack.com/p/data-team-size