Index 2023 Égalité professionnelle entre les femmes et les hommes, Smartpoint obtient un score de 73/100.

Paris, le 01/03/2023

Concernant l’indicateur relatif à l’écart de taux d’augmentations individuelles, Smartpoint obtient 35 points sur 40, avec un écart favorable à la population féminine. 100% des salariées ont bénéficié également d’une augmentation dans l’année qui a suivi leur retour de congés maternité.

En revanche, les hommes restent sur-représentés parmi les dix salariés ayant les plus hautes rémunérations.

Smartpoint a mis en place des mesures correctives pour améliorer son score telles que l’élaboration d’une stratégie d’action pour réduire les écarts constatés lors du diagnostic.

Architectures Data Cloud, les 5 chantiers prioritaires.

1. La gouvernance des données

Nous en sommes convaincus chez Smartpoint, ce sujet n’a jamais été d’autant d’actualité. Pourtant, il est tout sauf nouveau ! D’ailleurs, nous avons des années d’expérience en ce domaine lorsque les données étaient dans des entrepôts …. Mais ces chantiers se sont beaucoup complexifiés avec les nouveaux modèles d’architectures puisqu’il s’agit de gérer aujourd’hui des données dans des data lakes ou des lakehouses (stockage dans le cloud donc), non structurées, de plus en plus volumétriques et partagées largement (data mesh).

Les chantiers sont nombreux et le choix d’outils vaste ! Audit, data lineage de bout en bout, qualité des données, gestion des données de références, data catalogs, règles de accès aux des données et de partage des données de manière sécurisées, mise en conformité règlementaire (…).

La Gouvernance des données est devenu un sujet très complexe et critique pour nos clients car la solution réside dans la spécificité de chaque écosystème IT et les utilisations qui sont faites des données.

Parmi les solutions, citons celles des incontournables Informatica, Talend, Collibra ou encore Experian.

2. Le Lakehouse

Toutes les plateformes proposent désormais des fonctionnalités pour implémenter un lakehouse plutôt qu’un data warehouse ou un data lake (quelle est la différence entre data warehouse, un data lake et un lakehouse ? C’est à lire ici)

Le créateur de Spark, Databricks, a clairement une longueur d’avance en termes de solution mais cela ne va pas peut-être pas durer. En format de tables open-source, sachez que Apache Iceberg est de plus en plus adopté par les services AWS (Glue notamment). Snowflake permet aussi désormais d’implémenter un lakehouse en utilisant Iceberg. 

3. L’architecture Data Mesh

Nous avons beaucoup travaillé en 2022 sur ce concept architectural qui se rapproche d’une architecture microservices avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes (Les quatre principes fondamentaux d’un data mesh sont à lire ici)

Les premiers retours d’expériences nous ont montré, qu’au-delà du concept, cela a un impact fort au niveau de l’organisation de la team Data qui doit être responsabilisées sur leur domaine Data (Le Product Thinking ou Data as product).

4. Le streaming et le traitement temps réel

Historiquement, les data warehouses étaient alimentés en fin ou en début de journée par traitements batch (et cela prenait des heures !) pour que les utilisateurs BI puissent disposer d’états ou de tableaux de bords un fois par jour. Ils attendent aujourd’hui d’être alertés en temps réel pour prendre des décisions ou réagir immédiatement. C’est devenu indispensable en gestion des risques (attrition client, risques de crédit ou fraude, etc.) ou pour alimenter les moteurs de recommandations de produits par exemple.

Cet enjeu de vitesse des données est de plus en prégnant chez nos clients. Mais avec l’augmentation des volumes, il devient de plus en plus important de ne pas uniquement les charger, mais aussi de les transformer et de les analyser en temps réel. Cela impacte fortement votre architecture data. Là, encore la plateforme lakehouse de Databricks est intéressante pour le streaming des données et pour fournir de l’analytique en temps réel. Autre solution, utiliser par exemple Apache Flick et Amazon Kinesis Data Analytics pour de l’ETL sur vos flux de données temps réel (à lire ici).

5. La modélisation de données

C’est le grand retour ! Avec Hadoop et son datalake, toutes les données étaient déversées sans aucune notion de modélisation. On sait aujourd’hui, que cela été une aberration. En termes de stockage bien sûr mais aussi sur le plan architectural car cela a rendu très compliqué l’exploitation des données et la data discovery.

Le data modeling permet de stocker les données de manière cohérente et organisée, les data scientists y ont accès plus facilement et peuvent mieux les exploiter. Les résultats sont d’autant améliorés et beaucoup plus fiables.

En rationalisant le pipeline de données et en permettant aux ingénieurs data de se concentrer sur des tâches plus complexes, la modélisation des données peut aider les organisations à mieux utiliser leurs données et à libérer tout le potentiel de la data science et de l’apprentissage automatique. En savoir plus sur les type de modélisation ? C’est ici.

Et vous, quelles sont vos priorités Data dans les mois qui viennent ?

Confiez-vos chantiers au pure player de la data 😉

Source : https://medium.com/@gauravthalpati/5-data-trends-for-y2023-da9af83cca34

Bienvenue dans la modélisation de données.

L’ingénierie Data ne cesse d’évoluer et s’éloigne du traditionnel ETL.

Historiquement, les ingénieurs data se concentraient essentiellement sur la mise en place d’un pipeline ETL (extract, transform, load) pour déplacer les données issues de diverses sources vers un référentiel de données centralisé tel qu’un data warehouse. Cette tâche était particulièrement chronophage, nécessitait beaucoup de codage et de configurations manuelles.

Avec l’arrivée d’outils tels que Archi (Open Source), PowerDesigner de SAP, SqlDBM (Online Data Modeling Tool), IDERA ER/Studio ou encore Erwin Data Modeler de Quest, il est dorénavant possible d’automatiser l’ensemble de ce processus.

Résultat ?
Les ingénieurs data sont en capacités d’extraire les données et de les charger rapidement alors que les volumes collectés et stockés sont exponentiels. Ils peuvent se concentrer sur des tâches plus complexes et à plus forte valeur ajoutée, la modélisation des données.

La modélisation de données est le processus qui permet de créer une vue conceptuelle des données et leur relation entre elles. Elle permet de définir la structure des données, ses attributs, les liens entre elles et donc d’organiser leur stockage de manière optimale. C’est indispensable pour tout projet analytique car cela permet de s’assurer que les données sont correctes, cohérentes, organisées et facilement accessibles.

Trois type de modélisation de données :
👉 Modélisation conceptuelle : Il s’agit de créer une représentation de haut niveau des données, y compris les relations entre les entités, afin de déterminer la structure globale des données.
👉 Modélisation logique : Il s’agit de créer une représentation plus détaillée des données, y compris les attributs de chaque entité et les relations entre les entités.
👉 Modélisation physique: Il s’agit de concevoir la base de données physique et de déterminer la meilleure façon de stocker les données en termes de structures de données, d’indexation et de partitionnement.

Non seulement la modélisation de données permet d’améliorer le Data Management et Data Warehousing mais cela ouvre aussi de nouvelles perspectives en Data Science et en Machine Learning. En effet, comme les données sont stockées de manière cohérente et organisée, les data scientists y ont accès plus facilement et peuvent mieux les exploiter. Les résultats sont d’autant améliorés et beaucoup plus fiables.

En rationalisant le pipeline de données et en permettant aux ingénieurs data de se concentrer sur des tâches plus complexes, la modélisation des données peut aider les organisations à mieux utiliser leurs données et à libérer tout le potentiel de la data science et de l’apprentissage automatique.

Data Modeling

Sources :

https://www.guru99.com/data-modelling-conceptual-logical.html

https://publication.hikmahtechnologies.com/data-engineering-evolves-from-etl-to-the-world-of-data-modelling-2175c8083f31

Les catalogues de données sont devenus des incontournables dans une démarche de gouvernance de données.


Data Driven, ainsi va le monde ! Ainsi les data catalogs sont devenus indispensables.

Un Data Catalog est un outil de data management entièrement consacré à la documentation de tout ce qui est relatif à vos métadonnées : description, structure, sources, qualité, traitements, usage, accès, relations, etc.

Bien pensé, il vous permet de les classifier, de les comprendre et de les (re) trouver pour être immédiatement en capacité de les exploiter !

Zoom sur trois solutions de Data Catalogs

  1. Microsoft Purview 1. C’est l’un des nombreux services proposés dans la stack Azure dans le cadre de la mise en place d’une gouvernance de vos données. Il rassemble les métadonnées issues de multiples sources, y compris on-premise et multicloud, et facilite la data discovery. Sa faiblesse ? Le Data Lineage. 
  2. Databricks Unity – C’est une solution agnostique de data discovery et data governance, peu importe CSP que vous utilisez. Elle met à disposition de nombreux connecteurs avec la plupart des data stacks. Unity propose toutes les fonctionnalités nécessaires aux catalogues de données : connecteurs, data lineage, data discovery facilitée, etc.
  3. Amundsen (Lyft) est une solution de data catalog en Open Source avec une architecture microservices. Cela permet à la communauté des ingénieurs data de contribuer activement à son développement. Elle a d’ailleurs déjà un catalogue de connecteurs particulièrement riche. RDV sur GitHub !

Il existe beaucoup de solutions de Data Catalogs, citons Informatica, Talend, Collibra, Atlan ou encore le pure player français DataGalaxy. 


Smartpoint vous accompagne dans le choix de la meilleure solution pour vous selon votre stack data et l’implémente, contactez-nous 😊

SOURCES :

https://medium.com/@poatek/in-a-data-driven-world-data-catalogs-are-necessary-tools-5851ee3e22c2

https://medium.com/@poatek/in-a-data-driven-world-data-catalogs-are-necessary-tools-5851ee3e22c2

Projets Data responsables et sobriété numérique ? Oui, c’est possible.

Le saviez-vous ? En 2030, on prévoit que 13 % de la consommation mondiale d’électricité proviendra des centres de données (source ici), Rien qu’en France, 10 % de la consommation d’électricité provient des data centers.

Et alors que le cloud computing, l’IoT et l’IA exposent, les besoins en stockage de données également. Aujourd’hui, l’industrie du traitement des données est en voie de produire plus d’émissions de gaz à effet de serre que les secteurs de l’énergie, l’automobile et l’aviation réunis.

Il est possible d’avoir une approche plus frugale et responsable pour protéger l’environnement … sans pour autant freiner le progrès. En revanche, cela nous demande de repenser nos méthodes, nos approches et mêmes nos principes d’architecture data.

Historiquement, dans le cadre d’un projet de Business Intelligence traditionnel, nous n’étions pas du tout dans une démarche de sobriété ! L’objectif était de collecter un maximum de données, de les stocker de manière centralisée dans un datawarehouse ou un datalake, puis les traiter, les croiser, les analyser pour les restituer au plus grand nombre sous forme de tableaux de bord, et le plus fréquemment possible. Un gouffre en termes de consommations de ressources !

Aujourd’hui, l’heure est au tri et cette bonne pratique est aussi en vigueur pour les projets Data.

Au préalable, il convient de se poser la question des données utiles et celles qui ne le sont pas. Stocker des données qui ne servent à rien … ne sert à rien d’autant plus que les données sont périssables dans le temps pour la plupart. Ces données inutiles, ou dark data, représenterait plus de la moitié des données stockées par les entreprises !

  • Au niveau du processus ETL, on peut identifier que les données dites vivantes, c’est-à-dire uniquement celles qui ont changé pour effectuer uniquement le chargement incrémental des données
  • Se concentrer sur les fonctionnalités essentielles, c’est à dire qui vont demander un traitement dont vous avez vraiment besoin
  • Réduire le nombre de requêtes en utilisant les caches (systèmes de stockage temporaire)  
  • Vous poser la question de la fraicheur des données, avez-vous vraiment besoin d’un rapport quotidien ?
  • Collecter que l’essentiel et diminuer les volumes échangés
  • Limiter les traitements d’information et surtout arrêter la réplication des données dans plusieurs systèmes
  • Faire le ménage en supprimant les données qui ne servent à rien et respecter le cycle de vie des données (data governance)
  • Moderniser votre écosystème data en une plateforme unique qui vous permettra de travailler directement sur la donnée

Au niveau du stockage, dès que possible, il est préférable d’utiliser une infrastructure edge computing qui permet de traiter les données au plus proche de là où on en a besoin et donc de réduire d’autant la latence. C’est l’architecture la plus appropriée pour l’IoT.

Une infrastructure cloud est toujours préférable car vous ne payez qu’à l’usage.

Chez Smartpoint, nous suivons particulièrement des fournisseurs tels Ikoula, hébergeur français de Green Hosting qui utilise de l’énergie issue à 100% d’énergie renouvelables ou encore Qarno dont le principe est de décentraliser la puissance de calcul et de valoriser la chaleur émise par les serveurs.

Pour aller plus loin : Sobriété numérique : comment développer un projet data éco-responsable ?

Projets data responsables et sobriété énergétique

Data virtualisation vs. Data Fabric, comment choisir ?

Déjà, ces deux approches permettent de gagner en agilité et de pouvoir mieux exploiter des données plus rapidement même si elles sont en silos organisationnels. Elles répondent toutes deux à la volonté des entreprises de moderniser leurs architectures de données alors qu’elles subissent un legacy (ou des systèmes data hérités) qui font de la collecte et du traitement des données un processus fastidieux qui consomme beaucoup de ressources, humaines comme temporelles !

Évidemment, vous avez toujours la solution d’acquérir de nouveaux outils et de remettre à plat tout votre écosystème data dans une nouvelle architecture … mais en attendant, la virtualisation des données est un bon début pour moderniser votre architecture data !

  • Elle permet d’accéder aux données en mode Data as a service grâce à ces connecteurs multi-sources.
  • Elle organise également les données pour que vous puissiez les visualiser ou réaliser des tableaux de bords.
  • C’est une solution satisfaisante pour vos besoins en business Intelligence (BI) et autres requêtes ad hoc car aujourd’hui toutes les entreprises ont des données dans le cloud et des systèmes distribuées.

Une data fabric, elle, est une solution de data management qui vous fournit une plateforme unique capable de prendre en charge toutes les technologies qui fonctionnent sur tous vos systèmes existants.

  • Les solutions de data management sont beaucoup plus poussées et complètes ; et permettent de prendre en charge des applications et des usages plus complexes.
  • C’est un framework d’architecture avec un accès centralisé aux données qui permet de les rendre interopérables entre elles.
  • Un data fabric est le must-have pour les analytics avancés qui ont besoin de larges volumes de données : analyses prédictives, IoT, apprentissage automatique (ML), temps réel, etc.

Pour conclure, pour exploiter aux mieux vos données et étendre leurs capacités, il vous faut les deux 😊

Top 4 tendances Data à suivre en 2023

L’intelligence Artificielle toujours au top ! Qui n’a pas été bluffé par le chat GPT de Open AI ? Clairement, c’est la technologie (IA et son corolaire ML) qui est en train de révolutionner nos manières de travailler, de vendre et de vivre ! Alors que les volumes de données ne cessent de croitre, les algorithmes se nourrissent, apprennent et ne cessent de s’améliorer.

Le Data as a service (DaaS) devrait se démocratiser encore davantage dans les entreprises alors qu’elles adoptent massivement le cloud pour moderniser leurs infrastructures vieillissantes et leurs systèmes data hérités (Legacy), devenus trop lourds à maintenir et trop gourmands en ressources.

Cela facilite l’accès aux données, leur analyse et leur partage au sein de l’organisation.

Le DaaS pourrait bien devenir la méthode la plus courante pour intégrer, gérer, stocker et analyser toutes les données. Normal quand on sait qu’un meilleur partage et une exploitation des données par le plus grand nombre, permet aux organisations d’être plus efficaces et performantes.

L’automatisation ! De nombreuses tâches analytiques sont désormais automatisées et ce phénomène va s’accentuer. C’est déjà une réalité en préparation des données mais aussi sur l’automatisation de certains processus prédictifs ou de recommandation.

Nous vous invitons à regarder la plateforme APA (automatisation des processus analytiques) de Alteryx qui promet de révolutionner le Data Wrangling.

La gouvernance des données n’a jamais été autant au cœur de l’actualité et ce sera encore le cas en 2023 !

On n’a en effet jamais autant produit, collecté et consommé de données. La question de leur qualité est non seulement centrale, car c’est là que réside que toute sa valeur, mais les entreprises ont également besoin de s’appuyer sur une plateforme qui permet de les partager de manière sécurisée au sein de l’organisation tout en respectant les règlementations notamment en termes de protection et de confidentialité.  

En 2023, si vous ne l’avez pas déjà fait, ce sera le moment de mettre en place un programme de Data Management … 

Retour sur l’actualité de Smartpoint en 2022 en quelques faits marquants.

2022 a vu Smartpoint grandir, croître mais aussi engager de nouveaux chantiers pour s’inscrire dans une logique de développement responsable et durable. Voici les principaux faits marquants qui ont marqué cette année.

  • L’équipe Captiva nous a rejoint et c’est près de 80 collaborateurs, spécialisés dans le développement de produits et la qualité logicielle, qui participent aujourd’hui à enrichir notre proposition de valeur pour nos clients. Nous sommes aujourd’hui plus de 250 !
  • Nous avons pris des engagements encore plus forts pour un développement durable et un numérique plus responsable : notre politique RSE a reçu la médaille d’argent délivrée par EcoVadis, nous avons réalisé notre bilan Carbone et engagé de nombreuses actions pour encore nous améliorer ; et nous avons rejoint la communauté Planet Tech’Care. 
  • Nous sommes plus visibles et reconnus ! Notre nouveau site web a vu bondir le nombre de visiteurs X5 et vous êtes toujours plus nombreux à nous suivre sur LinkedIN avec +65% d’abonnés en plus par rapport à l’année dernière.

Résultat ? Nous allons réaliser plus de 20% de croissance organique cette année.

Alors, merci à l’ensemble de nos équipes pour leur engagement et à nos clients pour leur confiance !

Faits marquants et retrospectives 2022

Smartpoint réalise son bilan carbone

Notre score nous place dans le 10% des entreprises françaises les plus engagées en ce domaine.

Chez Smartpoint, nous sommes une entreprise engagée et nous sommes particulièrement sensibles aux enjeux climatiques. Nous militons également pour un numérique plus responsable et nous nous mobilisons pour réduire l’empreinte environnementale de la Tech sein de la communauté Planet Tech’Care.

Smartpoint poursuit son engagement et réalise son premier bilan de ses émissions carbone avec Greenly selon une méthodologie standardisée par l’ADEME sur les scopes 1, 2 et 3.

Avec un bilan de 3,5 tonnes de CO2 par collaborateur, nous sommes déjà bien en dessous de la moyenne de notre secteur d’activité (Agence de création digitale et ESN) qui se situe à 7,6 tonnes de CO2 par collaborateur. C’est mieux mais pas suffisant pour Smartpoint, nous sommes collectivement déterminés et nous souhaitons aller plus loin !


Nous allons mettre en place un ensemble d’actions et de mesures qui vont nous permettre de limiter encore davantage notre impact et contribuer à limiter le réchauffement climatique.

Notre ambition ? La neutralité carbone !

Comment reconnaitre un bon ingénieur Data Full Stack quand vous en croisez un ?

Dans la data, c’est exactement comme dans le développement logiciel de produits ! Avant, il y avait des développeurs spécialisés front et d’autres back-end, d’autres chargés que de la mise en production, d’autres des tests, etc. En data, on avait aussi des DBA. Chacun avait un rôle bien précis. Mais depuis les pratiques Agile, le DevOps, le CI/CD et l’automatisation des tests se sont démocratisés en même temps que la course à l’innovation et les contraintes de time-to-market se sont accentuées.

Être ingénieur data aujourd’hui ne se résume plus à la conception de Datawarehouse, la mise en place d’ETL, le lancement de requêtes SQL et la restitution dans des tableaux de bord. Certes, il ne s’agit pas d’être spécialiste en tout mais un ingénieur data fullstack a désormais des connaissances étendues dans de nombreux domaines.

Yazid Nechi, Président de Smartpoint

Comment reconnaitre un bon ingénieur Data ?

  • Il sait programmer ! Il maîtrise en effet au moins un langage de programmation et chez smartpoint, c’est plusieurs : Java, Python, Scala pour les incontournables.
  • Il connait les outils du big data comme Hadoop, Hive, Spark, Pig Sqoop
  • Il sait concevoir et exploiter un Data Warehouse et pour ce faire, les meilleurs outils à maîtriser sont Amazon Redshift, Google Big Query et bien entendu Snowflake. Mener des actions d’ETL étant indispensables à sa fonction, il a également des compétences en Talend, informatica entre autres.
  • C’est un expert en bases de données relationnelles (SQL) qu’elles soient analytiques ou transactionnelles (OLTP, OLAP).
  • Il maîtrise aussi les bases de données en NoSQL qui sont de différentes natures en fonction du modèle de données

Architecture

C’est la base, il doit comprendre comment sont organisées les données et quels sont les objectifs en termes de traitement et de gestion des données. Cela suppose aussi d’avoir une bonne culture générale sur les nouvelles méthodes de data ingestion (comme Kafka), les différentes alternatives de stockage ainsi que les normes de sécurité pour la protection des données (dont la gestion des droits et des authentifications).

SQL

C’est une compétence certes traditionnelle mais toujours indispensable !

ETL (ou ELT)

C’est la base du métier : mettre en place le pipeline de données pour capturer, transformer et charger dans le système cible. Cela demande des compétences en modélisation des données mais aussi la connaissance d’un ou plusieurs outils. Citons évidemment Talend, Informatica mais aussi des nouveaux entrants comme Fivetran ou Stitch.

Visualisation de données

C’est un incontournable même si historiquement, c’est une compétence davantage attendue chez les analystes de données mais dans le même logique de maîtrise du flux de données de bout en bout, nous encourageons nos ingénieurs data à connaître au moins un des outils comme Tableau ou plus récemment Looker ou ThoughtSpot.

Spark

C’est un must-have en ingénierie des données, Spark est le framework open source désormais incontournable en raison notamment de sa très riche bibliothèque pour le traitement par lots, le streaming, les analytics, le ML, la datascience, etc. 

Connaissances en programmation

Avant SQL et un outil comme Informatica suffisait. Aujourd’hui un ingénieur data intervient dans le pipeline CI/CD et pour le maîtriser, il est nécessaire aujourd’hui d’avoir aussi des compétences en langages de programmation comme Java, Python ou encore Scala.

Expériences en développement

L’intégration et le développement continus (CI/CD) sont aujourd’hui la norme (ou presque) ainsi que le DevOps et cela vaut également pour l’ingénieur Data. Il doit avoir des connaissances en gestion de la base de code, en testing, etc. La connaissance d’outils tels que Jenkins, DataDog, Gitlab, Jira sont donc un vrai plus !

L’incontournable cloud !

Impossible aujourd’hui de passer à côté de cette compétence alors que les entreprises ont de plus en plus recours au cloud pour accéder, traiter, gérer, stocker et sécuriser leurs données. Cela permet de bénéficier de puissance de traitement et de calcul inégalé sans parler de la scalabilité. Chaque ingénieur Data se doit de connaître au moins un cloud provider comme GCP ou Azure.

Vous cherchez un Data engineer fullstack avec toutes ces compétences ? Il est surement chez Smartpoint 🤩 Vous voulez gagnez en compétences et vous investir dans de supers projets data ? Nous recrutons aussi aujourd’hui nos futurs talents !

Sources :