Metadata Management, de quoi parle-t-on exactement ?

Les métadonnées fournissent des informations sur les data (des données sur les données en somme !) : caractéristiques, contextualisation, signification, usages prévus, lineage, etc. Une gestion efficace a donc un impact direct sur la qualité globale des données mais aussi leur gouvernance et leur conformité dans la durée.

Les métadonnées permettent donc à ceux qui sont amenés à exploiter les données, à mieux les comprendre et à les utiliser.

Quels sont les différents types de métadonnées ?

  • Métadonnées descriptives : elles contiennent les informations de base comme le titre, la date de création, l’auteur et le format
  • Métadonnées structurelles : elles décrivent comment les données sont structurées comme les relations entre les différents éléments et la manière dont elles doivent être visualisées ou exposées
  • Métadonnées administratives : Elles donnent les informations sur la gestion des données comme qui en est responsable ou propriétaire, les droits et les accès ainsi que les règles de sauvegarde (ou de suppression)
  • Métadonnées business : Elles décrivent le contexte, les processus et les règles métiers

Quel prérequis à la mise en place un Metadata Management efficace ?

Le stockage des métadonnées dans un référentiel centralisé est essentiel.

Cela permet de rechercher, extraire et mettre à jour les données tout au long de leur cycle de vie. Les metadata sont organisées et classées. On a ainsi l’assurance que les données sont toujours « fraiches » et correctes. Alors que les pipelines de données deviennent de plus en plus volumétriques et en temps réel, stocker les données en silos de manière traditionnelle nuit à la qualité des données, leur accessibilité, génère des incohérences et des erreurs. Un référentiel centralisé facile le travail des ingénieurs data et des analystes.

Quels avantages du Metadata Management ?

  1. Meilleure accessibilité des données
  2. Gouvernance et sécurité renforcés
  3. Prise de décision facilitée grâce à la meilleure compréhension et partage des données
  4. Qualité des données améliorée

Top 8 des compétences d’un Big Data Engineer chez Smartpoint

Déjà, un ingénieur Big Data a très une bonne culture G en ingénierie de la data ! Il connait plusieurs langages de programmation, bases de données et outils de traitement de données.

Il faut en effet maîtriser tout le processus de collecte, de stockage, de traitement, d’exploitation et d’analyse des données et ce sur de très larges volumes pour en extraire de la valeur exploitable pour nos clients.

  1. Il parle plusieurs langues … de programmation comme Java, Pyhton ou encore Scala mais ce n’est qu’une de ses nombreuses qualités :
  2. Une bonne compréhension des frameworks Big Data. Citons par exemple Apache Hadoop, Apache Spark, Apache Storm et Apache Flink.
  3. La maîtrise des systèmes de stockage distribués comme Apache Kafka ou Cassandra.
  4. La connaissance des technologies de data warehousing est un vrai plus ! Apache Hive, Pig ou Impala.
  5. Des compétences en bases de données SQL (MySQL, PostgreSQL) et NoSQL (Cassandra, MongoDB)
  6. Une expérience des outils d’intégration de données, nous utilisons beaucoup Airflow mais aussi NiFi
  7. La tête dans les nuages ! Aujourd’hui le cloud est un incontournable dans tous nos projets et les données y sont stockées : AWS, Azure ou GCP
  8. Et il est très sensible … aux enjeux actuels relatifs aux données que sont leur sécurisation, données, leur cycle de vie, leur gouvernance et bien entendu leur conformité avec les règlementations.

𝐕𝐨𝐮𝐬 𝐯𝐨𝐮𝐬 𝐫𝐞𝐜𝐨𝐧𝐧𝐚𝐢𝐬𝐬𝐞𝐳 𝐨𝐮 𝐯𝐨𝐮𝐬 𝐬𝐨𝐮𝐡𝐚𝐢𝐭𝐞𝐳 𝐩𝐫𝐨𝐠𝐫𝐞𝐬𝐬𝐞𝐫 𝐝𝐚𝐧𝐬 𝐯𝐨𝐭𝐫𝐞 𝐩𝐚𝐫𝐜𝐨𝐮𝐫𝐬 𝐩𝐫𝐨𝐟𝐞𝐬𝐬𝐢𝐨𝐧𝐧𝐞𝐥 ? 𝐍𝐨𝐮𝐬 𝐧’𝐚𝐭𝐭𝐞𝐧𝐝𝐨𝐧𝐬 𝐪𝐮𝐞 𝐯𝐨𝐮𝐬 !

Smartpoint recrute de nombreux ingénieurs Big Data à partir de deux ans d’expériences comme de plus expérimentés pour intervenir sur des projets stratégique chez nos clients, pour qui la data est aussi un enjeu stratégique d’innovation et de la transformation de leur métier.

Data Mesh, architecture miracle pour libérer enfin la valeur promise des data ?

Au-delà du concept et des principes d’architecture, est-ce que le Data Mesh est viable à l’épreuve de réalité des organisations et des SI data ? Est-ce que cette architecture décentralisée et orientée domaine fonctionnel, qui permet une exploitation des données en libre-service, est la hauteur des promesses ?

Voici les principaux écueils à anticiper.

En tant que pure-player de la Data, nous en avons connu chez Smartpoint des architectures de données … Et nous savons à quel point il est complexe de trouver, de concevoir, de mettre en œuvre la bonne solution et de briser enfin les silos. On sait aujourd’hui qu’environ 80% des projets de Data Warehouses ont échoué et il y a déjà presque 10 ans, Gartner prédisait que 90% des Data Lakes seraient finalement inutiles. Il est vrai aussi que l’on sait qu’une équipe Data centralisée est souvent débordée et manque d’expertises par domaines métiers, ce qui nuit invariablement à la découverte et à la création de valeur data.

Revenons sur les principes fondamentaux qui caractérisent le Data Mesh ou Maillage de données tel que promus par Zhamak Dehghani(ThoughtWorks) en alternative aux structures de données centralisées et monolithiques :

1. Domain-driven ownership of data : Les données sont considérées comme des actifs appartenant à des domaines spécifiques au sein de l’organisation. Chaque domaine est responsable de la production, de l’amélioration de la qualité des données et de la gestion. Cette approche permet de créer des équipes spécialisées, composées d’experts métier et techniques, qui travaillent en étroite collaboration pour définir les normes et les règles spécifiques à leur domaine. Leur objectif est de répondre aux besoins de leur domaine fonctionnel en terme d’exploitation des données, tout en favorisant la réutilisation et l’interopérabilité entre les différents domaines métiers.

2. Data as a product : Les données sont destinées à être consommées par les utilisateurs au sein de l’organisation. Les équipes data doivent se recentrer sur le client pour fournir des data sets de qualité, fiables et bien documentés. Elles créent des interfaces claires (API) et définissent des contrats pour la consommation des données. Ainsi, les utilisateurs peuvent découvrir, accéder et utiliser les données de manière autonome, comme un produit prêt à l’emploi. On est dans la même logique que les architectures microservices.

3. Self-service data platform : Les équipes data fournissent une plateforme de données en libre-service, qui facilite la découverte, l’accès et l’exploitation des données. Cette plateforme fournit des outils, des services et des interfaces qui permettent aux utilisateurs de trouver intuitivement et de consommer les données de manière autonome. Elle favorise l’automatisation et l’orchestration des flux de données, permettant ainsi aux équipes data de se concentrer sur la qualité et l’enrichissement des données plutôt que sur des tâches opérationnelles chronophages et à faible valeur ajoutée.

4. Federated computational governance : La gouvernance des données est décentralisée et répartie entre les différentes équipes. Chaque équipe a la responsabilité de définir et d’appliquer les règles et les normes spécifiques à son domaine. La gouvernance fédérée consiste à mettre en place des processus et des outils qui permettent de gérer et de contrôler les données de manière distribuée. Cela inclut la gouvernance des métadonnées, la sécurité, la conformité réglementaire, ainsi que la prise de décision collective et transparente sur les évolutions de l’architecture et des pratiques liées aux données.

Voici pourquoi une architecture data mesh pourrait se révéler être un échec dans certaines organisations où les notions de produit data ou de propriété de domaines sont difficilement applicables.

  • Toutes les données n’ont pas forcément une valeur, c’est même le contraire. La plupart des données collectées sont inutiles et brouillent l’information car elles ne sont pas pertinentes. Dans les faits, c’est compliqué d’identifier dans la masse celles qui sont réellement précieuses et potentiellement génératrice de valeur. C’est un véritable chantier en soi, complexe et laborieux. Un travail de chercheur d’or !
  • Produire des données est une charge supplémentaire ! Certes le concept de data product est séduisant et facile à appréhender mais dans la réalité du terrain, les ingénieurs data doivent déjà les créer … Et les transformer en plus par domaine nécessite d’élargir encore leurs compétences. Certes les avancées en IA, automatisation, et autres Low Code promettent de leur faciliter la tâche mais c’est encore une promesse qui reste à éprouver.
  • On en vient naturellement à la troisième difficulté : le manque de compétences data disponibles. Le Data Engineering, c’est un métier de spécialiste de la gestion des données et nous savons qu’il est rare de trouver des professionnels qui en maîtrise toute la palette ! Déléguer la responsabilité à des équipes par domaine, sans compétences spécialisées en data, peut générer des problèmes sans aucun doute.
  • La gouvernance fédérée est aussi une évidence sur le papier. Dans les faits, ce n’est pas applicable sans de fortes contraintes avec un véritable régime central très autoritaire qui encadre les comportements et contrôle régulièrement les usages. En effet, si la gouvernance des données est détenue par une guilde fédérée composées de représentants de différents domaines, cela risque fortement d’être inefficace car chaque département a ses propres règles et priorités.
  • Une plateforme centralisée en libre-service fait rêver mais dans les faits, mettre en place ce type de solution se révèle très complexe car on est confronté à une variété vertigineuse de formats de données, une pluralité de systèmes et d’applications différents, de différentes versions voire de générations. Certes, nous disposons aujourd’hui de nombreux outils pour ingérer massivement les données et de larges bibliothèques de connecteurs … mais on peut rapidement retomber dans les travers du data warehouse.

Pour conclure, une architecture Data Mesh est très intéressante, mais au là du concept, il faut en mesurer les risques, les écueils et ses limites.

Voici les principaux avantages qui méritent qu’on étudie sa faisabilité et sa mise en pratique dans votre SI Data :

  1. Démocratisation de l’exploitation des données par un plus grand nombre (au delà des data scientist) via les applications en libre service
  2. Réduction des coûts car cette architecture distribuée est davantage #Cloud native avec des pipeline de collecte des données en temps réel (paiement à la consommation en terme de stockage)
  3. Interopérabilité car les données sont normalisées indépendamment du domaine et les consommateurs s’interfacent par APIs.
  4. Renforcement de la sécurité et de la gouvernance des données car les normes sont appliquées au-delà du domaines ainsi que la gestion des droits et des accès (journalisation, observabilité).

Sources :

Smartpoint renforce son pôle d’expertise Big Data.

Pure-player de la data depuis sa création en 2006, Smartpoint est une société de conseil et d’ingénierie en forte croissance alors que les projets Data s’accélèrent au sein des entreprises. Pour renforcer ces équipes du pôle Big Data, Smartpoint recrute de nombreux Data Engineers.

Le saviez-vous ? Sans Data Engineers, il n’y a pas d’exploitation possible de la data car c’est sur eux que repose la conception et la construction de l’architecture technique nécessaire au traitement des Big Data. 

Smartpoint a une expertise reconnue en modélisation de données. Ses équipes maîtrisent plusieurs langages de programmation et connaissent les différentes solutions big data possibles, en réponse aux enjeux spécifiques des entreprises et leurs contraintes en termes de systèmes data Legacy. Smartpoint, c’est un également un vivier d’experts en architectures de données. C’est d’ailleurs pour ces compétences que de nombreuses entreprises lui font confiance pour prendre en charge leurs projets data, de la conception des pipelines de données au déploiement des infrastructures nécessaires.

Smartpoint a donc adopté un plan de recrutement d’envergure pour attirer des data engineers qui viendront, par leurs expériences, enrichir sa Practice Big Data.

Vous êtes passionnés par l’ingénierie de la data ? Rejoignez une équipe qui vous ressemble et qui saura vous faire progresser dans un monde technologique qui évolue à un rythme effréné !

Qᴜᴇʟ ᴇsᴛ ʟᴇ ᴘᴀʀᴄᴏᴜʀs ᴛʏᴘᴇ ᴅ’ᴜɴ ᴅᴀᴛᴀ ᴇɴɢɪɴᴇᴇʀ ᴄʜᴇᴢ Sᴍᴀʀᴛᴘᴏɪɴᴛ ?

  • Après une formation supérieure universitaire ou école Bac + 5, il a à minima une expérience opérationnelle de 3 ans.
  • Il connait différents types d’architectures dont le Data Lake pour stocker, traiter et sécuriser des données issues de sources multiples, brutes, structurées et non structurées, sur de larges volumes.
  • Il sait comprendre et modéliser les données. Il sait concevoir des schémas de base de données et des structures de données.
  • Il est familier avec au moins une solution big data comme Hadoop, Spark, Hive ou Storm, ce qui lui permet d’être force de proposition.
  • En termes de langages de programmation, il maîtrise Spark ou Scala pour développer des scripts ou des requêtes pour extraire les données ; et améliorer les performances du traitement temps réel. Il utilise également Python pour le nettoyage, l’analyse et la visualisation des données.
  • Pour lui, la qualité des données et leur gouvernance est une priorité pour répondre aux normes et aux réglementations en vigueur … mais aussi par ce qu’il n’y aura jamais de sens, ni d’intelligence, ni de valeur créée pour l’entreprise si les données en sont pas correctes, cohérentes et à jour.

Vous vous reconnaissez ? Nous n’attendons que vous !

IA & ML, au delà du buzz.

On parle beaucoup d’avancées technologiques en apprentissage automatique et en intelligence artificielle mais dans les faits, les bénéfices attendus ne sont pas toujours au rendez-vous. Voici pourquoi.

Pour fonctionner, ces technologies nécessitent de grandes quantités de données, avec un haut niveau de qualité pour être efficaces.

Le challenge à relever pour les Data Engineers que nous sommes est que les données doivent être pré-traitées et préparées d’une manière spécifique avant de pouvoir être exploitées.

Chez Smartpoint, nous utilisons plus particulièrement Spark, Databricks ou encore Google Cloud Flow car ces outils apportent des solutions intéressantes pour nos clients en termes de :

  1. ÉVOLUTIVITÉ : ces plateformes permettent de traiter de grandes quantités de données et de les préparer pour l’apprentissage automatique à grande échelle.
  2. PARALLÉLISME : ces plateformes permettent de traiter des données en parallèle, ce qui peut accélérer le processus de prétraitement et de préparation des données.
  3. RÉDUCTION DE LA COMPLEXITÉ : ces plateformes peuvent aider à réduire la complexité de la préparation des données en proposant des bibliothèques de fonctions et de modules prêts à l’emploi.
  4. AUTOMATISATION : ces plateformes permettent d’automatiser certaines tâches de préparation de données telles que le nettoyage des données, la normalisation des données, le traitement du langage naturel, etc.
  5. INTÉGRATION : ces plateformes peuvent s’intégrer facilement avec d’autres outils et services d’apprentissage automatique tel que Tensor Flow pour n’en citer qu’un.

En utilisant ces outils, vous pouvez accélérer votre processus de préparation de données, réduire la complexité et améliorer la qualité des données pour tirer pleinement parti des avancées en ML et IA.

DevOps, pourquoi adopter cette approche et le top 10 des meilleurs outils utilisés par nos développeurs.

DevOps, ce désormais incontournable qui permet d’automatiser toujours davantage pour déployer plus rapidement de nouvelles applications ou de nouvelles fonctionnalités.

Selon différentes études dont Upguard (à lire ici https://www.upguard.com/blog/devops-success-stats), voici en quelques chiffres pourquoi adopter cette démarche pour accélérer le time-to-market de vos produits logiciels mais aussi leur qualité tout en facilitant le travail de vos équipes de développement :

  • Les Ops « traditionnels » seraient 40% davantage chronophages et 21% de leur temps serait consacré à gérer les incidents
  • Les DevOps consacreraient 1/3 de leur temps à optimiser l’infrastructure et économiseraient 60% de leur temps à gérer des problèmes d’assistance
  • Les organisations qui ont généralisé les pratiques DevOps constatent à plus de 60% qu’elles ont amélioré la qualité des déploiements mais aussi la fréquence à la laquelle elles mettent sur le marché de nouveaux produits logiciels. Près de 40% considèrent aussi que la production du code est de meilleure qualité.
  • Selon une enquête menée par Puppet Labs, les entreprises qui ont adopté le DevOps déploient des mises à jour 30 fois plus rapidement que celles qui n’ont pas adopté cette approche.
  • Une étude Forrester a mis en avant que les organisations ayant adopté DevOps ont connu une réduction de 63 % des défaillances de production et une réduction de 50 % du temps de résolution des problèmes.

Une batterie d’outils sont disponibles pour améliorer ce processus que ce soit au niveau du code (révision, gestion du code source, fusion), de l’intégration continue, des tests en continu, du packaging des référentiels, de la gestion des releases, de la configuration de l’infrastructure et du monitoring.

Voici notre sélection.

1/ Jenkins (open source) pour l’intégration et la livraison continue (CI/CD) pour l’automatisation et l’exécution de nombreuses tâches avec des centaines de plugins disponibles

2/ Git permet de suivre le développement en cours de l’application tout en conservant plusieurs versions du code source (historique). C’est l’outil incontournable en termes de systèmes de contrôle mais aussi de collaboration.

3/ Kubernetes (open source) pour augmenter les ressources nécessaires ou gérer davantage de conteneurs, il permet en effet aux développeurs de gérer la scalabilité et la gestion en déployant sur un cluster de serveurs, de manière sécurisée.

4/ Ansible (open-source) pour le provisionnement, la gestion et l’automatisation des configurations et le déploiement des applications sur des serveurs distants.

5/ Puppet (open-source) pour automatiser la configuration et la gestion des serveurs (comme Ansible) ainsi que des machines virtuelles.

6/ Terraform (open-source) pour définir les ressources nécessaires on-prem ou dans le cloud.

7/ Docker (open source) pour créer, déployer et gérer des applications conteneurisées indépendamment du système d’exploitation. Il offre aussi des capacités de virtualisation et d’isolations indispensables dans le cadre d’une architecture micro-services.

8/ Grafana (open-source) pour la visualisation des données et le monitoring. Il permet de collecter, analyser et afficher des données issues de multiples sources dont les logs.

9/ Slack pour partager des fichiers, des extraits de code et les intégrer dans vos applications. C’est l’allié de vos équipes pour gagner en productivité. La fonctionnalité Huddle leur permet même de communiquer par la voix !

10/ Jira (outil de ticketing de la suite Atlassian) pour planifier, contrôler et livrer vos produits logiciels sur la base de user stories selon les méthodes agiles. Il a également des fonctionnalités de reporting très appréciables.

Comparaison des plateformes pour moderniser votre système Data Legacy.

Vous souhaitez moderniser votre système Data legacy (ou système hérité) et vous vous demandez quelle plateforme choisir ? Et vous avez en effet le choix !

1. AMAZON WEB SERVICES (AWS)

Evolutive et flexible, elle permet de traiter une grand variété de données et propose de nombreux services tels que Amazon S3, Amazon EMR, Amazon Redshift, Amazon Athena, et Amazon QuickSight.

2. MICROSOFT AZURE CLOUD

Autre alternative très populaire parmi nos clients ! Elle offre aussi de nombreuse solutions telles que Azure Blob Storage, Azure HDInsight, Azure Data Factory et Azure Machine Learning.

3. SNOWFLAKE

C’est une vraie alternative aux SCP (services cloud providers) proposés par Microsoft, Amazon ou Google avec son architecture de données unique et évolutive. Elle offre aussi de nombreux outils tels que Snowflake Cloud Data Warehouse, Snowflake Data Exchange, et Snowflake Data Marketplace

Et entre Databricks et Snowflake ? Quelle solutions data choisir ?

La force principale de Databricks est sa puissance de traitement. Les fonctionnalités Core de Spark sont intégrées et sont idéales pour tous chargements ETL. Le stockage se fait dans un data lakehouse, comme un datalake mais avec la fonctionnalité d’une base de données relationnelle en plus. Il s’agit donc essentiellement d’un datalake, mais vous pouvez exécuter SQL dessus, ce qui est un sacré avantage !

Nous vous invitons à considérer Databricks si vous n’avez pas d’outil ETL existant ou si vos données nécessitent un nettoyage intensif avec des sources de données et des schémas imprévisibles. La technologie d’ingestion “schema on read” ou “schemaless” est un vrai plus pour la passage à l’échelle de vos données.

Snowflake est un cloud-based datawarehouse as a service. Il fournit un service ELT principalement par le biais de la commande « COPY », des schémas dédiés et des fichiers de données (colonnes de métadonnées). Il vous permet de lancer plusieurs clusters de calcul indépendants qui peuvent opérer sur les données simultanément à partir d’une seule copie des données. En termes d’ingénierie des données, ils suivent la méthode ELT. Néanmoins, ils offrent une bonne prise en charge des outils ETL tiers tels que Talend ou Fivetran. Vous pouvez même installer DBT.

Vous n’avez plus à vous préoccuper du chargement de vos données dans Snowflake que si vous disposez d’un outil ETL existant tel que Tibco, Fivetran, Talend, etc. Toute l’infrastructure de votre base de données (partitionnement, scalabilité, index, etc.) est gérée à votre place.

ET LES ALTERNATIVES EN OPEN SOURCE ?


SPARK bien-sûr 🤩 Mais chez Smartpoint, nous sommes aussi particulièrement fans de la suite Elastic Stack pour la recherche et l’analyse de données. Vous y retrouvez des outils comme le désormais très populaire Elastic Search, Beast pour la collecte de données, Logstash pour le traitement et Kibana pour la dataviz.

DATA CLOUD PAFORMSTARIFSFONCTIONNALITÉS
AWSAWS propose une tarification « pay-as-you-go », C’est à dire vous payez uniquement pour les services que vous utilisez. AWS, c’est un ensemble de fonctionnalités pour le stockage, le calcul, les BDD, le ML l’analyse et la mise en sécurité. C’est également des outils de développement comme CodeCommit, CodeBuild et CodeDeploy.
AzureAzure propose aussi des tarifs pay-as-you-go, dégressifs dans le temps comme AWS.Azure offre des fonctionnalités de stockage, de calcul, de BDD, de machine learning, d’analyse et la mise en sécurité. C’est également des outils de développement comme Visual Studio et Visual Studio Code.
SnowflakeSnowflake propose une tarification basée sur l’utilisation. Vous payez en fonction de la quantité de données stockées et de la quantité de traitement que vous consommez. Les tarifs sont variables en fonction du niveau de service utilisé.Snowflake offre des services de stockage, de traitement et de requête de données, d’analyse de données en temps réel et de mise en conformité règlementaire des données. Snowflake permet également de s’intégrer avec des outils de business intelligence comme Power BI et Tableau.
Comparaison entre plateformes cloud

Evidemment, votre choix de plateforme dépend de vos spécificités, de la volumétrie, des use cases… et des compétences techniques que vous avez !
N’hésitez pas à nous interroger ici : nous contacter.

Pour aller plus loin sur comment choisir la bonne solution data pour votre entreprise et moderniser votre SID vieillissant ?

RSE, Smartpoint reçoit la médaille de platine et entre dans le top 1% des entreprises.

Smartpoint rejoint le top 1% des entreprises les mieux notées. Cette reconnaissance vient saluer les efforts menés par l’ensemble des équipes Smartpoint qui visent l’exemplarité en ces domaines.

Paris, le 13 mars 2023

EcoVadis évalue les performances RSE des entreprises à travers quatre thèmes que sont l’environnement, l’éthique et la gouvernance, le social et les Droits de l’Homme et la politique d’achats responsables.  Le score, de 0 à 100, reflète la qualité du système de gestion de la RSE de l’entreprise au moment de l’évaluation

Après une médaille d’argent en 2021, Smartpoint a engagé un ensemble de mesures correctives pour améliorer les performances de sa politique RSE. Un plan d’action jugé concluant et salué par un score de 78/100, qui lui vaut cette distinction délivrée par EcoVadis.

Smartpoint est engagée dans une politique d’amélioration continue, avec des actions concrètes, pour améliorer son impact sur la société.
Nous sommes fiers de cette médaille de platine qui nous place parmi les entreprises les plus exemplaires en termes de RSE.
En revanche, nous sommes conscients que les enjeux de développement durable sont considérables et qu’il reste encore tant à faire. Nous avons également engagé une démarche de réduction de notre empreinte carbone et nous militons aussi pour plus de sobriété numérique via notamment la conduite de projets data responsables.
C’est le combat du siècle et il ne fait que commencer.

YAZID nechi, président, smartpoint

RÉSULTATS SMARTPOINT SCORE 2023 – SOURCE ECOVADIS

Index 2023 Égalité professionnelle entre les femmes et les hommes, Smartpoint obtient un score de 73/100.

Paris, le 01/03/2023

Concernant l’indicateur relatif à l’écart de taux d’augmentations individuelles, Smartpoint obtient 35 points sur 40, avec un écart favorable à la population féminine. 100% des salariées ont bénéficié également d’une augmentation dans l’année qui a suivi leur retour de congés maternité.

En revanche, les hommes restent sur-représentés parmi les dix salariés ayant les plus hautes rémunérations.

Smartpoint a mis en place des mesures correctives pour améliorer son score telles que l’élaboration d’une stratégie d’action pour réduire les écarts constatés lors du diagnostic.

Architectures Data Cloud, les 5 chantiers prioritaires.

1. La gouvernance des données

Nous en sommes convaincus chez Smartpoint, ce sujet n’a jamais été d’autant d’actualité. Pourtant, il est tout sauf nouveau ! D’ailleurs, nous avons des années d’expérience en ce domaine lorsque les données étaient dans des entrepôts …. Mais ces chantiers se sont beaucoup complexifiés avec les nouveaux modèles d’architectures puisqu’il s’agit de gérer aujourd’hui des données dans des data lakes ou des lakehouses (stockage dans le cloud donc), non structurées, de plus en plus volumétriques et partagées largement (data mesh).

Les chantiers sont nombreux et le choix d’outils vaste ! Audit, data lineage de bout en bout, qualité des données, gestion des données de références, data catalogs, règles de accès aux des données et de partage des données de manière sécurisées, mise en conformité règlementaire (…).

La Gouvernance des données est devenu un sujet très complexe et critique pour nos clients car la solution réside dans la spécificité de chaque écosystème IT et les utilisations qui sont faites des données.

Parmi les solutions, citons celles des incontournables Informatica, Talend, Collibra ou encore Experian.

2. Le Lakehouse

Toutes les plateformes proposent désormais des fonctionnalités pour implémenter un lakehouse plutôt qu’un data warehouse ou un data lake (quelle est la différence entre data warehouse, un data lake et un lakehouse ? C’est à lire ici)

Le créateur de Spark, Databricks, a clairement une longueur d’avance en termes de solution mais cela ne va pas peut-être pas durer. En format de tables open-source, sachez que Apache Iceberg est de plus en plus adopté par les services AWS (Glue notamment). Snowflake permet aussi désormais d’implémenter un lakehouse en utilisant Iceberg. 

3. L’architecture Data Mesh

Nous avons beaucoup travaillé en 2022 sur ce concept architectural qui se rapproche d’une architecture microservices avec des composants qui peuvent être modifiés ou mis à jour individuellement, et être utilisés par plusieurs équipes (Les quatre principes fondamentaux d’un data mesh sont à lire ici)

Les premiers retours d’expériences nous ont montré, qu’au-delà du concept, cela a un impact fort au niveau de l’organisation de la team Data qui doit être responsabilisées sur leur domaine Data (Le Product Thinking ou Data as product).

4. Le streaming et le traitement temps réel

Historiquement, les data warehouses étaient alimentés en fin ou en début de journée par traitements batch (et cela prenait des heures !) pour que les utilisateurs BI puissent disposer d’états ou de tableaux de bords un fois par jour. Ils attendent aujourd’hui d’être alertés en temps réel pour prendre des décisions ou réagir immédiatement. C’est devenu indispensable en gestion des risques (attrition client, risques de crédit ou fraude, etc.) ou pour alimenter les moteurs de recommandations de produits par exemple.

Cet enjeu de vitesse des données est de plus en prégnant chez nos clients. Mais avec l’augmentation des volumes, il devient de plus en plus important de ne pas uniquement les charger, mais aussi de les transformer et de les analyser en temps réel. Cela impacte fortement votre architecture data. Là, encore la plateforme lakehouse de Databricks est intéressante pour le streaming des données et pour fournir de l’analytique en temps réel. Autre solution, utiliser par exemple Apache Flick et Amazon Kinesis Data Analytics pour de l’ETL sur vos flux de données temps réel (à lire ici).

5. La modélisation de données

C’est le grand retour ! Avec Hadoop et son datalake, toutes les données étaient déversées sans aucune notion de modélisation. On sait aujourd’hui, que cela été une aberration. En termes de stockage bien sûr mais aussi sur le plan architectural car cela a rendu très compliqué l’exploitation des données et la data discovery.

Le data modeling permet de stocker les données de manière cohérente et organisée, les data scientists y ont accès plus facilement et peuvent mieux les exploiter. Les résultats sont d’autant améliorés et beaucoup plus fiables.

En rationalisant le pipeline de données et en permettant aux ingénieurs data de se concentrer sur des tâches plus complexes, la modélisation des données peut aider les organisations à mieux utiliser leurs données et à libérer tout le potentiel de la data science et de l’apprentissage automatique. En savoir plus sur les type de modélisation ? C’est ici.

Et vous, quelles sont vos priorités Data dans les mois qui viennent ?

Confiez-vos chantiers au pure player de la data 😉

Source : https://medium.com/@gauravthalpati/5-data-trends-for-y2023-da9af83cca34