Architectures data modernes : data warehouse, data lake et data lakehouse, quelle approche adopter ?

Dans un monde moderne qui produit sans cesse des données qui nourrissent en continu ses économies, faire le bon choix en terme d’architecture est essentiel pour capter, gérer, analyser et exploiter les données. Les architectures de données ont beaucoup évolué pour répondre à ces nouveaux besoins sur des volumétries jamais atteintes jusqu’alors et des systèmes qui demandent de plus en plus de traitement temps réel. Voici un selon nous les architectures data les plus modernes en 2024.

La réponse ne peut plus reposer sur une seule approche. Les architectures data modernes doivent être modulaires, évolutives et capables d’intégrer des logiques d’automatisation via l’AIOps.

Dans ce contexte, l’architecte data joue un rôle central : il articule vision métier, contraintes techniques et exigences de gouvernance. Architectures Data Modernes & AIOps : Data Mesh, Lakehouse, Data Fabric, quelle architecture choisir en 2024 ?

Choix en architectures de données modernes

Le Data Lake, le socle historique, à repenser

Le Data Lake a longtemps été la solution privilégiée pour centraliser les données brutes. Il répond à un besoin de volume et de stockage low cost.
Mais sans gouvernance, il devient rapidement un « data swamp », difficile à exploiter.

  • Avantages : souplesse, stockage massif, coût faible
  • Limites : qualité, sécurité, complexité d’exploitation

Le Lakehouse, un compromis entre performance et gouvernance

L’architecture Lakehouse combine les atouts du Data Lake et du Data Warehouse. Elle permet de traiter à la fois des workloads analytiques et des pipelines data intensifs. En termes de technologies, nous utilisons chez Smartpoint Delta Lake, Apache Iceberg, Snowflake, etc.

  • Avantages : unification, gouvernance, performance
  • Limites : encore jeune, nécessite une montée en compétences

Le Data Mesh, vers une architecture orientée data products

Le Data Mesh rompt radicalement avec le modèle centralisé et nos experts misent tout sur cette architecture de nouvelle génération ! Vous pouvez lire notre artciles sur le Data Mesh et ses fondamentaux ici. Chaque domaine métier devient responsable de ses “data products”. L’approche repose sur quatre piliers :

  1. Domain Ownership
  2. Data as a Product
  3. Self-serve Platform
  4. Federated Governance
  • Avantages : scalabilité organisationnelle, ownership
  • Limites : transformation culturelle, gouvernance plus complexe

L’AIOps Architecture, vers une automatisation intelligente !

L’architecture AIOps intègre des techniques d’intelligence artificielle pour automatiser l’observabilité, la détection d’incidents, la remédiation et le monitoring temps réel des infrastructures et des flux de données.

Nul doute qu’elle va s’imposer comme un complément indispensable des architectures data modernes, en particulier dans des environnements SI hybrides et cloud-native.

  • Avantages : fiabilité, anticipation des incidents, scalabilité automatique
  • Limites : complexité d’implémentation, dépendance à des modèles

Quels critères pour choisir la bonne architecture Data IA ?

Aligner stratégie d’architecture avec cas d’usages

Nos architectes data le constatent tous les jours dans la réalité des SI Data de nos clients. Le bon choix d’architecture de données repose sur une analyse des cas d’usage, des contraintes techniques, de votre SI Data et de la maturité Data globale de votre organisation.

Pour schématiser en fonction des priorités :

  • Gouvernance renforcée → Lakehouse ou Data Mesh
  • Cas d’usage IA → AIOps + Lakehouse
  • Organisation distribuée → Data Mesh

L’architecte data : un rôle clé pour 2024

Le data architecte n’est plus là pour faire des schémas directeurs, il intervient beaucoup plus en amont sur votre chantier de modernisation de votre architecture de données. Il traduit les enjeux métiers en modèles data, intègre la durabilité dans ses choix d’architecture, pilote les interactions entre cloud / IA / data et gouvernance et enfin il intègre les principes d’AIOps pour fiabiliser les environnements.

Comment construire une architecture data pérenne ?

Chez Smartpoint, nous accompagnons les DSI, les directions Data et les architectes dans la conception, l’implémentation et l’évolution de leurs architectures de données, en veillant à aligner les besoins des métier, les contraintes techniques, la stack existante et les impératifs de gouvernance.

Après un diagnostic de l’existant afin d’évaluer la maturité de l’organisation, les performances des environnements en place et le niveau de structuration de la gouvernance des données ; nous vous recommandons une architecture Data sur mesure, adaptées aux cas d’usage et à l’écosystème IT. Ces recommandations s’appuient sur des approches comme le Data Lakehouse, le Data Mesh ou des architectures intégrant des principes d’AIOps.

Une fois l’architecture cible définie, nous assurons sa mise en production en respectant les impératifs de performance, d’évolutivité et de scalabilité. Nous accompagnons également les équipes internes, data owners, architectes, DevOps, afin de nous assurer de l’appropriation des modèles mis en place et leur adoption durable dans les pratiques de l’entreprise.

Concevoir des architectures de données modernes, évolutives, gouvernées et automatisées, capables de soutenir durablement la performance et la création de valeur à l’échelle de l’organisation; c’est notre métier en tant qu’ESN spécialisée en ingénierie des données.

Vers des architectures intelligentes, au service de la valeur

Les architectures data modernes doivent répondre à aux maitres mots que sont l’agilité et la maîtrise.

Intégrer des logiques d’AIOps, favoriser des approches domain-centric comme le Data Mesh, ou unifier les flux via un Lakehouse sont autant de ressors pour créer de la valeur à l’échelle.

En 2024, l’architecte data devient un stratège : il conçoit des environnements data solides, adaptés aux enjeux métiers comme technologiques, dans une logique cloud-native, automatisée et gouvernée.

Data Warehouse, Data Lake et Data Lakehouse : comment choisir l’architecture adaptée ?

Les entreprises doivent aujourd’hui gérer une grande diversité de types de données : structurées, semi-structurées et non structurées. Le choix de l’architecture data moderne conditionne directement la qualité des données, leur exploitation en data science et les usages analytiques tels que la business intelligence (BI).

  • Le data warehouse cloud reste privilégié pour l’analytique et le reporting, grâce à sa capacité à organiser et fiabiliser les données structurées.
  • Le data lake (ou lac de données) se démarque par sa flexibilité et sa capacité de stockage de données massives, mais requiert une gouvernance rigoureuse pour éviter l’effet “data swamp”.
  • Le data lakehouse émerge comme une alternative hybride, combinant la puissance transactionnelle (transactions ACID) et analytique du warehouse avec la souplesse du data lake.

Le choix dépendra de plusieurs facteurs :

  • La prise en charge des données non structurées,
  • Les besoins en scalabilité et performance analytique,
  • La nécessité de garantir la traçabilité et la conformité réglementaire,
  • L’intégration avec les pratiques de data governance et les outils de traitement cloud-native.

Quelle architecture data adopter ?

La question n’est plus de savoir si un data warehouse ou un data lake est meilleur, mais de déterminer quelle combinaison d’architectures permet de répondre aux besoins spécifiques de l’entreprise.

Le data warehouse continue de jouer un rôle central dans la business intelligence (BI) et la fiabilité des rapports. Le data lake, de son côté, facilite la gestion des données non structurées et alimente les projets de data science. Enfin, le data lakehouse s’impose comme un modèle innovant, capable de concilier stockage de données, analytique avancée et qualité des données grâce à des mécanismes robustes comme les transactions ACID.

Pour les DSI et responsables data, la clé est de bâtir une stratégie d’architecture data moderne flexible, intégrant ces briques de manière cohérente, afin de soutenir la transformation numérique, l’innovation et la prise de décision.

Pour aller plus loin

architecture data guide 2024

Le choix de la bonne architecture de données dépend de vos besoins spécifiques. Que ce soit le Data Mesh, la Data Fabric ou le Lakehouse, chaque option a ses propres intérêts qui peuvent servir votre stratégie d’exploitation des données. Chez Smartpoint, nos architectes vous conseillent car être en capacités de comprendre les différentes architectures de données est primordial afin de concevoir et mettre en œuvre des systèmes data efficaces : traitement par lots, traitement en flux, architecture Lambda, entrepôt de données, le lac de données, microservices, (…)

Smartpoint, labellisée Best Workplace Experience 2023 par Speak & Act.

Toute l’équipe Smartpoint est fière de l’obtention du label Best Workplace Experience – Happiness Barometer qui atteste de notre appartenance dans le TOP 30 des entreprises offrant la meilleure expérience collaborateur.

Présentation de Speak & Act

Speak & Act, plateforme de marque employeur et école, labellise les entreprises et écoles offrant la meilleure expérience collaborateur, stagiaire/alternant, candidat et étudiante afin d’informer, accompagner et orienter les étudiants et candidats vers le bon employeur et la bonne école. Le label et classement « Best Workplace Experience – Happiness Barometer » est exclusivement fondé sur les avis des stagiaires et alternants recueillis au travers d’un questionnaire anonyme garantissant son caractère impartial et indépendant. 

Présentation de Smartpoint

Smartpoint est une société de conseil et de services numériques (ESN) spécialisée en ingénierie de la data qui rassemble plus de 250 consultants et ingénieurs. Smartpoint aide les entreprises et les organisations à exploiter leurs gisements de données pour en faire le moteur de leur transformation digitale.

Lors de cette enquête 2023, c’est plus de 250 entreprises qui ont été évaluées et plus de 20 000 avis collectés. Pour cette première année de participation à la campagne de labellisation Happiness Barometer 2023, Smartpoint se hisse à la 20ème place du classement avec un note moyenne de 3,87 /5.

  • Nos collaborateurs recommandent l’entreprise avec un taux de satisfaction de 83%.
  • Nos collaborateurs pensent que leur employeur respecte la parité homme et femme avec un taux de satisfaction de 82%.
  • Nos collaborateurs sont satisfaits à 81% de la réputation de l’entreprise.

Pour en savoir plus :

Découvrir les avis de notre entreprise sur speaknact.fr : ici

Méthodologie du classement et label Speak & Act : ici  

Lire l’article dans LE POINT : ici

Lire l’article dans FORBES : ici

Data Engineer en 2023 ? Le top 5 des compétences.

Certes, le coeur-métier d’un ingénieur data est de concevoir, mettre en oeuvre puis maintenir un pipeline de données efficace et cela suppose d’être en capacités de construire des fondations solides pour l’exploitation de données dans la durée.

Pourtant en tant qu’ingénieur Data, votre rôle est bien plus large que la « simple » conception et gestion des pipelines de données. Chez Smartpoint, nos data engineers possèdent un large éventail de compétences qui leur permettent de mener à bien leurs missions quotidiennes. Voici un aperçu des compétences clés nécessaires pour exceller au quotidien !

1. Sens de l’écoute et de la communication : Deux qualités essentielles pour comprendre la valeur cachée des données (et leur potentiel de création de valeur) et les besoins spécifiques des utilisateurs finaux. Les data engineers doivent collaborer avec diverses parties prenantes telles que les métiers, les data analysts et les data scientists afin de comprendre les exigences métier et de proposer des solutions adaptées (et souvent créatives !). La capacité à traduire les besoins métier en pipelines de données performants est cruciale pour garantir une exploitation optimale des données.

2. Intégration de données provenant de multiples sources : Les data engineers sont confrontés à la tâche complexe d’intégrer des données provenant de multiples sources hétérogènes. Ils doivent travailler avec d’autres ingénieurs data pour développer des solutions d’intégration robustes qui permettent de collecter, transformer et stocker les données de manière fiable. Cela nécessite une connaissance approfondie des technologies ETL (Extract, Transform, Load) et des compétences en modélisation de données.

3. Maîtrise de la documentation et des outils de collaboration : La documentation est un aspect essentiel du travail d’un data engineer. Les projets évoluent, les équipes changent, et il est crucial de documenter l’architecture du pipeline de données ainsi que les différentes sources de données utilisées (comment elles sont collectées, transformées dont les agrégats et autres opérations effectuées, stockées, mises à jours, etc.). Cela permet de garantir la reproductibilité des tâches, de faciliter la collaboration entre les membres de l’équipe et de prévenir la perte de connaissances. La maîtrise des outils de collaboration tels que la suite Atlassian (comme Jira et Confluence) est souvent nécessaire pour gérer efficacement les projets et s’assurer qu’ils le restent dans la durée !

4. Connaissances en programmation et bases de données : Les data engineers doivent posséder des compétences solides en programmation pour développer des scripts et des programmes permettant de manipuler et de transformer les données. Ils doivent également avoir une bonne compréhension des bases de données relationnelles et non relationnelles, ainsi que des langages de requête associés (comme SQL). Une connaissance approfondie des langages de programmation tels que Python, Java ou Scala est souvent essentielle dans les projets sur lesquels nous intervenons chez Smartpoint.

5. Compréhension des concepts Big Data et des outils associés : Dans le domaine du Big Data, les data engineers doivent être familiarisés avec les concepts et les technologies associées, telles que Hadoop, Spark, Hive et Kafka. La capacité à mettre en œuvre des architectures distribuées et à gérer des volumes massifs de données est essentielle pour garantir des performances optimales et une évolutivité adaptée aux besoins des entreprises.

Pour conclure ? Un data engineer accompli ne se résume pas à la maîtrise des pipelines de données, même si cela est déjà une compétence considérable !

Metadata Management, de quoi parle-t-on exactement ?

Les métadonnées fournissent des informations sur les data (des données sur les données en somme !) : caractéristiques, contextualisation, signification, usages prévus, lineage, etc. Une gestion efficace a donc un impact direct sur la qualité globale des données mais aussi leur gouvernance et leur conformité dans la durée.

Les métadonnées permettent donc à ceux qui sont amenés à exploiter les données, à mieux les comprendre et à les utiliser.

Quels sont les différents types de métadonnées ?

  • Métadonnées descriptives : elles contiennent les informations de base comme le titre, la date de création, l’auteur et le format
  • Métadonnées structurelles : elles décrivent comment les données sont structurées comme les relations entre les différents éléments et la manière dont elles doivent être visualisées ou exposées
  • Métadonnées administratives : Elles donnent les informations sur la gestion des données comme qui en est responsable ou propriétaire, les droits et les accès ainsi que les règles de sauvegarde (ou de suppression)
  • Métadonnées business : Elles décrivent le contexte, les processus et les règles métiers

Quel prérequis à la mise en place un Metadata Management efficace ?

Le stockage des métadonnées dans un référentiel centralisé est essentiel.

Cela permet de rechercher, extraire et mettre à jour les données tout au long de leur cycle de vie. Les metadata sont organisées et classées. On a ainsi l’assurance que les données sont toujours « fraiches » et correctes. Alors que les pipelines de données deviennent de plus en plus volumétriques et en temps réel, stocker les données en silos de manière traditionnelle nuit à la qualité des données, leur accessibilité, génère des incohérences et des erreurs. Un référentiel centralisé facile le travail des ingénieurs data et des analystes.

Quels avantages du Metadata Management ?

  1. Meilleure accessibilité des données
  2. Gouvernance et sécurité renforcés
  3. Prise de décision facilitée grâce à la meilleure compréhension et partage des données
  4. Qualité des données améliorée

Top 8 des compétences d’un Big Data Engineer chez Smartpoint

Déjà, un ingénieur Big Data a très une bonne culture G en ingénierie de la data ! Il connait plusieurs langages de programmation, bases de données et outils de traitement de données.

Il faut en effet maîtriser tout le processus de collecte, de stockage, de traitement, d’exploitation et d’analyse des données et ce sur de très larges volumes pour en extraire de la valeur exploitable pour nos clients.

  1. Il parle plusieurs langues … de programmation comme Java, Pyhton ou encore Scala mais ce n’est qu’une de ses nombreuses qualités :
  2. Une bonne compréhension des frameworks Big Data. Citons par exemple Apache Hadoop, Apache Spark, Apache Storm et Apache Flink.
  3. La maîtrise des systèmes de stockage distribués comme Apache Kafka ou Cassandra.
  4. La connaissance des technologies de data warehousing est un vrai plus ! Apache Hive, Pig ou Impala.
  5. Des compétences en bases de données SQL (MySQL, PostgreSQL) et NoSQL (Cassandra, MongoDB)
  6. Une expérience des outils d’intégration de données, nous utilisons beaucoup Airflow mais aussi NiFi
  7. La tête dans les nuages ! Aujourd’hui le cloud est un incontournable dans tous nos projets et les données y sont stockées : AWS, Azure ou GCP
  8. Et il est très sensible … aux enjeux actuels relatifs aux données que sont leur sécurisation, données, leur cycle de vie, leur gouvernance et bien entendu leur conformité avec les règlementations.

𝐕𝐨𝐮𝐬 𝐯𝐨𝐮𝐬 𝐫𝐞𝐜𝐨𝐧𝐧𝐚𝐢𝐬𝐬𝐞𝐳 𝐨𝐮 𝐯𝐨𝐮𝐬 𝐬𝐨𝐮𝐡𝐚𝐢𝐭𝐞𝐳 𝐩𝐫𝐨𝐠𝐫𝐞𝐬𝐬𝐞𝐫 𝐝𝐚𝐧𝐬 𝐯𝐨𝐭𝐫𝐞 𝐩𝐚𝐫𝐜𝐨𝐮𝐫𝐬 𝐩𝐫𝐨𝐟𝐞𝐬𝐬𝐢𝐨𝐧𝐧𝐞𝐥 ? 𝐍𝐨𝐮𝐬 𝐧’𝐚𝐭𝐭𝐞𝐧𝐝𝐨𝐧𝐬 𝐪𝐮𝐞 𝐯𝐨𝐮𝐬 !

Smartpoint recrute de nombreux ingénieurs Big Data à partir de deux ans d’expériences comme de plus expérimentés pour intervenir sur des projets stratégique chez nos clients, pour qui la data est aussi un enjeu stratégique d’innovation et de la transformation de leur métier.

Data Mesh, architecture miracle pour libérer enfin la valeur promise des data ?

Au-delà du concept et des principes d’architecture, est-ce que le Data Mesh est viable à l’épreuve de réalité des organisations et des SI data ? Est-ce que cette architecture décentralisée et orientée domaine fonctionnel, qui permet une exploitation des données en libre-service, est la hauteur des promesses ?

Voici les principaux écueils à anticiper.

En tant que pure-player de la Data, nous en avons connu chez Smartpoint des architectures de données … Et nous savons à quel point il est complexe de trouver, de concevoir, de mettre en œuvre la bonne solution et de briser enfin les silos. On sait aujourd’hui qu’environ 80% des projets de Data Warehouses ont échoué et il y a déjà presque 10 ans, Gartner prédisait que 90% des Data Lakes seraient finalement inutiles. Il est vrai aussi que l’on sait qu’une équipe Data centralisée est souvent débordée et manque d’expertises par domaines métiers, ce qui nuit invariablement à la découverte et à la création de valeur data.

Revenons sur les principes fondamentaux qui caractérisent le Data Mesh ou Maillage de données tel que promus par Zhamak Dehghani(ThoughtWorks) en alternative aux structures de données centralisées et monolithiques :

1. Domain-driven ownership of data : Les données sont considérées comme des actifs appartenant à des domaines spécifiques au sein de l’organisation. Chaque domaine est responsable de la production, de l’amélioration de la qualité des données et de la gestion. Cette approche permet de créer des équipes spécialisées, composées d’experts métier et techniques, qui travaillent en étroite collaboration pour définir les normes et les règles spécifiques à leur domaine. Leur objectif est de répondre aux besoins de leur domaine fonctionnel en terme d’exploitation des données, tout en favorisant la réutilisation et l’interopérabilité entre les différents domaines métiers.

2. Data as a product : Les données sont destinées à être consommées par les utilisateurs au sein de l’organisation. Les équipes data doivent se recentrer sur le client pour fournir des data sets de qualité, fiables et bien documentés. Elles créent des interfaces claires (API) et définissent des contrats pour la consommation des données. Ainsi, les utilisateurs peuvent découvrir, accéder et utiliser les données de manière autonome, comme un produit prêt à l’emploi. On est dans la même logique que les architectures microservices.

3. Self-service data platform : Les équipes data fournissent une plateforme de données en libre-service, qui facilite la découverte, l’accès et l’exploitation des données. Cette plateforme fournit des outils, des services et des interfaces qui permettent aux utilisateurs de trouver intuitivement et de consommer les données de manière autonome. Elle favorise l’automatisation et l’orchestration des flux de données, permettant ainsi aux équipes data de se concentrer sur la qualité et l’enrichissement des données plutôt que sur des tâches opérationnelles chronophages et à faible valeur ajoutée.

4. Federated computational governance : La gouvernance des données est décentralisée et répartie entre les différentes équipes. Chaque équipe a la responsabilité de définir et d’appliquer les règles et les normes spécifiques à son domaine. La gouvernance fédérée consiste à mettre en place des processus et des outils qui permettent de gérer et de contrôler les données de manière distribuée. Cela inclut la gouvernance des métadonnées, la sécurité, la conformité réglementaire, ainsi que la prise de décision collective et transparente sur les évolutions de l’architecture et des pratiques liées aux données.

Voici pourquoi une architecture data mesh pourrait se révéler être un échec dans certaines organisations où les notions de produit data ou de propriété de domaines sont difficilement applicables.

  • Toutes les données n’ont pas forcément une valeur, c’est même le contraire. La plupart des données collectées sont inutiles et brouillent l’information car elles ne sont pas pertinentes. Dans les faits, c’est compliqué d’identifier dans la masse celles qui sont réellement précieuses et potentiellement génératrice de valeur. C’est un véritable chantier en soi, complexe et laborieux. Un travail de chercheur d’or !
  • Produire des données est une charge supplémentaire ! Certes le concept de data product est séduisant et facile à appréhender mais dans la réalité du terrain, les ingénieurs data doivent déjà les créer … Et les transformer en plus par domaine nécessite d’élargir encore leurs compétences. Certes les avancées en IA, automatisation, et autres Low Code promettent de leur faciliter la tâche mais c’est encore une promesse qui reste à éprouver.
  • On en vient naturellement à la troisième difficulté : le manque de compétences data disponibles. Le Data Engineering, c’est un métier de spécialiste de la gestion des données et nous savons qu’il est rare de trouver des professionnels qui en maîtrise toute la palette ! Déléguer la responsabilité à des équipes par domaine, sans compétences spécialisées en data, peut générer des problèmes sans aucun doute.
  • La gouvernance fédérée est aussi une évidence sur le papier. Dans les faits, ce n’est pas applicable sans de fortes contraintes avec un véritable régime central très autoritaire qui encadre les comportements et contrôle régulièrement les usages. En effet, si la gouvernance des données est détenue par une guilde fédérée composées de représentants de différents domaines, cela risque fortement d’être inefficace car chaque département a ses propres règles et priorités.
  • Une plateforme centralisée en libre-service fait rêver mais dans les faits, mettre en place ce type de solution se révèle très complexe car on est confronté à une variété vertigineuse de formats de données, une pluralité de systèmes et d’applications différents, de différentes versions voire de générations. Certes, nous disposons aujourd’hui de nombreux outils pour ingérer massivement les données et de larges bibliothèques de connecteurs … mais on peut rapidement retomber dans les travers du data warehouse.

Pour conclure, une architecture Data Mesh est très intéressante, mais au là du concept, il faut en mesurer les risques, les écueils et ses limites.

Voici les principaux avantages qui méritent qu’on étudie sa faisabilité et sa mise en pratique dans votre SI Data :

  1. Démocratisation de l’exploitation des données par un plus grand nombre (au delà des data scientist) via les applications en libre service
  2. Réduction des coûts car cette architecture distribuée est davantage #Cloud native avec des pipeline de collecte des données en temps réel (paiement à la consommation en terme de stockage)
  3. Interopérabilité car les données sont normalisées indépendamment du domaine et les consommateurs s’interfacent par APIs.
  4. Renforcement de la sécurité et de la gouvernance des données car les normes sont appliquées au-delà du domaines ainsi que la gestion des droits et des accès (journalisation, observabilité).

Sources :

Smartpoint renforce son pôle d’expertise Big Data.

Pure-player de la data depuis sa création en 2006, Smartpoint est une société de conseil et d’ingénierie en forte croissance alors que les projets Data s’accélèrent au sein des entreprises. Pour renforcer ces équipes du pôle Big Data, Smartpoint recrute de nombreux Data Engineers.

Le saviez-vous ? Sans Data Engineers, il n’y a pas d’exploitation possible de la data car c’est sur eux que repose la conception et la construction de l’architecture technique nécessaire au traitement des Big Data. 

Smartpoint a une expertise reconnue en modélisation de données. Ses équipes maîtrisent plusieurs langages de programmation et connaissent les différentes solutions big data possibles, en réponse aux enjeux spécifiques des entreprises et leurs contraintes en termes de systèmes data Legacy. Smartpoint, c’est un également un vivier d’experts en architectures de données. C’est d’ailleurs pour ces compétences que de nombreuses entreprises lui font confiance pour prendre en charge leurs projets data, de la conception des pipelines de données au déploiement des infrastructures nécessaires.

Smartpoint a donc adopté un plan de recrutement d’envergure pour attirer des data engineers qui viendront, par leurs expériences, enrichir sa Practice Big Data.

Vous êtes passionnés par l’ingénierie de la data ? Rejoignez une équipe qui vous ressemble et qui saura vous faire progresser dans un monde technologique qui évolue à un rythme effréné !

Qᴜᴇʟ ᴇsᴛ ʟᴇ ᴘᴀʀᴄᴏᴜʀs ᴛʏᴘᴇ ᴅ’ᴜɴ ᴅᴀᴛᴀ ᴇɴɢɪɴᴇᴇʀ ᴄʜᴇᴢ Sᴍᴀʀᴛᴘᴏɪɴᴛ ?

  • Après une formation supérieure universitaire ou école Bac + 5, il a à minima une expérience opérationnelle de 3 ans.
  • Il connait différents types d’architectures dont le Data Lake pour stocker, traiter et sécuriser des données issues de sources multiples, brutes, structurées et non structurées, sur de larges volumes.
  • Il sait comprendre et modéliser les données. Il sait concevoir des schémas de base de données et des structures de données.
  • Il est familier avec au moins une solution big data comme Hadoop, Spark, Hive ou Storm, ce qui lui permet d’être force de proposition.
  • En termes de langages de programmation, il maîtrise Spark ou Scala pour développer des scripts ou des requêtes pour extraire les données ; et améliorer les performances du traitement temps réel. Il utilise également Python pour le nettoyage, l’analyse et la visualisation des données.
  • Pour lui, la qualité des données et leur gouvernance est une priorité pour répondre aux normes et aux réglementations en vigueur … mais aussi par ce qu’il n’y aura jamais de sens, ni d’intelligence, ni de valeur créée pour l’entreprise si les données en sont pas correctes, cohérentes et à jour.

Vous vous reconnaissez ? Nous n’attendons que vous !

IA & ML, au delà du buzz.

On parle beaucoup d’avancées technologiques en apprentissage automatique et en intelligence artificielle mais dans les faits, les bénéfices attendus ne sont pas toujours au rendez-vous. Voici pourquoi.

Pour fonctionner, ces technologies nécessitent de grandes quantités de données, avec un haut niveau de qualité pour être efficaces.

Le challenge à relever pour les Data Engineers que nous sommes est que les données doivent être pré-traitées et préparées d’une manière spécifique avant de pouvoir être exploitées.

Chez Smartpoint, nous utilisons plus particulièrement Spark, Databricks ou encore Google Cloud Flow car ces outils apportent des solutions intéressantes pour nos clients en termes de :

  1. ÉVOLUTIVITÉ : ces plateformes permettent de traiter de grandes quantités de données et de les préparer pour l’apprentissage automatique à grande échelle.
  2. PARALLÉLISME : ces plateformes permettent de traiter des données en parallèle, ce qui peut accélérer le processus de prétraitement et de préparation des données.
  3. RÉDUCTION DE LA COMPLEXITÉ : ces plateformes peuvent aider à réduire la complexité de la préparation des données en proposant des bibliothèques de fonctions et de modules prêts à l’emploi.
  4. AUTOMATISATION : ces plateformes permettent d’automatiser certaines tâches de préparation de données telles que le nettoyage des données, la normalisation des données, le traitement du langage naturel, etc.
  5. INTÉGRATION : ces plateformes peuvent s’intégrer facilement avec d’autres outils et services d’apprentissage automatique tel que Tensor Flow pour n’en citer qu’un.

En utilisant ces outils, vous pouvez accélérer votre processus de préparation de données, réduire la complexité et améliorer la qualité des données pour tirer pleinement parti des avancées en ML et IA.

DevOps, pourquoi adopter cette approche et le top 10 des meilleurs outils utilisés par nos développeurs.

DevOps, ce désormais incontournable qui permet d’automatiser toujours davantage pour déployer plus rapidement de nouvelles applications ou de nouvelles fonctionnalités.

Selon différentes études dont Upguard (à lire ici https://www.upguard.com/blog/devops-success-stats), voici en quelques chiffres pourquoi adopter cette démarche pour accélérer le time-to-market de vos produits logiciels mais aussi leur qualité tout en facilitant le travail de vos équipes de développement :

  • Les Ops « traditionnels » seraient 40% davantage chronophages et 21% de leur temps serait consacré à gérer les incidents
  • Les DevOps consacreraient 1/3 de leur temps à optimiser l’infrastructure et économiseraient 60% de leur temps à gérer des problèmes d’assistance
  • Les organisations qui ont généralisé les pratiques DevOps constatent à plus de 60% qu’elles ont amélioré la qualité des déploiements mais aussi la fréquence à la laquelle elles mettent sur le marché de nouveaux produits logiciels. Près de 40% considèrent aussi que la production du code est de meilleure qualité.
  • Selon une enquête menée par Puppet Labs, les entreprises qui ont adopté le DevOps déploient des mises à jour 30 fois plus rapidement que celles qui n’ont pas adopté cette approche.
  • Une étude Forrester a mis en avant que les organisations ayant adopté DevOps ont connu une réduction de 63 % des défaillances de production et une réduction de 50 % du temps de résolution des problèmes.

Une batterie d’outils sont disponibles pour améliorer ce processus que ce soit au niveau du code (révision, gestion du code source, fusion), de l’intégration continue, des tests en continu, du packaging des référentiels, de la gestion des releases, de la configuration de l’infrastructure et du monitoring.

Voici notre sélection.

1/ Jenkins (open source) pour l’intégration et la livraison continue (CI/CD) pour l’automatisation et l’exécution de nombreuses tâches avec des centaines de plugins disponibles

2/ Git permet de suivre le développement en cours de l’application tout en conservant plusieurs versions du code source (historique). C’est l’outil incontournable en termes de systèmes de contrôle mais aussi de collaboration.

3/ Kubernetes (open source) pour augmenter les ressources nécessaires ou gérer davantage de conteneurs, il permet en effet aux développeurs de gérer la scalabilité et la gestion en déployant sur un cluster de serveurs, de manière sécurisée.

4/ Ansible (open-source) pour le provisionnement, la gestion et l’automatisation des configurations et le déploiement des applications sur des serveurs distants.

5/ Puppet (open-source) pour automatiser la configuration et la gestion des serveurs (comme Ansible) ainsi que des machines virtuelles.

6/ Terraform (open-source) pour définir les ressources nécessaires on-prem ou dans le cloud.

7/ Docker (open source) pour créer, déployer et gérer des applications conteneurisées indépendamment du système d’exploitation. Il offre aussi des capacités de virtualisation et d’isolations indispensables dans le cadre d’une architecture micro-services.

8/ Grafana (open-source) pour la visualisation des données et le monitoring. Il permet de collecter, analyser et afficher des données issues de multiples sources dont les logs.

9/ Slack pour partager des fichiers, des extraits de code et les intégrer dans vos applications. C’est l’allié de vos équipes pour gagner en productivité. La fonctionnalité Huddle leur permet même de communiquer par la voix !

10/ Jira (outil de ticketing de la suite Atlassian) pour planifier, contrôler et livrer vos produits logiciels sur la base de user stories selon les méthodes agiles. Il a également des fonctionnalités de reporting très appréciables.

Évaluation Smartpoint

Note : 4.5 / 5

Les outils DevOps sélectionnés ici constituent une base solide pour automatiser les processus de développement, de déploiement et de monitoring. Une adoption progressive de ces solutions permet de gagner en qualité, en réactivité et en productivité tout au long du cycle de vie logiciel.

Comparaison des plateformes pour moderniser votre système Data Legacy.

Vous souhaitez moderniser votre système Data legacy (ou système hérité) et vous vous demandez quelle plateforme choisir ? Et vous avez en effet le choix !

1. AMAZON WEB SERVICES (AWS)

Evolutive et flexible, elle permet de traiter une grand variété de données et propose de nombreux services tels que Amazon S3, Amazon EMR, Amazon Redshift, Amazon Athena, et Amazon QuickSight.

2. MICROSOFT AZURE CLOUD

Autre alternative très populaire parmi nos clients ! Elle offre aussi de nombreuse solutions telles que Azure Blob Storage, Azure HDInsight, Azure Data Factory et Azure Machine Learning.

3. SNOWFLAKE

C’est une vraie alternative aux SCP (services cloud providers) proposés par Microsoft, Amazon ou Google avec son architecture de données unique et évolutive. Elle offre aussi de nombreux outils tels que Snowflake Cloud Data Warehouse, Snowflake Data Exchange, et Snowflake Data Marketplace

Et entre Databricks et Snowflake ? Quelle solutions data choisir ?

La force principale de Databricks est sa puissance de traitement. Les fonctionnalités Core de Spark sont intégrées et sont idéales pour tous chargements ETL. Le stockage se fait dans un data lakehouse, comme un datalake mais avec la fonctionnalité d’une base de données relationnelle en plus. Il s’agit donc essentiellement d’un datalake, mais vous pouvez exécuter SQL dessus, ce qui est un sacré avantage !

Nous vous invitons à considérer Databricks si vous n’avez pas d’outil ETL existant ou si vos données nécessitent un nettoyage intensif avec des sources de données et des schémas imprévisibles. La technologie d’ingestion “schema on read” ou “schemaless” est un vrai plus pour la passage à l’échelle de vos données.

Snowflake est un cloud-based datawarehouse as a service. Il fournit un service ELT principalement par le biais de la commande « COPY », des schémas dédiés et des fichiers de données (colonnes de métadonnées). Il vous permet de lancer plusieurs clusters de calcul indépendants qui peuvent opérer sur les données simultanément à partir d’une seule copie des données. En termes d’ingénierie des données, ils suivent la méthode ELT. Néanmoins, ils offrent une bonne prise en charge des outils ETL tiers tels que Talend ou Fivetran. Vous pouvez même installer DBT.

Vous n’avez plus à vous préoccuper du chargement de vos données dans Snowflake que si vous disposez d’un outil ETL existant tel que Tibco, Fivetran, Talend, etc. Toute l’infrastructure de votre base de données (partitionnement, scalabilité, index, etc.) est gérée à votre place.

ET LES ALTERNATIVES EN OPEN SOURCE ?


SPARK bien-sûr 🤩 Mais chez Smartpoint, nous sommes aussi particulièrement fans de la suite Elastic Stack pour la recherche et l’analyse de données. Vous y retrouvez des outils comme le désormais très populaire Elastic Search, Beast pour la collecte de données, Logstash pour le traitement et Kibana pour la dataviz.

DATA CLOUD PAFORMSTARIFSFONCTIONNALITÉS
AWSAWS propose une tarification « pay-as-you-go », C’est à dire vous payez uniquement pour les services que vous utilisez. AWS, c’est un ensemble de fonctionnalités pour le stockage, le calcul, les BDD, le ML l’analyse et la mise en sécurité. C’est également des outils de développement comme CodeCommit, CodeBuild et CodeDeploy.
AzureAzure propose aussi des tarifs pay-as-you-go, dégressifs dans le temps comme AWS.Azure offre des fonctionnalités de stockage, de calcul, de BDD, de machine learning, d’analyse et la mise en sécurité. C’est également des outils de développement comme Visual Studio et Visual Studio Code.
SnowflakeSnowflake propose une tarification basée sur l’utilisation. Vous payez en fonction de la quantité de données stockées et de la quantité de traitement que vous consommez. Les tarifs sont variables en fonction du niveau de service utilisé.Snowflake offre des services de stockage, de traitement et de requête de données, d’analyse de données en temps réel et de mise en conformité règlementaire des données. Snowflake permet également de s’intégrer avec des outils de business intelligence comme Power BI et Tableau.
Comparaison entre plateformes cloud

Evidemment, votre choix de plateforme dépend de vos spécificités, de la volumétrie, des use cases… et des compétences techniques que vous avez !
N’hésitez pas à nous interroger ici : nous contacter.

Pour aller plus loin sur comment choisir la bonne solution data pour votre entreprise et moderniser votre SID vieillissant ?