Data Engineer : Pourquoi Smartpoint est THE place to be ?

Smartpoint est le terrain de jeu idéal pour les Data Engineers à la recherche d’un parcours professionnel passionnant. En tant que pure player de la data, Smartpoint offre un écosystème où innovation, sens et évolution professionnelle se rencontrent pour créer des carrières d’exception.

1. Une mission qui a du sens

Chez Smartpoint, les Data Engineers ne sont pas de simples consultants ; ils sont les artisans d’un monde meilleur. La data, autrefois cantonnée au marketing sur les réseaux sociaux, irrigue maintenant tous les aspects de notre vie, apportant des solutions innovantes dans tous les domaines dont cruciaux que sont la santé et l’écologie. Travailler dans la data chez Smartpoint, c’est avoir un impact réel et positif sur la société. Smartpoint a d’ailleurs une politique RSE parmi les plus exemplaires de la profession (Top 1% des sociétés) et est engagé pour la planète.

2. Au coeur d’un secteur en pleine croissance

L’évolution du big data, depuis ses balbutiements en 2008-2009 jusqu’à son intégration actuelle avec l’IA, a rendu cette industrie plus accessible et essentielle que jamais. Les Data Engineers chez Smartpoint sont les pilotes de cette révolution, parés pour aider les entreprises à se transformer et à prospérer dans ce nouvel âge de l’information.

3. La promesse d’une carrière au top !

Le domaine de la data engineering est un véritable terreau d’innovations, où chaque jour est synonyme de découverte et d’invention. Chez Smartpoint, cette réalité prend tout son sens, offrant aux Data Engineers une carrière passionnante et jamais monotone. Prenons l’exemple des avancées dans l’analyse prédictive, la personnalisation en temps réel des expériences clients ou encore le développement de villes intelligentes grâce à l’Internet des Objets (IoT). Ces innovations ne sont que la pointe de l’iceberg des projets auxquels nos ingénieurs contribuent. La diversité des projets garantit une carrière challengeante, où l’ennui n’a pas sa place. Qu’il s’agisse de rendre les systèmes de santé plus prédictifs et réactifs ou d’optimiser les chaînes d’approvisionnement grâce à l’intelligence artificielle, les défis abondent, rendant votre parcours professionnel chez Smartpoint exceptionnellement riche et gratifiant.

4. Un métier techniquement exigeant

Le Data Engineer chez Smartpoint est au centre de l’échiquier technologique, collaborant étroitement avec les data analysts et les data scientists pour façonner l’infrastructure de données de l’entreprise. C’est un rôle complexe qui offre une variété et une profondeur technique rarement égalées dans le secteur numérique.

5. Un salaire compétitif et de la formation en continu

Avec des salaires débutant entre 40 et 50 000 € pour les juniors et dépassant les 75 000 € pour les seniors data tech leads en Île-de-France, Smartpoint valorise l’expertise de ses Data Engineers. Non seulement, vous allez participé à des projets passionnants mais nos data tech leads vous forme et vous font monter en compétences sur les dernières innovations technologiques. De plus, un programme de certifications bonifié par des primes à l’obtention renforce cette reconnaissance, affirmant l’engagement de Smartpoint envers la croissance personnelle et professionnelle de ses talents.

Smartpoint, c’est l’endroit rêvé pour les Data Engineers ambitieux. Ici, vous ne trouvez pas seulement un emploi ; vous rejoignez une communauté de pionniers qui façonnent activement l’avenir de la data et, par extension, de la société. SmartPoint est plus qu’une entreprise ; c’est un mouvement où chaque jour est une opportunité d’apprendre, de s’épanouir et de faire une différence. Alors, si l’avant-garde technologique en data vous appelle, la réponse est claire : SmartPoint est THE place to be. Rejoignez nous !

Architecture Data,  micro-services ou monolithique ? Un choix déterminant pour votre infrastructure d’entreprise.

Alors qu’il existe une multitude d’outils et de solutions data qui s’offrent à vous ; vous devez vous interroger sur votre architecture Data – et sa roadmap – car c’est elle qui doit influencer votre stack technologique. Il ne s’agit pas tant de choisir entre architecture monolithique et architecture micro-services que de s’interroger sur la pertinence de votre stratégie data dont l’objectif est de soutenir votre business et vos capacités d’innovations dans la durée. Votre « vision data » va se traduire par une décision architecturale qui définit la manière dont votre entreprise gère et valorise ses données. Explications.

Du on-premise au cloud, c’est aussi une évolution architecturale !

Le paysage technologique des deux dernières décennies a connu une transformation radicale. Hier, les architectures de données étaient intrinsèquement en silos, chaque système fonctionnant en vase clos avec des degrés de compatibilité très limités. Les applications et les données étaient prisonnières d’infrastructures « on-premise » où l’intégration et l’interopérabilité étaient des défis majeurs (et des vrais centres de coûts) qui freinaient la collaboration et la pleine exploitation des données.

Aujourd’hui, le paradigme a basculé vers le « cloud », où se mêlent des configurations hybrides et des solutions on premise toujours très présentes. L’adoption d’architectures en micro-services a radicalement changé l’approche de la conception et de la gestion des données. Cependant, avec cette nouvelle liberté vient la responsabilité de choisir judicieusement parmi un large éventail d’outils éditeurs et de services offerts par divers cloud service providers (CSP). Les micro-services offrent un catalogue de services indépendants, chacun excellant dans sa spécialité et communiquant avec les autres via des interfaces bien définies.

Architectures Data, monolithique vs. micro-services

C’est la configuration traditionnelle que l’on rencontre encore dans la plupart des entreprises. Toutes les fonctions sont regroupée en un seul et unique bloc logiciel. Imaginons par exemple, un énorme référentiel Airflow qui gère à la fois l’ingestion, la transformation des données et l’automatisation des processus métier, comme un guichet unique pour toutes les opérations data.

Avec le cloud, les architectures data ont évolué vers un modèle de micro-services, où chaque service est autonome et spécialisé dans une fonction précise : gestion des données batch, transformation des données ou data warehousing. Citons pour exemples AWS Lambda, Apache Kafka, ou encore Snowflake choisis pour leur efficacité dans leurs domaines respectifs. Chaque service opère indépendamment, permettant une spécialisation et une adaptabilité qui étaient inimaginables dans les architectures en silos du passé.

Quel choix d’outil pour quelle architecture ?

Pour une architecture monolithique : Vous pouvez choisir des outils intégrés capables de gérer l’ensemble du cycle de vie des données au sein d’une même plateforme, tels que Talend ou Informatica. Les solutions comme Microsoft SQL Server Integration Services (SSIS) pour Azure peuvent convenir à ce type d’architecture en offrant un ensemble d’outils unifié.

Pour une architecture microservices : Vous optez pour la spécialisation avec des outils dédiés pour chaque service. AWS Lambda pour l’exécution de code sans serveur, Apache Kafka pour le traitement des flux de données en temps réel, et Snowflake pour le data warehousing sont des exemples de cette diversification des outils. Ou encore Azure Functions pour des scénarios d’intégration événementielle, et Google BigQuery pour l’analyse en volume des données.

Quels critères essentiels à prendre en compte dans votre choix d’architecture data ?

  1. Spécialisation vs. Intégration : L’architecture micro-services comprend la spécialisation (une fonction = un service), mais exige une intégration rigoureuse pour éviter la création de nouveaux silos.
  2. Infrastructure distribuée : Les micro-services optimisent l’efficacité et la scalabilité. AWS Lambda, par exemple, offre une solution de calcul sans serveur, tandis qu’un cluster Kubernetes est préférable pour des charges de travail plus lourdes et constantes. Azure et AWS offrent une variété de services qui s’alignent avec cette approche, comme Azure Event Hubs pour l’ingestion d’événements à grande échelle ou AWS Kinesis pour le streaming de données.
  3. Interopérabilité et gouvernance des données : L’interconnexion entre services est un enjeu majeur ! Les outils d’orchestration comme Apache Airflow peuvent aider … mais cela induit souvent des coûts supplémentaires et de la complexité. L’interopérabilité doit être intégrée dès la conception pour éviter des solutions de gouvernance onéreuses comme les catalogues de données ou des outils d’observabilité. Les services comme Azure Data Factory et AWS Glue facilitent l’orchestration de workflows data et l’intégration de services.
  4. Gestion des coûts : Les architectures microservices peuvent entraîner des coûts de transfert de données inattendus. Des outils comme Apache Kafka réduisent ces coûts en optimisant le traitement des données avant de les déplacer vers des solutions comme Snowflake. Les coûts de transfert et de stockage des données restent un point de vigilance. Les solutions comme Apache Kafka et les services de streaming de données peuvent minimiser ces coûts et optimiser le flux de données.

Architecture Data en micro-services ou monolithique ?

L’architecture choisie est essentielle car elle va déterminer l’efficacité de votre stratégie data. Dans un monde où les fournisseurs de cloud continuent d’innover et d’intégrer des services plus efficaces, les architectures modulaires en micro-services sont appelées à devenir encore plus interconnectées, performantes et économiques. L’avenir des données se dessine dans le cloud, où la complexité cède la place à la connectivité, à toujours plus d’agilité et à l’optimisation des coûts.


Pour aller plus loin :

Solutions IA en entreprises, les DSI au coeur du paradoxe

L’Intelligence Artificielle en entreprise, comment conjuguer innovations et défis technologiques ?

L’IA, une adoption massive par les DSI et des bénéfices évidents … mais des failles qui se creusent

Dans un monde où le progrès technologique est aussi rapide qu’inexorable, les Directeurs des Systèmes d’Information (DSI) jouent un rôle central. Ils doivent orchestrer l’adoption de l’intelligence artificielle (IA), une technologie qui promet de révolutionner non seulement la manière dont nous travaillons mais aussi comment nous envisageons le rapport entre l’humain et la machine. Selon le rapport 2024 Connectivity Benchmark de MuleSoft, 80% des entreprises sont déjà sur la voie de cette révolution et ont déjà adopté plusieurs modèles d’IA. Et cela va s’accélérer avec une augmentation prévue de 78% dans les trois années à venir.

Les gains sont tangibles :

  • une productivité accrue chez 85% des développeurs, selon les DSI.
  • Près de 50% des informaticiens considèrent que l’IA fait gagner du temps face à l’accroissement des tâches chronophage en gagnant cinq heures par semaine, afin de se consacrer aux travaux plus complexes difficiles à automatiser (étude « State of Workplace Technology » de Freshworks 2023)

Cependant, cette adoption ne va pas sans son lot de défis. L’intégration de l’IA dans les écosystèmes IT existants s’avère difficile pour 90% des DSI, avec des problématiques de sécurité et le défi incessant des silos de données qui freinent 80% des entreprises dans leur transformation numérique.

Le casse-tête du patrimoine informatique et l’impératif d’intégration inter-applicative

Imaginez gérer un patrimoine de près de 1000 applications différentes, dont la durée de vie moyenne est inférieure à quatre ans. Cette réalité est le quotidien de nombreuses entreprises, où seulement un quart d’entre elles réussissent notamment à offrir une expérience client multi-canal cohérente. L’intégration est devenu un impératif stratégique, mais aussi un défi colossal. Comment allier l’impératif de gestion d’un tel patrimoine avec celui de l’innovation continue ?

Sécurité et éthique : des considérations devenues primordiales

La sécurité et l’éthique de l’utilisation de l’IA sont au cœur des préoccupations pour 79% et 64% des DSI respectivement. Ces enjeux, souvent relégués au second plan lors de l’implémentation initiale de l’IA, se retrouvent désormais au premier plan, nécessitant une réaction rapide et conforme aux futures régulations, telles que l’AI Act européen qui sera pleinement en vigueur d’ici fin 2025.

Ainsi, si près de la moitié des DSI vont adopter une solution IA en 2024 … seulement 28% des applications y seront connectées.

Smartpoint, partenaire stratégique des DSI pour relever les défis de l’IA

Smartpoint se positionne comme le partenaire stratégique des DSI pour relever ces défis. Notre approche se focalise sur l’intégration intelligente de l’IA, soutenue par une gestion experte et responsable des données. Nous proposons :

  • Des stratégies d’intégration personnalisées, adaptées à l’environnement multi-applicatif des entreprises modernes.
  • Des solutions pour démanteler les silos de données, créant une gouvernance des données unifiée et efficace.
  • Une expertise pointue en matière de sécurité et d’éthique de l’IA pour assurer une conformité sans faille et une innovation éthique.

Êtes-vous prêt à transformer les défis de l’IA en opportunités ?

Source et pour aller plus loin :

Data, les top tendances 2024.

2023 a été très dense et rythmée notamment par les avancées technologiques spectaculaires de l’IA générative … mais pas que ! Exercice de début d’année oblige, Smartpoint, pure player data depuis 2006, vous dévoile ses prédictions pour 2024.

01

Une alternative pour outiller votre pipeline en open source ? C’est à lire ici avec notre top 5 outils.

04

L’adoption des grands modèles de langages (LLM) transforme l’interprétation des données sur de larges volumes et les rend compréhensibles pour le plus grand nombre. Ils ont d’ailleurs contribué à améliorer considérablement les performances du NLP.

Ils permettront de toujours mieux identifier des tendances, de mener des analyses plus fines et surtout plus pertinentes.

La conception et de le déploiement de modèles avancés de ML sont d’ailleurs devenus beaucoup plus accessibles (et rapides !) pour les ingénieurs data alors qu’ils étaient, jusqu’alors, réservés à des professionnels très expérimentés et spécialisés.

02

La Data Fabric fournit une vue unifiée avec un accès centralisé aux données et leur intégration dans un écosystème data distribué. Elle peut se connecter à des sources qui sont dans le cloud ou dans des environnements on-premise.

Le Data Mesh est une architecture décentralisée axée Domaine où les données sont traitées et gouvernées par des équipes qui en ont la responsabilité – comme un produit – permettant ainsi une infrastructure en libre service.

Leur adoption va permettre aux entreprises de gérer plus efficacement des écosystèmes toujours plus denses, et complexes ; de manière plus fluide, plus flexible et surtout plus évolutive dans la durée.

05

La Data a elle aussi sa part de responsabilité à assumer et c’est possible (à lire ici).

Ainsi, on devrait voir enfin des considérations liées à l’empreinte carbone influer sur les choix des entreprises. La futur est dans des solutions plus sobres et vertueuses dès la phase de conception, au plus juste des usages attendus, moins gourmandes en termes d’échanges de données ou encore en consommation de ressources (traitement, calculs, stockage).

L’impact environnemental des systèmes data va progressivement s’appréhender sur l’ensemble de leur cycle des vie, de leur développement à leur décommisionnement.

Les critères ESG vont venir réguler les pratiques et c’est une bonne nouvelle pour l’ensemble de la profession.

03

Ainsi, les tâches répétitives, chronophages et souvent sources d’erreurs sont prises en charge par des outils toujours plus intelligents notamment en nettoyage et intégration des données.

Il en est de même, grâce aux avancées en IA et en apprentissage automatique, pour le processus de data discovery et celui d’amélioration de la qualité des données (data quality) qui jusqu’alors demandaient beaucoup d’opérations manuelles.

06

écrivons ensemble le futur de la data et inventons les usages de demain.

Data Fabric, cette architecture de data management gagne du terrain et la gouvernance des données fait la différence.

La data fabric permet aux entreprises d’intégrer, de gérer, d’exploiter et d’analyser un volume toujours plus important de données issues de multiples sources (datalakes, applications, bases de données traditionnelles, plateformes cloud, etc.) en temps réel, en utilisant la puissance de l’IA et du ML pour automatiser notamment le traitement des données mais aussi le génération d’insights.

Elle permet surtout de rapprocher les consommateurs de données avec ceux qui sont en charge de son ingénierie !

Comment est ce que la Data Fabric améliore la gouvernance des données ? C’est dans le concept même de cette architecture. Rappelons en effet que les données sont traitées comme un produit et sont d’ailleurs nommées « Data Product ». Chaque data product est conçu comme la plus petite entité cohérente possible afin de favoriser la ré-usabilité des données dans différentes contextes ou usages de consommation.

Les données sont un actif développé, testé et mis à disposition d’utilisateurs qui les consomment. Chaque Data Product est sous la responsabilité d’une équipe propriétaire indépendante qui connait le domaine. Elle se porte garante de sa création, de son intégrité, de sa qualité, de son accessibilité, du delivery et de sa durabilité.

Les données sont créées via l’utilisation de modèles standardisés selon des normes de qualité. Elles sont donc testées pour s’assurer de leur fiabilité et de leur interopérabilité.

La Data Fabric vous permet d’avoir une vue d’ensemble unifiée de toute l’infrastructure data car toutes les données sont lisibles au même endroit. Les données sont interconnectées, fédérées et sécurisées.

Cette approche permet enfin de lutter efficacement sur les silos, de réduire les doublons de données, d’éliminer des cohérences et la sous-exploitation des données collectées. C’est également une meilleure optimisation du stockage et des ressources nécessaires au traitement.

Les utilisateurs ont également un accès facilité à des données temps réel, ce qui leur permet de tester, d’explorer, de découvrir des tendances, d’itérer plus rapidement et donc d’innover ou de réagir plus vite.

Réalisé avec DALL-E

Quels sont les principaux challenges pour intégrer votre Data Fabric ?

  • Complexité du Data Legacy qui ne permet pas l’interopérabilité et manque de flexibilité (et d’évolutivité)
  • Interopérabilité et standardisation alors que les entreprises ont de multiples outils et utilisent aujourd’hui plusieurs plateformes
  • Qualité des données et cela suppose souvent un chantier de nettoyage, redressement et normalisation qui peut être long
  • Intégration de sources diverses, disparates et généralement en silos
  • Gouvernance nécessaire et souvent complexe (gestion des métadonnées, compliance, sécurité, etc.) dans un environnement par nature distribué et dynamique
  • Manque de compétences en interne car c’est une approche best-of-breed
  • Résistance au changement
  • Maintenance continue dans la durée

BigQuery ou Snowflake ?

Tous deux sont leaders en cloud data warehouses mais quelle plateforme choisir ?

Ce n’est pas la même architecture, ni le même mode de facturation !

Snowflake utilise des capacités séparées de stockage (basé sur des objets) et de calcul (basé sur un modèle d’entrepôt virtuel). Ainsi, il offre de grandes capacités en termes de scalabilité, d’élasticité et de performance. Il permet de palier aux problèmes de sur-dimensionnement en utilisant seulement (et en ne payant) que les ressources dont les utilisateurs ont besoin. La plateforme est très appréciée pour sa facilité de configuration et d’utilisation.
Snowflake facture selon l’utilisation des capacités de stockage et la puissance de calcul nécessaire sur la base de crédit / heure.

BigQuery est serverless et donc augmente automatiquement les ressources en fonction des besoins. Les utilisateurs n’ont plus à se préoccuper de la gestion de l’infrastructure. Sa promesse ? Simplicité et facilité d’utilisation. Le stockage est en colonnes, il est donc optimisé pour les charges analytiques avec des requêtes rapides sur de larges volumes (contrairement aux formats traditionnels).

La couche de calcul est basée sur un modèle de « slots », les utilisateurs peuvent utiliser autant de requêtes qu’ils souhaitent, tant qu’ils ont les slots suffisants pour les lancer sur leurs volumes.
BigQuery facture en fonction des capacités de stockage (actif et inactif), le volume de traitement de données et les insertions en streaming.

A noter que BigQuery n’est disponible que sur Google Cloud … alors que Snowflake est agnostique, il est donc disponible sur toutes les principales plateformes AWS, Azure et GCP mais aussi opérant en cross-clouds.

Vous vous demandez quelle est la plateforme Data Cloud la mieux adaptée à vos besoins et à vos usages spécifiques ? Nos consultants vous accompagnent dans vos choix, laissez-nous un message, nous vous rappelons sous 24 heures.

Les DevOps ont connait ! Mais les DataOps ?

Alors qu’on considère de plus la Data as a Product, les deux rôles peuvent sembler similaires puisque le DevOps se concentre sur le Software as a Product. Et il est vrai que les deux se concentrent sur la qualité de leurs produits respectifs, l’anticipation et la résolution des problèmes qui peuvent affecter l’efficacité de l’entreprise.

Le DataOps est focalisé sur la production de données de qualité et les données sont le produit.

Le DevOps lui se concentre sur la qualité du code et les modifications ou évolutions des applications mais ne regarde pas vraiment les spécifiés liées aux données alors qu’en DataOps, dès que l’on touche au code et qu’on met en production, on vérifie l’intégrité des métadonnées pour qu’elles soient conformes aux attendus.


Le DevOps se concentre sur le déploiement et les tests des modifications apportées au niveau du code dans tous les différents environnements ; puis la validation avec ceux qui ont fait ces changements.

Il met en place les pipelines CI/CD (Jenkins, Gitlab par ex) et les tests nécessaires.

En général les DevOps n’écrivent pas le code qu’ils déploient, ils ne vérifient pas sa qualité ni si le code est bien optimisé mais ils encouragent les code review et mettent en place des tests automatisés qui participent à la qualité du code. Ils sont souvent aussi impliqués dans le codage de scripts pour automatiser les processus.

Ils gèrent l’infrastructure qui supporte le code dont le dimensionnement et la validation des ressources cloud nécessaires (clusters) avec des outils comme Docker, Kubernetes, Ansible (…).  

Le DevOps est focusé sur la qualité du delivery et la stabilité de l’environnement de production. Il doit limiter au maximum les temps d’arrêt, ce qui est l’indicateur le plus utilisé en termes de suivi de ses performances.


Le DataOps est quant à lui sur la data as a product, il n’est pas focusé sur la partie logicielle de base mais sur la qualité des métadonnées, c’est-à-dire les plus précises, fiables et fraiches possibles.

Le DataOps n’est pas tant une « fonction » ou un profil en tant que tel en ingénierie des données mais davantage un rôle avec une méthodologie distincte et un ensemble de tâches que chaque ingénieur des données doit intégrer dans son travail au quotidien avec des outils spécifiques (Apache Aitrflow par exemple). C’est un processus d’amélioration continue de bout-en-bout qui vise aussi à automatiser les flux relatifs aux données (collecte, traitement puis analyse).

Du moins, c’est comme cela que nous l’envisageons chez Smartpoint. En effet, dans nos missions, chaque data engineer doit avoir la capacité de valider les modèles et les données qui sont produites, il mène ses propres tests, il en assure le monitoring et il contrôle la qualité de l’intégration des données dans le système data existant chez nos clients.

Comme le DevOps, le DataOps applique les pratiques agiles, met en place un pipeline CI/CD afin de fiabiliser les changements et un outil de contrôle des versions. Il peut également nécessiter la mise en place de d’environnements de tests pour valider les impacts des changements apportés aux données sources ou aux modèles.

Il est donc focusé sur la qualité des données et la gouvernance. Pour mesurer ses performances, on utilise les mêmes critères qu’en observabilité (disponibilité et fréquence des données, fraicheur, etc).

    Prénom*

    Nom*

    Société*

    E-mail*

    Téléphone*

    Objet*

    Message

    L’IA générative dans le secteur bancaire, c’est chose faite avec Temenos !

    Cette nouvelle solution permet de catégoriser les transactions bancaires de manière automatisée et sécurisée. Ainsi, les banques sont en capacités de communiquer des informations pertinentes et des recommandations en termes d’offres et de produits toujours plus personnalisées. Résultat, une meilleure expérience client digitale et des parcours bancaires numériques inédits.

    Et c’est une première ! Temenos est en effet le premier éditeur à déployer l’IA générative et les grands modèles de langages (LLM) dans le secteur bancaire, ce qui permet de mieux comprendre le langage mais aussi la vidéo, l’audio, les images et le code et donc d’ouvrir de nouveaux champs des possibles encore inexplorés en termes d’innovations.

    La précision et la rapidité de la catégorisation permet notamment de choisir le meilleur produit en fonction de la prédiction du flux de trésorerie, de délivrer des conseils pour les budgets clients comme l’optimisation des déclarations fiscales, une analyse encore plus fine de l’attrition …

    Non seulement ce nouveau produit est désormais intégré à la plateforme Temenos mais il peut aussi être déployé de manière indépendante via API.

    La solution est également robuste en termes de sécurité avec des modèles d’entraînement basés sur des données anonymisées et le déploiement des modèles finaux dans l’environnement du client, sans partage d’informations avec des parties externes.

    L’IA est déjà intégrées dans de nombreuses solutions proposées par Temenos qui permettent d’améliorer les performances dans la lutte contre le blanchiment, la minimisation de l’attrition, l’évaluation des risques et la tarification sur mesure notamment.

    Cas d’usages de l’IA dans le secteur bancaire, c’est déjà une réalité !

    1. Personnalisation des services et des produits financiers : Utilisation de l’IA pour proposer des produits bancaires sur mesure basés sur les comportements, les transactions et les préférences des clients.
    2. Gestion de la relation client : Amélioration de l’interaction client grâce à des chatbots intelligents et des assistants virtuels capables de gérer des demandes toujours plus complexes.
    3. Détection de fraude : Application de l’IA dans les systèmes de détection de fraude pour identifier les transactions suspectes en temps réel.
    4. Automatisation de la conformité : l’IA aide les banques à respecter les réglementations en matière de lutte contre le blanchiment d’argent (AML) et de connaissance du client (KYC).
    5. Optimisation du crédit : Analyse prédictive pour évaluer la solvabilité et le risque de crédit des emprunteurs de manière plus précise.

    temenos IA banque expertises integration

    Image générée par DALL-E

    Le saviez-vous ? Chez Smartpoint, nous avons une practice Modern Banking spécialisée sur Temenos et T24, vous souhaitez expérimenter ces avancées technologiques via un POC ? Challengez-nous !

    Data Mesh, une révolution en ingénierie des données … par la décentralisation.



    En ingénierie data, c’est en effet en train de devenir la pierre angulaire des nouvelles pratiques. Au-delà de changer l’approche même de la data, il permet de remettre à plat la stratégie pour traiter et exploiter pleinement leur potentiel. Au cœur de cette « révolution », le data mesh traite les données comme un produit et prône une propriété décentralisée et distribuée des données orientée vers le domaine.

    Les Data Products sont dont conçus, développés et maintenus en fonctions des besoins spécifiques de leur domaine, conformément aux principes fondamentaux de l’approche Data Mesh.

    Les principes fondamentaux de cette architecture data, de sa conception à son exécution.

    • Les données sont l’actif principal : Toute décision concernant la conception et l’architecture doit être prise en fonction des données qui sont traitées comme des produits. Elles ne sont plus une ressource cachée, mais un produit concret avec une propriété claire et des règles d’accessibilité précises.
    • La gouvernance des donnée est décentralisée : Les propriétés et le contrôle des données sont distribués parmi différents domaines et les équipes en charge de ces domaines. Les équipes de domaine sont responsables de la qualité, de l’accessibilité et de la compréhension des données, garantissant ainsi que les données sont entre les mains de ceux qui les connaissent le mieux !
    • La conception pilotée par le domaine, Domain Driven Design, est par nature adaptée à ce type d’architecture. Le développement piloté par des composants autonomes et réutilisables, Component-Driven Developement, fournit la modularité nécessaire pour la mettre en oeuvre. Dans un data mesh, ces composants correspondent à des pipelines de données, des traitements ou des systèmes de delivery des données spécifiques aux domaines.
    • L’intéropérabilité des données : Un schéma de données commun favorise un échange fluide des données entre les différents systèmes.
    • Une architecture basée sur les événements : L’échange de données s’effectue en temps réel au fur et à mesure que les événements se produisent.
    • La sécurité des données : La protection des données est réalisée via grâce à des mesures telles que le contrôle des d’accès et le chiffrement.
    • La scalabilité et résilience : l’architecture est conçue nativement pour gérer de grands volumes de données et résister aux défaillances.

    Les avantages d’une architecture Data Mesh

    La scalabilité :

    Le Data Mesh, c’est une méthode évolutive qui permet de connecter des sources de données via plusieurs plateformes et domaines. Ainsi, vous pouvez rajouter facilement de nouvelles sources au fur et à mesure que vos besoins évoluent.

    La flexibilité :

    Le Data Mesh est très flexible et prend en charge de multiples protocoles et formats de données et protocoles. Ainsi, vous pouvez utiliser différents systèmes et applications vous soucier d’éventuels problèmes de compatibilité entre les données.

    La résilience :

    Le data mesh offre une architecture robuste capable de résister aux pannes et d’assurer un échange de données en continu. Vous pouvez compter dessus même pour l’échange de données critiques sans vous préoccuper des temps d’arrêt ou des pertes de données (lors des opérations de maintenance par exemple).

    La sécurité :

    Le Data Mesh offre une manière sécurisée d’échanger des données à travers différents domaines et plateformes. Vos données sont donc par nature protégées contre tous accès non autorisés.

    Le Data Mesh n’est pas qu’un simple buzz word mais bien un changement de paradigme en ingénierie des données qui s’appuie sur des changement majeurs : la donnée est considérée comme un produit accessible, l’infrastructure est en en libre-service, une plateforme de données as a product et une gouvernance axée sur des domaines spécifiques propriétaires.

    Comment concevoir votre Data Mesh via le Domain Driven Design (DDD) et le Composant Driven Developement (CDD) ?

    La première étape consiste à identifier et délimiter vos différents domaines via le domain driven design (DDD). Cela permet de se concentrer sur le périmètre précis de chaque domaine, les relations entre eux, les processus associés, etc. Dès lors, vous avez la base de vos Data Products ! Reste à cartographier votre « paysage » de données, c’est à dire comment le domaine consomme les données, comment elles circulent, qui les exploitent, à quoi elles servent et quelles sont leurs valeurs ajoutées. Une fois le paysage posé, vous devez définir clairement votre domaine et ses limites en vous concentrant sur les données spécifiques à ce domaine en particulier et les processus associés, c’est ce qui va permettre de définir les responsabilités de chacun, puis d’attribuer la propriété des data products. C’est le principe même du data-mesh, responsabiliser les équipes les plus à même de comprendre leurs données et de gérer leur domaine !

    Une fois vos « produits de données » définis, le composant-driven developement vous permet de réaliser votre architecture en décomposant votre domaine en petits composants indépendants, autonomes, faciles à gérer et réutilisables. Chaque composant est associé à une tache spécifique comme l’ingestion, la transformation, le stockage ou encore la livraison des données. Ils sont développés, testés et déployés de manière indépendante.

    Il ne vous reste plus qu’à assembler votre data-mesh ! Chaque composant interagit avec les autres pour former un système cohérent avec des protocoles de communication normalisés et des APIs pour garantir l’intéropérabilité entre les composants.

    Je souhaite moderniser mon architecture data. Nos consultants vous accompagnent dans vos choix pour trouver la meilleure solution architecturale. Laissez-nous un message :

    Pour aller plus loin :

    https://medium.com/@msalinas92/understanding-datamesh-implementation-advantages-and-examples-3f8e0ad9071e

    Migration de Teradata vers Snowflake. Effet de mode ou nécessité ?

    Avis de notre expert, El Mahdi EL MEDAGHRI EL ALAOUI, Data Platform Practice Manager

    Récemment, la question de la migration de Teradata vers Snowflake est devenue récurrente parmi les architectes de données et les entreprises utilisatrices. Ce dilemme est souvent posé sous l’angle des avancements architecturaux, de la gestion de la charge de travail, de la rentabilité et de la scalabilité. Est-ce que ce mouvement migratoire est une simple tendance ou repose-t-il sur des fondements solides de nécessités technologiques et économiques ?

    1. L’ARCHITECTURE

    La différence architecturale entre Teradata et Snowflake est le socle de la discussion sur la migration. Teradata, avec son architecture de type « shared-nothing », a longtemps été un incontournable dans la gestion efficace de grands volumes de données. Dans cette architecture, chaque nœud fonctionne indépendamment avec son propre CPU, mémoire et stockage, assurant un environnement robuste de traitement parallèle.

    De l’autre côté, l’architecture cloud multi-cluster “shared data architecture” de Snowflake ouvre de nouvelles perspectives. En séparant les ressources de calcul et de stockage, Snowflake apporte un niveau de scalabilité horizontale et verticale, offrant un environnement agile pour une performance de requête plus rapide, même avec des requêtes de données complexes.

    2. LA GESTION DE LA CHARGE DE TRAVAIL

    La gestion des Workload dans Teradata est assez mature, avec des outils sophistiqués comme Teradata Active System Management (TASM) offrant un contrôle granulaire sur les ressources du système. Cela contraste à notre sens avec l’approche minimaliste de Snowflake qui s’appuie sur son architecture pour gérer automatiquement les charges de travail, ce qui pourrait être considéré comme un avantage … ou une limitation selon les cas d’utilisation.

    3. LE COÛT ET L’AGILITÉ

    L’investissement initial et les coûts de maintenance et d’administration de Teradata peuvent représenter une charge importante, en particulier pour les organisations avec des besoins fluctuants en matière de traitement de données. Le modèle de tarification basé sur la consommation de Snowflake (1€ par jour par téraoctet de stockage) apparait comme une alternative financièrement plus intéressante. Cette approche pay-as-you-go est de plus en plus populaire en termes de mode de consommation des technologies, beaucoup la trouve plus rentable et surtout plus agile.

    4. LA PERFORMANCE ET SON OPTIMISATION

    L’optimisation des performances est au cœur de tout système de gestion de bases de données. Teradata dispose de mécanismes bien huilés pour le tuning SQL et l’optimisation des plans d’exécution. Snowflake, bien que n’ayant pas certaines fonctionnalités avancées de tuning, compense en exploitant son architecture et les ressources cloud pour fournir des améliorations des performances à la demande.

    5. LA SCALABILITÉ ET L’ÉLASTICITÉ

    Teradata, traditionnellement reconnu pour la puissance de son architecture on-premise, a innové avec la fonctionnalité Epod (Elastic Performance on Demand) au sein de sa plateforme IntelliFlex. Cette avancée technologique permet de mobiliser des ressources machine CPU/IO supplémentaires pour faire face à des pics de charge via une simple requête. C’est un véritable virage vers une plus grande élasticité de son infrastructure.

    Snowflake bénéficie quant à lui de son infrastructure cloud « native » et se distingue par ses capacités en termes de scalabilité et d’élasticité. Il est en effet capable d’allouer automatiquement des ressources en fonction des besoins et des variations de charges, une faculté particulièrement précieuse pour gérer les pics de charge de travail ou les flux soudains de données.

    En conclusion

    La migration de Teradata vers Snowflake n’est pas un phénomène passager mais semble être enracinée dans des considérations technologiques et économiques de fond. L’innovation architecturale de Snowflake adossée à un environnement plus rentable, scalable et relativement auto-gérable, représente un argument de poids pour les organisations qui cherchent à moderniser leur infrastructure de gestion de données. Cependant, avec ses fonctionnalités robustes, matures et éprouvées ; Teradata reste une valeur sûre pour beaucoup de clients et incontournable dans certains cas d’utilisation. De plus, en réponse à la concurrence croissante des nouveaux entrant, Teradata innove ! L’éditeur a lancé notamment une nouvelle offre, « Teradata Vantage Cloud Lake », qui vient rivaliser avec Snowflake sur le terrain du native-cloud.

    Comme toute migration technologique, le passage de Teradata à Snowflake doit être minutieusement réfléchi et rapporté au contexte propre des exigences organisationnelles, des ressources financières et des stratégies de gestion des données à long terme de chaque organisation.

    Quels challenges relever pour migrer vers Snowflake ?

    Comme tout processus de migration, cela peut se révéler long et complexe surtout sur de très larges volumes.

    Smartpoint vous accompagne pour planifier ce chantier en termes d’étapes, de délais et de risques : devez-vous nettoyer et transformer vos données avant de migrer ? est-ce que vos applications sont compatibles avec Snowflake ? Comment préserver la sécurité des données 

    Vous avez un projet de migration de Teradata vers Snowflake, interrogez-nous !

    Pour aller plus loin :