Data, les top tendances 2024.

2023 a été très dense et rythmée notamment par les avancées technologiques spectaculaires de l’IA générative … mais pas que ! Exercice de début d’année oblige, Smartpoint, pure player data depuis 2006, vous dévoile ses prédictions pour 2024.

01

Une alternative pour outiller votre pipeline en open source ? C’est à lire ici avec notre top 5 outils.

04

L’adoption des grands modèles de langages (LLM) transforme l’interprétation des données sur de larges volumes et les rend compréhensibles pour le plus grand nombre. Ils ont d’ailleurs contribué à améliorer considérablement les performances du NLP.

Ils permettront de toujours mieux identifier des tendances, de mener des analyses plus fines et surtout plus pertinentes.

La conception et de le déploiement de modèles avancés de ML sont d’ailleurs devenus beaucoup plus accessibles (et rapides !) pour les ingénieurs data alors qu’ils étaient, jusqu’alors, réservés à des professionnels très expérimentés et spécialisés.

02

La Data Fabric fournit une vue unifiée avec un accès centralisé aux données et leur intégration dans un écosystème data distribué. Elle peut se connecter à des sources qui sont dans le cloud ou dans des environnements on-premise.

Le Data Mesh est une architecture décentralisée axée Domaine où les données sont traitées et gouvernées par des équipes qui en ont la responsabilité – comme un produit – permettant ainsi une infrastructure en libre service.

Leur adoption va permettre aux entreprises de gérer plus efficacement des écosystèmes toujours plus denses, et complexes ; de manière plus fluide, plus flexible et surtout plus évolutive dans la durée.

05

La Data a elle aussi sa part de responsabilité à assumer et c’est possible (à lire ici).

Ainsi, on devrait voir enfin des considérations liées à l’empreinte carbone influer sur les choix des entreprises. La futur est dans des solutions plus sobres et vertueuses dès la phase de conception, au plus juste des usages attendus, moins gourmandes en termes d’échanges de données ou encore en consommation de ressources (traitement, calculs, stockage).

L’impact environnemental des systèmes data va progressivement s’appréhender sur l’ensemble de leur cycle des vie, de leur développement à leur décommisionnement.

Les critères ESG vont venir réguler les pratiques et c’est une bonne nouvelle pour l’ensemble de la profession.

03

Ainsi, les tâches répétitives, chronophages et souvent sources d’erreurs sont prises en charge par des outils toujours plus intelligents notamment en nettoyage et intégration des données.

Il en est de même, grâce aux avancées en IA et en apprentissage automatique, pour le processus de data discovery et celui d’amélioration de la qualité des données (data quality) qui jusqu’alors demandaient beaucoup d’opérations manuelles.

06

écrivons ensemble le futur de la data et inventons les usages de demain.

Data Fabric, cette architecture de data management gagne du terrain et la gouvernance des données fait la différence.

La data fabric permet aux entreprises d’intégrer, de gérer, d’exploiter et d’analyser un volume toujours plus important de données issues de multiples sources (datalakes, applications, bases de données traditionnelles, plateformes cloud, etc.) en temps réel, en utilisant la puissance de l’IA et du ML pour automatiser notamment le traitement des données mais aussi le génération d’insights.

Elle permet surtout de rapprocher les consommateurs de données avec ceux qui sont en charge de son ingénierie !

Comment est ce que la Data Fabric améliore la gouvernance des données ? C’est dans le concept même de cette architecture. Rappelons en effet que les données sont traitées comme un produit et sont d’ailleurs nommées « Data Product ». Chaque data product est conçu comme la plus petite entité cohérente possible afin de favoriser la ré-usabilité des données dans différentes contextes ou usages de consommation.

Les données sont un actif développé, testé et mis à disposition d’utilisateurs qui les consomment. Chaque Data Product est sous la responsabilité d’une équipe propriétaire indépendante qui connait le domaine. Elle se porte garante de sa création, de son intégrité, de sa qualité, de son accessibilité, du delivery et de sa durabilité.

Les données sont créées via l’utilisation de modèles standardisés selon des normes de qualité. Elles sont donc testées pour s’assurer de leur fiabilité et de leur interopérabilité.

La Data Fabric vous permet d’avoir une vue d’ensemble unifiée de toute l’infrastructure data car toutes les données sont lisibles au même endroit. Les données sont interconnectées, fédérées et sécurisées.

Cette approche permet enfin de lutter efficacement sur les silos, de réduire les doublons de données, d’éliminer des cohérences et la sous-exploitation des données collectées. C’est également une meilleure optimisation du stockage et des ressources nécessaires au traitement.

Les utilisateurs ont également un accès facilité à des données temps réel, ce qui leur permet de tester, d’explorer, de découvrir des tendances, d’itérer plus rapidement et donc d’innover ou de réagir plus vite.

Réalisé avec DALL-E

Quels sont les principaux challenges pour intégrer votre Data Fabric ?

  • Complexité du Data Legacy qui ne permet pas l’interopérabilité et manque de flexibilité (et d’évolutivité)
  • Interopérabilité et standardisation alors que les entreprises ont de multiples outils et utilisent aujourd’hui plusieurs plateformes
  • Qualité des données et cela suppose souvent un chantier de nettoyage, redressement et normalisation qui peut être long
  • Intégration de sources diverses, disparates et généralement en silos
  • Gouvernance nécessaire et souvent complexe (gestion des métadonnées, compliance, sécurité, etc.) dans un environnement par nature distribué et dynamique
  • Manque de compétences en interne car c’est une approche best-of-breed
  • Résistance au changement
  • Maintenance continue dans la durée