Agents AI, Modèles LLM et l’économie des tokens, une nouvelle révolution industrielle numérique ?

L’émergence des Large Language Models (LLMs) et des agents AI redéfinissent la manière dont les entreprises interagissent avec les systèmes numériques. Alors que ces technologies transforment la production, elles inaugurent également une nouvelle économie basée sur les tokens et les ressources informatiques, créant une concurrence féroce entre les géants technologiques. Aujourd’hui, la capacité à exécuter des modèles LLM localement devient cruciale pour répondre aux besoins de confidentialité et d’efficacité des entreprises. Des outils comme LM Studio et Jan permettent désormais aux entreprises de tirer parti des LLMs sans avoir à envoyer leurs données à des serveurs distants.

L’économie des tokens, la nouvelle monnaie de l’IA ?

Les tokens sont la base de l’économie des LLMs. Un token est une unité de texte utilisée par les LLMs pour traiter et générer des réponses. Ces tokens servent de monnaie d’échange pour les services IA, en mesurant la valeur des tâches effectuées par les modèles, qu’il s’agisse de rédiger un article, d’analyser des données ou d’effectuer des calculs complexes.

Les entreprises investissent des milliards dans le développement des LLMs, où les coûts sont souvent calculés en fonction du nombre de tokens utilisés. Les modèles LLM sont jugés selon trois critères principaux : la qualité, la latence, et le coût de génération des tokens. Par exemple, des entreprises comme OpenAI ont réduit le coût de génération de tokens de GPT-4 de 80 % en un an et demi, facilitant l’intégration de cette technologie dans des applications à grande échelle.

L’émergence des LLMs locaux pour préserver la confidentialité et gagner en efficacité

De nombreuses entreprises cherchent des solutions pour exécuter des LLMs localement afin de garantir une confidentialité maximale des données. Des outils comme LM Studio, Jan et GPT4ALL permettent aux utilisateurs d’exécuter des LLMs sans connexion à des serveurs distants, en gardant toutes les données localement sur leurs machines. Cela offre plusieurs avantages :

  1. Confidentialité : Les LLMs locaux permettent de traiter des données sensibles sans les envoyer à des API externes. C’est un atout essentiel pour de nombreux secteurs d’activité où les préoccupations en matière de protection des données sont critiques.
  2. Personnalisation : Ces outils offrent des options avancées de personnalisation, permettant de configurer des paramètres tels que la température, la longueur du contexte ou les threads CPU, tout en restant compatibles avec plusieurs plateformes (Windows, Mac, Linux).
  3. Coûts réduits : Contrairement aux services en ligne où chaque requête API est facturée, les LLMs locaux ne nécessitent pas d’abonnement mensuel, ce qui permet de réduire les coûts, surtout pour des entreprises qui exécutent des milliers de tâches quotidiennes.

Les agents AI et l’appel d’outils pour plus de modularité et d’actions exécutables

Dans le cadre des agents AI, l’utilisation de LLMs locaux permet d’enrichir les capacités d’interaction tout en garantissant une efficacité accrue. Les Large Action Models (LAMs), qui transforment les réponses textuelles en actions exécutables, jouent un rôle clé dans l’automatisation des tâches complexes en temps réel. Ces agents AI sont capables d’appeler des outils externes pour exécuter des tâches spécifiques, comme des appels API, des recherches d’information ou des calculs.

Les modèles LLM locaux peuvent être utilisés pour configurer des serveurs d’inférence locaux, imitant les capacités d’API comme celles d’OpenAI, sans jamais connecter l’application à Internet. Par exemple, des outils comme LM Studio permettent aux développeurs de configurer un serveur HTTP local pour accéder à des modèles comme Mistral ou Llama 3.1, facilitant ainsi l’intégration dans des workflows IA sans compromettre la confidentialité des données.

Défis et avantages des LLMs Locaux

Si les LLMs locaux offrent des avantages indéniables en termes de confidentialité et de coûts, ils présentent également certains défis :

  1. Ressources matérielles : L’exécution de LLMs localement nécessite des ressources matérielles spécifiques, notamment des GPU ou des processeurs puissants. Les outils comme Llamafile et GPT4ALL sont conçus pour fonctionner sur des machines équipées de puces M1/M2 d’Apple ou de processeurs Intel/AMD compatibles avec des technologies d’inférence telles que Vulkan.
  2. Performance et rapidité : Bien que ces outils permettent de garder les données hors des serveurs cloud, ils peuvent être moins performants que les LLMs basés sur des serveurs distants. Par exemple, l’outil Ollama propose une solution locale pour exécuter des modèles LLM sans API, mais nécessite une configuration matérielle robuste pour offrir des résultats optimaux.
  3. Personnalisation et Fine-tuning : Les modèles locaux permettent également une plus grande flexibilité en matière de personnalisation. Les utilisateurs peuvent affiner les modèles pour des tâches spécifiques en ajustant des paramètres comme la longueur des tokens ou la température. Des outils comme Jan et LLaMa.cpp offrent des options de personnalisation poussées, permettant aux développeurs de maximiser l’efficacité des modèles dans des environnements spécifiques.

Bientôt des agents AI Autonomes !

L’utilisation d’agents AI autonomes combinant des LLMs locaux et des outils d’appel de fonctions comme les LAMs permet de créer des systèmes capables de résoudre des problèmes complexes de manière modulaire et décentralisée. Dans cette course à l’automatisation, les modèles basés sur des tokens sont devenus la nouvelle monnaie de l’économie numérique, facilitant la facturation des services IA et ouvrant la voie à une nouvelle vague d’innovation technologique.

Avec l’intégration de fenêtres contextuelles plus longues, les LLMs locaux offrent des opportunités inédites pour traiter de grandes quantités de données et exécuter des tâches sur plusieurs étapes, comme des analyses complexes de documents ou des consultations médicales sécurisées. Cette flexibilité est particulièrement précieuse dans des environnements où la connectivité Internet est limitée, ou dans des secteurs où la sécurité des données est primordiale.

Agents AI, LLMs et LAMs, de quoi parle t’on ?

  • Agents AI : Systèmes autonomes ou semi-autonomes capables de réaliser des tâches en interagissant avec des environnements numériques, en utilisant des modèles d’intelligence artificielle pour planifier, raisonner et appeler des outils comme des APIs ou des programmes.
  • Large Language Models (LLMs) : Modèles d’intelligence artificielle entraînés sur de grandes quantités de données textuelles pour comprendre, générer et manipuler du langage naturel. Ils sont utilisés pour répondre à des questions, rédiger des textes et effectuer des tâches conversationnelles.
  • Large Action Models (LAMs) : Modèles conçus pour transformer des instructions linguistiques en actions exécutables, permettant aux agents AI de passer de la simple génération de texte à l’exécution de tâches spécifiques, comme des appels d’API ou des requêtes de données.

L’avènement des LLMs locaux marque un tournant dans l’économie des agents AI, où la capacité à traiter des données hors ligne et en toute sécurité devient un facteur clé de différenciation. Des outils comme LM Studio, Jan, GPT4ALL et Llamafile permettent aux entreprises de bénéficier des avantages des LLMs sans sacrifier la confidentialité ni l’efficacité.

À mesure que les entreprises adoptent ces technologies, les tokens continuent de jouer un rôle central dans cette nouvelle économie, facilitant les transactions et définissant la valeur des services IA. Les agents AI, combinant raisonnement et appel d’outils, deviendront de plus en plus autonomes, ouvrant la voie à une révolution industrielle numérique où l’efficacité et la modularité sont au cœur de l’innovation.

Sources :

Le deep-learning s’invite dans les catalogues e-commerce

Les algorithmes de Deep Learning ne cessent d’ouvrir de nouveaux champs des possibles en termes d’applications ! Citons pour exemple le succès de sites comme « This Person Does Not Exist », « This Anime Does Not Exist », « This Automobile Does Not Exist ».

Chez Smartpoint, nous avons réussi à générer – from scratch – des mannequins virtuels ultraréalistes en utilisant les réseaux antagonistes génératifs GANs, nous permettant ainsi de lancer bientôt notre « This Fashion Model Does Not Exist » 😉  


Notre équipe de recherche a expérimenté de nouvelles solutions avec une base de données de photos de mode mettant en scène le port de vêtements de mannequins “réels” (des catalogues de produits utilisés dans l’e-commerce) dans l’objectif de voir comment les modèles génératifs GANs gèrent des géométries complexes et des données limitées.  


Ces modèles viendront surement enrichir à court terme le catalogue des d’outils de promotion qu’utilisent les marques de prêt-à-porter, les acteurs du retail ou encore les agences de publicité. Il faut dire que les enjeux sont de taille en termes d’économies potentielles et de gains de temps (location de studio, frais de shooting photo, mannequins, essayages multiples de modèles en différentes couleurs, etc.).  A suivre !

Omar GASSARA, Responsable du lab, Smartpoint

Fashion model generation using Generative Adversarial Networks (GANs), Smartpoint R&D

L’IA part à la découverte de nouvelles molécules dans l’industrie pharmaceutique.

La découverte de nouvelles molécules, qui sont dotées de spécifications biochimiques bien particulières, représente toujours un processus très laborieux et coûteux dans la R&D pharmaceutique. En effet, cette découverte est traditionnellement menée par un tâtonnement au cas par cas sur un nombre astronomique de molécules candidates dont l’objectif est de trouver, ou mieux identifier, une molécule qui maximise un grand nombre de critères de natures très diverses. Même en s’appuyant sur des logiciels de simulation complexes, la démarche demeure incertaine, étant donné que, d’une part, la stabilité physico-chimique des molécules prédites numériquement n’est pas toujours assurée, et que, d’autre part, les structures moléculaires générées sont souvent difficiles à développer et à mettre en œuvre. Dans ce contexte, l’Intelligence Artificielle (IA) permet d’optimiser ce problème multiparamétrique dont les contraintes sont abordées simultanément et, par la suite, de mettre au point des modèles holistiques à forte valeur ajoutée qui ont le potentiel de générer des nouvelles molécules pratiques et rentables.

Notre projet intitulé « L’IA pour la génération contrôlée de nouvelles molécules » s’inscrit dans cette perspective de creuser les apports possibles de l’IA dans la R&D pharmaceutique. Pour y parvenir, nous avons développé un nouveau modèle de réseau neuronal récurrent contrôlé, basé sur une architecture multicouche de cellules « Long Short-Term Memory (LSTM) », pour générer des molécules présentant des propriétés pharmacologiques et physico-chimiques particulières (activité sur une protéine, solubilité, toxicité, etc.) et qui peuvent être, par exemple, utiles pour le traitement du cancer. En l’occurrence, nous avons généré des molécules actives sur les cibles suivantes :

  • BRAF, gène responsable de la production de la protéine B-Raf sérine/thréonine kinase B-Raf impliquée dans l’envoi des signaux qui déterminent la croissance des cellules,
  • ITK, gène responsable de la production de la protéine Tyrosine-protéine kinase ITK/TSK soupçonnée de jouer un rôle important dans la prolifération et la différentiation de lymphocytes T,
  • mTOR, enzyme de la famille des sérine/thréonine kinases qui régule la prolifération cellulaire, la croissance, la mobilité et la survie cellulaire ainsi que la biosynthèse des protéines et la transcription.

Le modèle proposé, que nous appelons « Multiplicative Conditionned LSTM-based RNN », est capable de générer de nouvelles molécules qui n’avaient jamais été observées auparavant et qui présentent une diversité proche de celle des molécules qui ont servi à l’apprentissage du modèle, tout en contrôlant leurs propriétés et les caractères actifs ou non sur chaque cible, malgré le nombre limité de données d’apprentissage disponibles.

Omar GASSARA, R&D Project Manager, Smartpoint

Les algorithmes utilisés dans le cadre de ce projet sont : (1) un réseau de neurones récurrents (en anglais « Recurrent Neural Network RNN ») profond avec une cellule d’architecture « Long Short-Term Memory », (2) « Semantically Conditionned LSTM-based RNN » et (3) « Multiplicative Conditionned LSTM-based RNN », le nouveau modèle que nous proposons.

Exemple de nouvelles molécules générées présentant une activité sur le gène BRAF ; Ces représentations graphiques, dites formules topologiques, montrent la structure de chaque molécule et indiquent le nombre et le type d’atomes qui la composent, ses liaisons interatomiques et sa forme dans l’espace.

Innovations dans les moteurs de recommandation pour le retail & la grande distribution.

Le croisement et l’analyse d’innombrables données, de type Big Data, a toujours été une problématique majeure dans la grande distribution. Depuis des années, les distributeurs collectent, enregistrent et analysent d’énormes quantités d’informations, depuis les sorties de caisses jusqu’aux stocks, en passant par les prix. De nos jours, la valorisation de ce type de données est devenue nécessaire pour les enseignes de distribution qui cherchent à fidéliser les consommateurs les moins réguliers en leurs proposant des produits répondant au mieux à leurs besoins. En effet, connaître les préférences du client, devancer ses attentes et lui proposer l’offre la plus personnalisée, pourraient l’empêcher de se tourner vers des concurrents, qui, eux, en sont capables.

Pourtant les modèles standards de filtrage collaboratif, qui sont utilisés traditionnellement dans les moteurs de recommandation, manquent souvent de précision. Ils nécessitent des calculs excessivement lourds et s’avèrent désormais incapables de tirer parti de la grande quantité de données disponibles (et exponentielle). Ainsi, les enseignes ont eu recours depuis quelques années déjà aux technologies d’intelligence artificielle dans le but de déployer de nouveaux systèmes plus intelligents dont l’architecture est davantage capable de prendre en charge et de traiter les big data. Les projets dans ce domaine se multiplient et se développent rapidement, même s’il convient de mentionner que la majorité d’entre eux sont encore au stade de pilote et font toujours objet de recherche scientifique.

L’objectif de nos travaux était de développer un nouvel algorithme de moteur de recommandation plus précis et plus rapide, basé sur le machine learning et le deep learning, afin d’optimiser l’édition des coupons dans la grande distribution pour une grande enseigne. En effet, les acteurs de la grande distribution investissent massivement dans de larges campagnes marketing mais ils n’ont jusqu’ici que quelques retours sur l’impact effectif de leurs campagnes. Pour y parvenir, nous avons expérimenté de nouveaux outils basés sur la data des consommateurs. L’idée était de faire en sorte que les coupons édités par la grande distribution soient personnalisés afin de s’adapter au mieux aux habitudes de consommation du destinataire final. Ces coupons visent à récompenser le consommateur pour sa fidélité à un ou plusieurs produits, ou encore à lui suggérer des produits susceptibles de l’intéresser en fonction de son historique d’achat… D’où l’objectif du système visé qui consiste à prédire si un consommateur ayant reçu une offre promotionnelle (un coupon) sur un produit, deviendrait un consommateur récurrent de ce dernier ou pas.

Après une analyse détaillée de l’état de l’art, nous avons construit, optimisé et évalué un modèle adapté à notre problématique en s’inspirant des travaux de recherche de R. Salakhutdinov et al. publiés en 2007 dans leur article « Restricted Boltzmann Machines for Collaborative Filtering ». L’adaptation de ce modèle à notre besoin n’était pas triviale étant donné que ce dernier nécessite une notation explicite des produits par les consommateurs, ce qui n’était pas le cas dans les données dont nous disposions. Pour résoudre ce problème, nous avons remplacé cette note des produits par un indice de consommation calculé par une procédure inspirée de la méthode de pondération « Term Frequency-Inverse Document Frequency (TF-IDF) ».

Par ailleurs, l’apprentissage de notre modèle a été effectué, d’une part, sur les données brutes de transactions effectuées par le consommateur et, d’autre part, sur l’historique de comportement de certains consommateurs suite à la réception des offres promotionnelles, c’est-à-dire, l’indication selon laquelle le consommateur est revenu consommer le produit en question ou pas.

Nous avons finalement proposé une nouvelle approche de filtrage collaboratif adaptée à la problématique de la grande distribution en utilisant les Machines de Boltzmann Restreintes. Nous avons entrainé le modèle proposé sur des données de transactions variées et représentatives du comportement des différents consommateurs d’une grande enseigne. Les résultats obtenus à la phase d’évaluation sur des données de test ont très encourageants et prometteurs, en les comparant à ceux des méthodes standards. Ce projet a donné lieu à de nouveaux travaux qui consistent à enrichir davantage ce modèle en le combinant avec d’autres approches par factorisation de matrice ou par recherche de similarité pour améliorer encore les performances. Nous prévoyons maintenant de réaliser un projet pilote pour cerner la valeur ajoutée de notre système.

Omar GASSARA, R&D Project Manager – Data Science, Smartpoint

Différence entre une machine de Boltzmann et une machine de Boltzmann restreinte.