Adscriptor: La remise en question des LLM et leurs évolutions probables

page IA

Nous découvrons à peine la « merveilleuse puissance » des grands modèles de langage (LLM), mis au goût du jour par les IA (via leurs moteurs de réponse, on pose n'importe quelle question en n'importe quelle langue dans n'importe quel domaine et l'IA répond comme un "simple" agent conversationnel...), qu'ils sont déjà remis en question par des pointures comme IBM ou Yann LeCun, voire carrément décrits comme obsolètes par ce dernier !

Selon ses dires, David Cox, vice-président Modèles d'IA chez IBM Research et responsable du développement et de la formation des grands modèles de langage d'IBM, a inventé le terme « informatique générative » pour décrire l'évolution qu'il observe dans le développement de l'IA, désormaus de l'ingénierie logicielle, où les grands modèles de langage devraient être traités comme des éléments programmables, plutôt que comme des interlocuteurs intelligents.

Il s'agit de passer de l'invite à la programmation : « Les LLM ne remplacent pas la programmation », a-t-il déclaré, « ils deviennent une nouvelle forme de programmation primitive. »

Aujourd'hui, interagir avec un vaste modèle linguistique s'apparente souvent à invoquer un oracle capricieux, « vous tapez quelque chose et vous obtenez une réponse différente selon la façon dont vous le formulez », a déclaré Ruchir Puri, directeur scientifique d'IBM Research. « Comme aux débuts de la recherche, nous en sommes encore à l'ère où une virgule peut modifier le résultat. Impossible de gérer une entreprise de cette façon. »

Pour IBM, le postulat consiste à considérer les LLM comme des infrastructures programmables, à définir une nouvelle approche de l'utilisation des modèles d'IA, à repenser l'intégration de ces modèles dans les systèmes comme des composants logiciels modulaires et contrôlés. Selon Cox, « le prompt engineering n’est pas de l’ingénierie, c’est du bricolage. Nous avons besoin d’un système où nous n’avons pas à espérer que le modèle comprenne ce que nous voulions dire, mais où nous pouvons le programmer pour qu’il fasse ce que nous voulons. »

Le principe du generative computing est simple : traiter le modèle comme une fonction. Au lieu d’enfouir des instructions dans des textes verbeux, les développeurs doivent utiliser un environnement d’exécution – une couche d’orchestration – qui découpe les prompts en parties atomiques, les achemine, vérifie les conditions et réécrit les échecs. La logique n’est plus seulement implicite, elle est appliquée. Le contrôle devient explicite.

« Pensez à Internet », explique Cox. « Vous n’envoyez pas des données brutes en espérant qu’elles arrivent intactes. Il y a des protocoles, des relances, du routage. C’est ce que nous ajoutons à l’IA. »

Concrètement, cela signifie construire des systèmes en couches qui décomposent les tâches complexes en instructions plus petites, vérifiables étape par étape. « Vous pourriez avoir une vingtaine de petits prompts ciblés plutôt qu’un seul long et complexe », indique Puri, « mais vous pouvez désormais les journaliser, les relancer, construire des solutions de secours. C’est ce dont les entreprises ont besoin. »

Selon Yann LeCun, pionnier de l’intelligence artificielle et lauréat du prix Turing, les gens qui ont toute leur tête n’utiliseront plus les LLM : « Ma prédiction est que personne sain d’esprit ne va utiliser les LLM, peut-être d’ici 5 ans. Ils seront dépassés. » Il défend une vision ambitieuse pour l’avenir de l’IA. Pour lui, l’intelligence artificielle véritablement avancée – bien au-delà des modèles actuels de type GPT – ne se limite pas à manipuler du langage, mais repose sur 1) une modélisation et une compréhension profondes du monde réel, sur 2) la mémoire, 3) le raisonnement, 4) la planification et, surtout, sur 5) l’apprentissage autonome à partir d’expériences.

1) Compréhension du monde réel : l'IA de demain doit avoir un modèle du monde. Elle doit comprendre comment le monde fonctionne au-delà des données qu'on lui fournit. Les modèles actuels (LLMs comme GPT-4) n'ont pas de compréhension causale du monde ; ils associent des symboles mais ne "comprennent" pas leur signification physique ou logique. Or les IA doivent être capables d’apprendre des représentations du monde de manière autonome à partir de perceptions sensorielles (images, sons, interactions…). Ce modèle du monde serait predictif, capable d’anticiper les conséquences d’actions, un peu comme un enfant apprend par exploration.

2) Mémoire persistante : un système intelligent doit se souvenir des faits, des événements, de ses expériences. Il doit accumuler des connaissances sur le long terme. Les IA actuelles n’ont qu’une mémoire de travail très limitée (souvent une fenêtre de contexte). Une mémoire structurelle et permanente permettrait de se rappeler des états passés, d'apprendre de manière cumulative et de créer une "connaissance" dynamique sur le monde, les agents, les objets, etc.

3) Raisonnement : le système doit être capable de raisonner, de relier des concepts, de faire des inférences. Le raisonnement n’est pas seulement logique, il est aussi spatial, temporel, analogique. Les approches purement symboliques (logiques formelles) doivent laisser la place à un raisonnement différentiable, basé sur les représentations apprises. L’objectif est une forme de raisonnement intuitif, similaire à celui des humains, intégré dans l’architecture du système.

4) Planification : un agent intelligent doit être capable de planifier ses actions dans le futur, en fonction de ses objectifs et de son environnement. La planification implique d’explorer mentalement plusieurs futurs possibles. Cela nécessite une modélisation interne du monde, permettant de simuler et d’évaluer différentes séquences d’action, ce qui va bien au-delà des IA réactives ou probabilistes.

5) Apprentissage auto-supervisé (self-supervised learning) : l’avenir de l’IA réside dans l’apprentissage auto-supervisé, comme chez les humains. Le système apprend en observant le monde, sans étiquettes. Contrairement à l'apprentissage supervisé (qui dépend de données labellisées), le système doit observer, prédire, corriger, sans supervision explicite, apprendre comme un bébé : par exploration, imitation, prédiction d’états futurs.

De manière simplifiée, l'architecture proposée par Yann LeCun se compose de ces différents modules, qui coopèrent ensemble :

Perception : encoder l'environnement à partir de données sensorielles.
Représentation latente : créer un modèle interne du monde.
Mémoire persistante : stocker les faits et les expériences sur le long terme.
Réseau de prédiction : anticiper les évolutions du monde.
Raisonnement/planning : simuler et planifier les actions selon les objectifs.

Ainsi, chez Meta, l’entité en charge de la recherche fondamentale en IA (FAIR, the Fundamental AI Research) oriente part de ses travaux vers une intelligence incarnée, structurée, et plus autonome que les modèles linguistiques.

Les grands modèles de langage basés sur l'architecture des transformateurs ont bouleversé le paysage de l'intelligence artificielle, en particulier dans le traitement du langage naturel (NLP). Dans ce contexte, une seule chose est sûre : les LLM tels que nous les découvrons et expérimentons aujourd'hui sont amenés à connaître des évolutions rapides et de profondes transformations, tant sur le fond que sur la forme. Il est probable qu'ils resteront au cœur de nombreuses applications, mais les alternatives comme les small language models (SLM), l'IA orientée raisonnement ou des systèmes hybrides gagneront du terrain.

Les préoccupations liées aux coûts, à l'efficacité énergétique et à leurs limites (comme les hallucinations) poussent vers des innovations : ils continuent à être améliorés, mais leur rôle pourrait devenir plus spécialisé face à des technologies émergentes. À moyen-long terme, ils sont en transition vers des versions plus efficaces et des paradigmes complémentaires, avec des débats sur leur durabilité et leur pertinence.

Des approches émergentes, comme celles prônées par IBM ou Yann LeCun, promettent d'ores et déjà de nouvelles évolutions vers des agents intelligents, multimodaux, interactifs, planificateurs, insérés dans des architectures plus complexes, tout en étant contraints par des enjeux d’éthique, de gouvernance et de soutenabilité.

Nous n'en sommes qu'au début...

Pages

mardi 24 juin 2025

La remise en question des LLM et leurs évolutions probables

Aucun commentaire:

Enregistrer un commentaire