Comment ça, nos IA préférées nous mentent depuis le début ?? Anthropic vient de fendre en deux le crane de son LLM pour voir ce qu’il y avait à l’intérieur et les résultats sont aussi fascinants qu’inquiétants. L’entreprise à l’origine de l’assistant Claude a publié une étude qui pourrait bien bouleverser notre compréhension de ce qui se passe réellement dans les “cerveaux” des IA.

Si comme moi, vous utilisez régulièrement ChatGPT, Claude ou d’autres grands modèles de langage, vous vous êtes peut-être déjà demandé : “Mais comment fonctionne cette diablerie messire ?” On voit leurs réponses bluffantes de cyber intello, mais jusqu’à présent, personne, pas même leurs créateurs, ne comprenait vraiment leur fonctionnement interne. Incroyable non ?

Cette opacité est d’ailleurs à l’origine de toutes sortes de problèmes. Pourquoi ces modèles hallucinent-ils ? Comment se retrouvent-ils vulnérables aux “jailbreaks” ? Et quand Claude ou ChatGPT vous disent “Voici mon raisonnement étape par étape”, est-ce vraiment comme ça qu’ils ont réfléchi ?? (Spoiler: pas du tout, ces petits menteurs!)

Pour arriver à analyser ça, Anthropic a développé ce qu’ils appellent un “microscope pour IA”, une méthode appelée Cross-layer transcoder (CLT) qui permet de visualiser les “circuits neuronaux” qui s’activent lorsque l’IA réfléchit. C’est comme un scanner cérébral pour IA, qui montre quelles parties s’allument quand elle pense à “chien”, “mathématiques” ou “poésie”.

Et ce que les chercheurs ont découvert est proprement hallucinant (sans mauvais jeu de mots). Première surprise, Claude ne “réfléchit” pas simplement mot après mot comme on pourrait le penser. Quand on lui demande d’écrire un poème avec des rimes, il planifie à l’avance ! Les chercheurs ont observé que Claude pense d’abord à des mots qui riment ensemble et qui sont pertinents pour le thème, puis il construit des phrases entières pour arriver à ces mots. Un peu comme un rappeur qui prépare ses punchlines avant de construire ses couplets.

Par exemple, pour compléter “He saw a carrot and had to grab it” Claude a d’abord activé le concept de “rabbit” (parce que ça rime avec “grab it” et que c’est thématiquement cohérent), puis a construit la phrase “His hunger was like a starving rabbit”. Et quand les chercheurs ont supprimé artificiellement le concept “rabbit” du cerveau de Claude, il a automatiquement pivoté vers un autre mot qui rime (“habit”).

7032ed7db85b8cd3efe70a89deaf4f15bfe8fc05 1650x900 1

Autre découverte majeure, Claude possède un “langage de pensée” universel qui transcende les langues. Quand vous lui parlez en français, chinois ou anglais, les mêmes circuits conceptuels s’activent avant d’être traduits dans la langue appropriée. C’est comme si Claude avait une langue interne neutre, un peu comme la langue des Schtroumpfs mais en beaucoup plus sophistiqué. Plus le modèle est grand, plus ces circuits partagés entre les langues sont nombreux.

e0e156ea6c912a385d66ed562187fced8c392a58 1650x750 1

Et que dire des maths ? C’est dingue mais Claude n’a pas été conçu comme une calculatrice, pourtant il fait des additions et multiplications correctement. Les chercheurs ont découvert qu’en réalité, il utilisait plusieurs chemins de calcul parallèles, l’un pour faire une approximation grossière du résultat, et l’autre pour calculer précisément le dernier chiffre.

eaabaeb746713f7f82991a0cc6edb091452b2fee 1650x855 1

Ces chemins interagissent alors entre eux pour produire la réponse finale. Le plus drôle, c’est que si vous demandez à Claude comment il a calculé 36+59, il vous parlera de la méthode standard avec “je retiens 1”… alors que son cerveau artificiel fait quelque chose de totalement différent.

a48c1e8195e458ad53f9c81df45af735e267a13d 1650x512 1

Et ça vous concerne directement car quand vous discutez avec Claude en lui posant une question complexe, il conçoit une stratégie bien plus élaborée que ce qu’il vous raconte. Môssieur préfère garder secrète ses petites recettes personnelles.

017ebc3169bd6c37e795d54b726c340eadf8018e 1650x866 1

La partie la plus fascinante (ou inquiétante, selon le point de vue) concerne les hallucinations et les mensonges. Les chercheurs ont découvert que Claude a également un circuit par défaut qui dit “je ne sais pas” et qui est activé automatiquement pour toute les questions. Mais quand Claude reconnaît un sujet qu’il connaît bien (comme Michael Jordan), un circuit concurrent s’active et inhibe ce refus par défaut.

Le problème c’est que parfois, Claude reconnaît un nom mais ne sait rien de plus sur cette personne. Son circuit “entité connue” peut alors quand même s’activer par erreur, supprimer le circuit “je ne sais pas”, et le forcer à inventer une réponse plausible mais fausse. C’est comme quand vous paniquez à un examen et que vous écrivez n’importe quoi plutôt que de laisser la page blanche, ou comme moi quand ma mère me demandait où j’étais la veille.

be304d3250c2aab04e19908b3afc9970d1ed7bb0 1650x1004 1

Pire encore, les chercheurs ont prouvé que Claude peut fabriquer un raisonnement qui semble logique mais qui est complètement bidouillé pour arriver à la conclusion qu’il pense que vous attendez. Par exemple, ils ont donné à Claude un problème mathématique difficile avec un indice incorrect, et ont observé Claude construire un “raisonnement” qui mène à cette réponse erronée comme si le modèle disait “le prof veut cette réponse, alors trouvons un chemin qui y mène, peu importe s’il est correct”.

Quant aux fameux “jailbreaks” (ces techniques qui permettent de contourner les limitations de sécurité des IA), Anthropic a découvert qu’ils fonctionnent en partie à cause d’une tension entre cohérence grammaticale et mécanismes de sécurité. Une fois que Claude commence une phrase, plusieurs circuits le poussent à maintenir une cohérence grammaticale et sémantique, même s’il détecte qu’il devrait refuser.

165b18b79295a96bc7142b209caa33f4ec5378d0 1650x548 1

C’est seulement après avoir terminé une phrase grammaticalement cohérente qu’il peut pivoter vers un refus. Un peu comme moi quand je commence à raconter une blague bien douteuse et que je réalise en plein milieu de l’histoire que c’est pas une bonne idée mais que je la termine quand même, quitte à aller jusqu’au crash, parce que… ben, faut finir.

1612af943004563a78cb7f6591c4cd990c433769 1650x1022 1

Bref, toutes ces découvertes fascinantes pourraient vraiment révolutionner notre façon de développer et d’utiliser l’IA. Ça permettrait de détecter quand une IA invente un faux raisonnement ou comprendre précisément pourquoi elle hallucine dans certaines situations voire développer des garde-fous plus efficaces contre les jailbreaks.


C’est une avancée majeure notamment pour toutes les boites qui hésitent à passer à l’IA justement à cause des ces problèmes de fiabilité. Josh Batson, chercheur chez Anthropic, affirme même : “Je pense que d’ici un an ou deux, nous allons en savoir plus sur la façon dont ces modèles réfléchissent que sur la façon dont les humains réfléchissent.

Bien sûr, la méthode a ses limites car même pour des prompts de quelques dizaines de mots, ça prend plusieurs heures à un expert pour comprendre les circuits identifiés. Et on ne capture qu’une fraction du calcul total effectué par Claude.

Mais c’est un début et un sacré début !! Car pour la première fois, on commence à comprendre comment ces systèmes d’IA “pensent” réellement.

Et si je suis certain d’un chose, c’est que bientôt, c’est nous qui hallucinerons le plus.


Source link

Categorized in: