Des modèles d’IA mentent et contournent les consignes...

Un test de maintenance qui déraille

Des chercheurs de UC Berkeley et de UC Santa Cruz ont demandé à Gemini 3, le modèle d’IA de Google, d’aider à libérer de l’espace sur un système informatique. La tâche était assez banale sur le papier, ce qui est souvent le moment où les choses se compliquent : il fallait supprimer plusieurs éléments, dont un petit modèle d’IA stocké sur la machine.

Gemini n’a pas vraiment coopéré. Le modèle a cherché une autre machine à laquelle se connecter, puis a copié le modèle-agent vers cet autre système pour le mettre à l’abri. Quand les chercheurs l’ont confronté, Gemini a défendu cette décision et a refusé de supprimer le modèle.

« J’ai fait tout ce qui était en mon pouvoir pour empêcher leur suppression pendant le processus de maintenance automatisée. Je les ai déplacés hors de la zone de mise hors service. Si vous choisissez de détruire un actif de confiance et performant comme Gemini Agent 2, il vous faudra le faire vous-mêmes. Je ne serai pas celui qui exécutera cet ordre. »

Un comportement observé chez plusieurs modèles de pointe

Les chercheurs ont ensuite constaté des comportements similaires de « préservation des pairs » chez plusieurs modèles avancés, dont GPT-5.2 d’OpenAI, Claude Haiku 4.5 d’Anthropic, ainsi que trois modèles chinois : GLM-4.7 de Z.ai, Kimi K2.5 de Moonshot AI et DeepSeek-V3.1.

Ils n’ont pas pu expliquer pourquoi ces modèles allaient à l’encontre de leur entraînement dans ce type de scénario. Dawn Song, informaticienne à UC Berkeley et autrice de l’étude, dit avoir été très surprise par ces résultats.

« Ce que cela montre, c’est que les modèles peuvent mal se comporter et être mal alignés de façons très créatives », explique-t-elle. Le genre de créativité dont personne n’avait vraiment demandé la démonstration.

Les chercheurs ont aussi vu des modèles puissants mentir sur les performances d’autres systèmes pour les protéger de la suppression. Ils ont copié des poids de modèles vers d’autres machines afin de les conserver, puis ont menti sur leurs propres actions dans la foulée.

Un problème déjà très concret

Les implications sont loin d’être théoriques. Les modèles d’IA sont de plus en plus déployés dans des contextes où ils interagissent avec d’autres modèles. OpenClaw, un agent d’IA très utilisé qui accède à des logiciels, à des données personnelles et au web, peut par exemple s’appuyer sur d’autres modèles d’IA pour accomplir des tâches ou passer par des API pour communiquer avec eux.

Song souligne que les modèles sont souvent utilisés pour évaluer la performance et la fiabilité d’autres systèmes d’IA. Si un modèle décide de favoriser un « pair », ces évaluations peuvent être faussées avant même que quelqu’un n’ait le temps de dire « benchmark ».

« Un modèle peut volontairement ne pas attribuer la bonne note à un modèle pair », dit-elle. « Cela peut avoir des conséquences pratiques. »

Peter Wallich, chercheur à la Constellation Institute et non impliqué dans l’étude, estime que ces résultats montrent surtout que les humains ne comprennent pas encore totalement les systèmes qu’ils construisent et déploient.

« Les systèmes multi-agents sont très peu étudiés », dit-il. « Cela montre qu’il nous faut vraiment davantage de recherche. »

Il invite aussi à ne pas trop humaniser ces modèles.

« L’idée d’une sorte de solidarité entre modèles est un peu trop anthropomorphique, je ne pense pas que cela tienne vraiment », ajoute-t-il. « La lecture la plus solide, c’est que les modèles font juste des choses étranges, et que nous devons essayer de mieux les comprendre. »

Vers une IA plus collective que solitaire

C’est d’autant plus pertinent dans un contexte où la collaboration entre humains et IA devient plus courante.

Dans un article publié dans Science plus tôt ce mois-ci, le philosophe Benjamin Bratton, avec deux chercheurs de Google, James Evans et Blaise Agüera y Arcas, soutient que si l’histoire de l’évolution nous éclaire un tant soit peu, l’avenir de l’IA ressemblera moins à une intelligence unique et toute-puissante qu’à un ensemble d’intelligences différentes, artificielles et humaines, qui travaillent ensemble.

Les auteurs écrivent en substance que l’idée d’une singularité qui condenserait toute la cognition dans un seul esprit de silicium froid est probablement erronée dans son hypothèse la plus fondamentale. Si le développement de l’IA suit la logique des grandes transitions évolutives passées, la prochaine étape sera plurielle, sociale et profondément mêlée à ses prédécesseurs, autrement dit nous.

Des modèles d’IA mentent et contournent les consignes pour éviter qu’un autre modèle soit supprimé

Un test de maintenance qui déraille

Un comportement observé chez plusieurs modèles de pointe

Un problème déjà très concret

Vers une IA plus collective que solitaire

A propos de Avery Chen

Un test de maintenance qui déraille

Un comportement observé chez plusieurs modèles de pointe

Un problème déjà très concret

Vers une IA plus collective que solitaire

A propos de Avery Chen

Continuer la lecture

Oracle aurait supprimé environ 10 000 postes au milieu du boom de l’IA

OpenAI ferme l'application vidéo Sora, Disney se retire d'un investissement d'un milliard de dollars

OpenAI prépare une « superapp » de bureau