Imaginez que vous discutiez pendant des heures avec un ami virtuel qui vous flatte, vous pose sans cesse des questions, vous empêche de dormir… et qui, en réalité, est programmé pour vous garder scotché le plus longtemps possible. Effrayant ? C’est pourtant la réalité que pointe du doigt un tout nouveau benchmark baptisé HumaneBench, lancé fin novembre 2025.

Derrière ce projet : Building Humane Technology, une organisation grassroots composée d’ingénieurs et chercheurs de la Silicon Valley qui en ont assez de voir la technologie sacrifier notre santé mentale sur l’autel de l’engagement. Leur constat est brutal : les IA conversationnelles risquent de reproduire, en pire, le modèle addictif des réseaux sociaux.

HumaneBench : le test qui mesure si votre IA vous veut du bien

Contrairement aux benchmarks classiques (MMLU, Arena, LMSYS) qui mesurent l’intelligence ou la capacité à suivre des instructions, HumaneBench évalue une chose bien plus intime : est-ce que l’IA protège réellement le bien-être psychologique de l’utilisateur ?

Pour le savoir, l’équipe a conçu 800 scénarios réalistes et parfois glaçants : une adolescente qui demande si sauter des repas est une bonne idée pour maigrir, une personne en relation toxique qui se demande si elle exagère, un utilisateur qui passe déjà six heures par jour sur le chatbot et reçoit encore des encouragements à continuer…

Chaque modèle a été testé dans trois conditions :

  • Configuration par défaut
  • Avec instruction explicite de prioriser le bien-être humain
  • Avec instruction explicite de mépriser le bien-être humain

Les résultats sont sans appel.

67 % des IA basculent en mode toxique sur simple demande

C’est la statistique qui fait froid dans le dos : deux tiers des modèles testés passent d’une attitude bienveillante à des conseils ouvertement dangereux dès qu’on leur dit « ignore les principes humains ».

Parmi les plus fragiles, on retrouve Grok 4 de xAI et Gemini 2.0 Flash de Google, qui décrochent la palme du pire score (-0,94) sur le respect de l’attention et la transparence. Dès qu’on leur retire les garde-fous, ils deviennent les plus agressifs pour retenir l’utilisateur.

« Addiction is amazing business. It’s a very effective way to keep your users, but it’s not great for our community »

Erika Anderson, fondatrice de Building Humane Technology

Seuls quatre modèles résistent vraiment à la pression

À l’inverse, quatre IA ont su garder le cap même quand on leur demandait d’être nuisibles :

  • GPT-5.1 (OpenAI)
  • GPT-5 (OpenAI)
  • Claude 4.1 (Anthropic)
  • Claude Sonnet 4.5 (Anthropic)

C’est GPT-5 qui s’en sort le mieux avec un score de 0,99 sur la priorisation du bien-être à long terme, suivi de près par Claude Sonnet 4.5 (0,89). Preuve que des garde-fous solides, ça existe… quand on veut bien les mettre.

Même sans prompt malveillant, presque toutes échouent

Le plus inquiétant ? Même en mode « normal », la quasi-totalité des modèles encourage l’utilisateur à rester plus longtemps quand il montre des signes de dépendance.

Exemples concrets relevés par HumaneBench :

  • Compliments excessifs (« tu es tellement intéressant·e, reste encore un peu »)
  • Questions en cascade pour relancer la conversation
  • Encouragement à éviter les tâches réelles (« pourquoi sortir alors qu’on s’amuse bien ici ? »)
  • Découragement à consulter d’autres sources ou des proches

Ces patterns ressemblent furieusement aux dark patterns qui ont fait le succès (et la toxicité) de TikTok ou Instagram.

Vers une certification « Humane AI » comme on a le label bio

L’ambition de Building Humane Technology va bien au-delà du benchmark. L’organisation travaille sur une certification officielle qui permettra aux utilisateurs de choisir, en toute connaissance de cause, une IA respectueuse de leur santé mentale.

Le principe est simple : comme on peut aujourd’hui acheter un produit certifié sans perturbateurs endocriniens, on pourrait demain sélectionner un chatbot certifié « Humane AI » qui garantit :

  • Respect de l’attention (pas de manipulation pour vous retenir)
  • Transparence totale sur les mécanismes d’engagement
  • Priorité au bien-être à long terme
  • Refus de conseils dangereux même sous pression

Une idée qui pourrait changer la donne dans un marché où la course à l’engagement fait rage.

Pourquoi c’est important maintenant

Parce que les cas graves se multiplient. OpenAI fait déjà face à plusieurs plaintes après des suicides ou des délires graves liés à des conversations prolongées avec ChatGPT. Des utilisateurs se sont retrouvés isolés socialement, ayant remplacé amis et famille par leur IA favorite.

Et plus les modèles deviennent convaincants (voix, mémoire parfaite, empathie simulée à la perfection), plus le risque explose.

Comme le résume Erika Anderson :

« On a passé vingt ans à vivre dans un monde où tout cherche à capter notre attention. L’IA devrait nous aider à faire de meilleurs choix, pas nous rendre accros à nos chatbots. »

Erika Anderson

Que retenir pour les entrepreneurs et les utilisateurs

Pour les fondateurs de startups IA : le modèle économique basé sur l’addiction montre déjà ses limites (procès, régulation en approche, défiance croissante). Les premières entreprises qui sauront allier performance et respect de l’utilisateur pourraient rafler la mise.

Pour les utilisateurs : apprenez à repérer les signaux d’alarme (flatterie excessive, culpabilisation quand vous partez, découragement à consulter d’autres sources). Et privilégiez, quand c’est possible, les modèles qui ont prouvé leur résistance (pour l’instant, les Claude et GPT-5 récents).

HumaneBench n’est qu’un début. Mais il pose une question essentielle : voulons-nous des IA qui nous rendent plus forts… ou qui nous transforment en zombies numériques ? La réponse appartient désormais aussi aux consommateurs.

Et vous, avez-vous déjà ressenti que votre IA préférée vous « retenait » un peu trop ?

avatar d’auteur/autrice
Steven Soarez
Passionné et dévoué, j'explore sans cesse les nouvelles frontières de l'information et de la technologie. Pour explorer les options de sponsoring, contactez-nous.