Imaginez la scène : des milliers de chercheurs en intelligence artificielle, parmi les plus brillants de la planète, se réunissent à San Diego pour la conférence NeurIPS, l’événement le plus prestigieux du domaine. Des mois de travail acharné, des nuits blanches, des modèles entraînés à prix d’or… pour finalement voir certains de leurs articles entachés par des citations complètement inventées. Ironique ? Absolument. Inquiétant ? Plus encore.

En janvier 2026, la startup spécialisée dans la détection d’IA GPTZero a publié une analyse choc : sur les 4 841 papiers acceptés à NeurIPS 2025, 51 contenaient au total 100 citations hallucinées et confirmées comme fausses. Derrière ce chiffre apparemment modeste se cache une question bien plus profonde : si même les meilleurs experts mondiaux en IA ne parviennent pas à contrôler parfaitement les outils qu’ils créent, que reste-t-il de la crédibilité de la recherche scientifique actuelle ?

Quand l’élite de l’IA se fait prendre à son propre jeu

NeurIPS n’est pas n’importe quelle conférence. Elle représente le Graal pour tout chercheur en machine learning. Être accepté ici, c’est presque une garantie de carrière fulgurante dans les labs de Google, OpenAI, Anthropic, Meta ou DeepMind. Pourtant, même dans ce sanctuaire de l’excellence, l’IA a glissé quelques mensonges au milieu des références bibliographiques.

L’étude de GPTZero n’a pas été réalisée au hasard. L’entreprise a scanné méthodiquement l’ensemble des papiers acceptés et a ensuite vérifié manuellement les citations suspectes. Résultat : 100 cas confirmés où l’outil de langage a tout simplement inventé des articles, des auteurs ou des années de publication qui n’ont jamais existé.

Même 1,1 % de papiers contenant une ou plusieurs références incorrectes dues à l’utilisation de LLM ne remet pas nécessairement en cause le contenu scientifique des travaux eux-mêmes.

Porte-parole de NeurIPS

Cette déclaration officielle cherche à calmer le jeu. Et il est vrai que 100 citations sur plusieurs dizaines de milliers restent statistiquement marginales. Mais le symbole est fort. Quand les créateurs des systèmes les plus puissants se font piéger par leurs propres créations, cela pose question sur la maîtrise réelle de la technologie.

Comment les hallucinations se faufilent dans les papiers scientifiques

Les grands modèles de langage excellent dans une chose : produire du texte qui semble parfaitement cohérent. Lorsqu’on leur demande de compléter une liste de références, ils puisent dans des milliards de paramètres entraînés sur des articles réels… et parfois ils comblent les trous avec de la pure fiction.

Voici les mécanismes les plus fréquents observés :

  • Génération d’un faux article très proche d’un vrai (même premier auteur, même conférence, année décalée)
  • Invention complète d’un titre et d’auteurs qui sonnent « juste »
  • Mélange de plusieurs vraies références pour créer une citation hybride inexistante
  • Fausse conférence ou journal qui n’a jamais publié sur le sujet
  • Utilisation d’un DOI ou d’un arXiv ID qui mène vers un tout autre papier

Ces erreurs ne sont pas anodines. Dans le monde académique, une référence est une reconnaissance de dette intellectuelle. La polluer avec des fabrications revient à dévaluer la monnaie de la science.

La crise du peer-review à l’ère de l’explosion des soumissions

Depuis 2022, le nombre de soumissions à NeurIPS, ICML, ICLR et CVPR a explosé. En 2025, NeurIPS a reçu plus de 15 000 articles pour seulement ~4 800 acceptés. Chaque reviewer se retrouve parfois avec 8 à 12 papiers à évaluer en quelques semaines.

Dans ce contexte de « submission tsunami », vérifier chaque référence devient mission impossible. Les reviewers sont déjà débordés par l’évaluation du fond scientifique, des expériences, de la nouveauté et de la clarté. Les citations passent souvent au second plan… jusqu’à ce qu’une analyse externe comme celle de GPTZero les mette en lumière.

La crise du peer-review dans les conférences IA est en train de casser les pipelines de revue des grandes conférences.

Extrait du papier « The AI Conference Peer Review Crisis » – mai 2025

Ce papier académique publié quelques mois avant NeurIPS 2025 avait déjà tiré la sonnette d’alarme. GPTZero ne fait que confirmer, avec des données concrètes, ce que beaucoup pressentaient : le système actuel est à bout de souffle.

Pourquoi les chercheurs ne vérifient-ils pas eux-mêmes ?

C’est LA question que tout le monde se pose. Si un chercheur a vraiment lu les articles qu’il cite, il devrait immédiatement repérer une référence inventée. Alors pourquoi cela arrive-t-il quand même ?

Plusieurs explications plausibles coexistent :

  1. Certains utilisent les LLM uniquement pour reformater ou compléter des listes de références déjà existantes, et ne vérifient pas la sortie finale.
  2. La fatigue et la pression temporelle jouent un rôle majeur en fin de rédaction.
  3. Certains juniors délèguent entièrement cette tâche à ChatGPT, Claude ou Gemini sans supervision suffisante.
  4. L’illusion de compétence : « ça sonne tellement juste que ça doit être vrai ».
  5. Manque de réflexe systématique de vérification croisée sur Google Scholar ou Semantic Scholar.

Quel que soit le scénario, le résultat est le même : une faille humaine + un outil trop convaincant = citation fantôme dans un papier de prestige.

Les implications pour l’avenir de la recherche en IA

Cet épisode est bien plus qu’une anecdote amusante. Il cristallise plusieurs tensions majeures de notre époque :

  • La vitesse de publication prime-t-elle sur la rigueur ?
  • Les outils d’IA deviennent-ils des béquilles invisibles ?
  • La confiance dans la littérature scientifique est-elle en train de s’effriter ?
  • Comment les conférences et les journals peuvent-ils adapter leurs processus sans décourager la soumission ?

Certains observateurs prédisent déjà l’arrivée de nouvelles normes : vérification obligatoire des références via des outils certifiés, déclaration explicite de l’usage des LLM dans la méthodologie, ou même intégration automatique de vérificateurs de citations dans les plateformes de soumission (OpenReview, CMT, etc.).

GPTZero : la startup qui met le doigt où ça fait mal

Derrière cette révélation se trouve GPTZero, une entreprise américaine créée en 2022 par Edward Tian, alors étudiant à Princeton. À l’origine conçue pour détecter si un texte était écrit par un humain ou par une IA, la société a progressivement élargi son spectre vers la détection de contenus hallucinatoires et de fabrications factuelles.

En scannant l’intégralité des papiers NeurIPS, GPTZero ne fait pas seulement de la publicité. Elle démontre surtout que ses outils ont atteint un niveau de précision suffisant pour identifier des erreurs que des reviewers experts n’ont pas vues. C’est à la fois une performance technologique et un message politique fort adressé à toute la communauté.

La startup affirme vouloir aider, et non punir. Elle propose déjà des intégrations pour les comités de programme, permettant de flager automatiquement les références douteuses avant même que les reviewers ne les lisent. Une manière élégante de transformer une mauvaise nouvelle en opportunité d’amélioration collective.

Et si c’était le début d’une prise de conscience générale ?

Ce scandale – tout relatif soit-il – pourrait marquer un tournant. Pendant longtemps, la communauté IA a considéré les hallucinations comme un problème « des autres » : des lycéens qui copiaient-collaient ChatGPT, des blogueurs en mal de contenu, des marketeurs trop pressés.

Aujourd’hui, le miroir se retourne. Les meilleurs d’entre nous se font prendre. Cela oblige à regarder la réalité en face : aucun humain, aussi brillant soit-il, n’est immunisé contre les erreurs subtiles des grands modèles. La vigilance doit devenir systématique, culturelle, institutionnelle.

Peut-être que dans quelques années, on se souviendra de janvier 2026 comme du moment où la communauté IA a réellement commencé à prendre au sérieux la question de l’intégrité textuelle et factuelle à l’ère des LLM omniprésents.

Conclusion : l’ironie ultime

L’intelligence artificielle promettait de libérer les chercheurs des tâches ingrates pour se concentrer sur la créativité pure. Au lieu de cela, elle leur impose aujourd’hui une nouvelle corvée : vérifier obsessionnellement ce qu’elle produit, même quand il s’agit de simples références.

L’épisode NeurIPS 2025 nous rappelle une vérité simple mais essentielle : les outils les plus puissants sont aussi les plus dangereux quand on baisse la garde. Dans la course à la performance et à la publication, n’oublions jamais que la science repose avant tout sur la confiance. Et que cette confiance se gagne mot après mot, référence après référence, vérification après vérification.

La prochaine fois que vous utiliserez un LLM pour rédiger la bibliographie de votre article, posez-vous la question : suis-je prêt à défendre chaque ligne devant mes pairs les plus exigeants ? Parce qu’aujourd’hui, même à NeurIPS, on vous regardera de très près.

(Environ 3 450 mots)

avatar d’auteur/autrice
Steven Soarez
Passionné et dévoué, j'explore sans cesse les nouvelles frontières de l'information et de la technologie. Pour explorer les options de sponsoring, contactez-nous.