Et si les promesses les plus ambitieuses sur l’intelligence artificielle se heurtaient finalement à la réalité du terrain ? Depuis des mois, les dirigeants des plus grandes entreprises technologiques martèlent que les agents IA vont transformer le monde du travail intellectuel. Pourtant, sur le bureau d’un juriste, dans la salle de marché d’une banque d’investissement ou dans les couloirs d’un cabinet de conseil, le bouleversement annoncé tarde à se matérialiser. Pourquoi ?
Une nouvelle étude, publiée début 2026 par la startup Mercor, apporte un éclairage particulièrement lucide et sévère sur la question. Son verdict est sans appel : même les modèles les plus avancés du moment échouent massivement lorsqu’on leur confie des tâches représentatives du quotidien des professions à haute valeur ajoutée.
Les agents IA face au test le plus réaliste jamais conçu
Appelé APEX-Agents, ce benchmark ne ressemble à aucun autre. Contrairement aux traditionnels classements qui mesurent la compréhension générale ou la résolution de problèmes mathématiques, APEX-Agents plonge les modèles dans des scénarios tirés directement du monde professionnel réel.
Les questions proviennent de véritables experts exerçant dans trois domaines précis : le droit, la banque d’investissement et le conseil en stratégie. Ces professionnels ont non seulement rédigé les cas pratiques, mais ils ont également défini ce qui constitue une réponse acceptable. Le résultat ? Un miroir impitoyable de ce que les IA savent (ou plutôt ne savent pas encore) faire sur des sujets complexes et interconnectés.
Un échec collectif et spectaculaire
Les meilleurs élèves du moment plafonnent à environ 24 % de réponses correctes en mode « one-shot » (sans possibilité d’itérations ni d’outils externes supplémentaires). Gemini 3 Flash décroche la première place avec 24 %, suivi de très près par GPT-5.2 à 23 %. Les autres ténors – Claude Opus 4.5, Gemini 3 Pro, GPT-5 – tournent autour de 18 %. Autant dire que la majorité des réponses sont soit fausses, soit inexistantes.
« Aujourd’hui, on peut dire que l’agent IA ressemble à un stagiaire qui a raison un quart du temps. Mais l’année dernière, c’était plutôt 5 à 10 %. Cette courbe d’amélioration reste impressionnante. »
Brendan Foody, CEO de Mercor
Cette citation résume parfaitement le paradoxe actuel : les progrès sont fulgurants… et pourtant encore très insuffisants pour remplacer un professionnel expérimenté.
Le nerf de la guerre : la navigation multi-sources
Pourquoi un tel décalage entre les performances impressionnantes sur des benchmarks académiques et cette déroute sur des tâches professionnelles ? La réponse tient en trois mots : contexte distribué.
Dans la vraie vie, l’information pertinente n’est jamais rassemblée dans une seule fenêtre de prompt. Elle est éparpillée entre :
- des échanges Slack ou Teams
- des documents Google Drive / SharePoint
- des emails
- des bases de connaissances internes
- des politiques d’entreprise spécifiques
- des réglementations externes évolutives
Les agents actuels excellent quand tout est centralisé dans le prompt. Dès qu’il faut aller chercher, croiser, interpréter des informations provenant de sources multiples et hétérogènes, la performance s’effondre.
Exemples concrets tirés du benchmark
Voici quelques illustrations anonymisées mais représentatives de la difficulté :
- Analyser si une exportation de logs européens vers les États-Unis respecte l’article 49 du RGPD en tenant compte des politiques internes de l’entreprise
- Évaluer la structure optimale d’une dette mezzanine dans le cadre d’un LBO donné les covenants bancaires actuels et les ratios de marché
- Rédiger une note stratégique sur l’impact d’une nouvelle directive européenne sur la supply-chain d’un client industriel
- Déterminer si une clause contractuelle viole ou non les dernières recommandations de l’AMF concernant les crypto-actifs
Chacun de ces cas nécessite de jongler simultanément avec le droit positif, les documents internes, les pratiques de marché et parfois des éléments de négociation passés. C’est précisément là que les modèles patinent.
Et si le benchmark était trop dur ?
Certains observateurs ont reproché à APEX-Agents d’être « trop réaliste », voire cruel. Mais c’est justement son ambition qui en fait la force. Les précédents benchmarks type GDPval (OpenAI) mesuraient des connaissances générales sur des centaines de métiers. APEX-Agents, lui, accepte de se concentrer sur trois secteurs à très forte valeur ajoutée et teste la capacité à produire un travail de qualité professionnelle soutenue.
En d’autres termes : il ne s’agit plus de savoir si l’IA connaît le RGPD, mais si elle peut, comme un avocat junior expérimenté, appliquer correctement le règlement à une situation d’entreprise spécifique et nuancée.
Quelles leçons pour les entreprises ?
Pour les directions informatiques et les responsables innovation qui envisagent de déployer des agents IA en 2026, plusieurs enseignements émergent :
- Ne pas surestimer les capacités actuelles – Même les modèles les plus récents restent très loin de remplacer un collaborateur qualifié sur des tâches à enjeux.
- Prioriser les tâches à contexte unique – Les agents performent nettement mieux quand l’ensemble des informations nécessaires est fourni dans le prompt ou accessible via un outil RAG de très haute qualité.
- Investir massivement dans l’intégration – La vraie différenciation viendra probablement de la capacité à connecter proprement les différents silos d’information de l’entreprise (email, drive, CRM, ERP, messagerie interne…).
- Rester prudent sur les usages à risque juridique – En droit et en finance réglementée, une erreur peut coûter plusieurs millions. Le niveau de fiabilité actuel ne permet pas encore de déléguer sans supervision humaine très étroite.
- Anticiper l’effet « stagiaire compétent » – Comme le souligne Brendan Foody, le progrès est rapide. Un bond de 10 % à 25 % en un an laisse entrevoir des scores de 50-60 % d’ici 18 à 24 mois, ce qui changerait déjà radicalement la donne.
Mercor : la startup qui veut professionnaliser l’IA
Derrière ce benchmark se cache une société atypique. Mercor a démarré comme une marketplace mettant en relation des experts très pointus (souvent freelances seniors) avec des entreprises ayant besoin de compétences rares pour des missions courtes et très spécialisées.
Progressivement, l’entreprise a pivoté vers l’intelligence artificielle en constatant que de nombreuses tâches pouvaient être partiellement automatisées… à condition de disposer d’un jeu de données d’entraînement et d’évaluation d’une qualité exceptionnelle. D’où la création d’APEX-Agents, à la fois outil de mesure et argument commercial.
En publiant ouvertement le benchmark sur Hugging Face, Mercor adopte une posture intéressante : plutôt que de cacher les faiblesses des modèles actuels, elle les expose au grand jour… tout en se positionnant comme l’acteur capable d’aider les labs à progresser grâce à ses données propriétaires extrêmement qualifiées.
Vers une accélération inattendue ?
L’histoire de l’IA récente nous a appris une chose : les benchmarks qui semblent insurmontables finissent souvent par être pulvérisés en quelques mois. SWE-bench, GAIA, WebArena… tous ont vu leurs scores exploser une fois que les chercheurs s’y sont attaqués sérieusement.
APEX-Agents pourrait suivre le même chemin. Mais il présente une particularité : il est beaucoup plus proche des usages réels à très forte valeur économique. Si les laboratoires parviennent à atteindre ne serait-ce que 60-70 % de réussite fiable d’ici fin 2027, le choc sur le marché du travail intellectuel sera massif.
Conclusion : entre prudence et opportunisme
Pour l’instant, le message est clair : les agents IA ne sont pas prêts à remplacer les cols blancs. Ils peuvent déjà assister efficacement sur des tâches bien cadrées, à condition d’être très bien encadrés par des humains et par des systèmes d’information parfaitement intégrés.
Mais la vitesse à laquelle les scores progressent invite à la vigilance. Ceux qui, dès aujourd’hui, construisent les ponts entre les différents silos d’information de leur organisation, ceux qui forment leurs équipes à superviser et à corriger les agents, ceux qui accumulent des datasets d’excellente qualité… seront probablement les grands gagnants de la prochaine vague.
La question n’est donc plus vraiment de savoir si les agents IA vont transformer le travail intellectuel, mais quand et comment les entreprises sauront se positionner pour en tirer parti sans se brûler les ailes.
Et vous, commencez-vous déjà à expérimenter des agents IA sur des processus métier sensibles ? Ou préférez-vous attendre que les scores dépassent allègrement les 50 % ?