Et si la meilleure façon de savoir quel modèle d’intelligence artificielle est vraiment le plus performant… était tout simplement de demander à des millions de personnes lambda de choisir ? C’est exactement le pari fou qu’ont pris quelques chercheurs de Berkeley en 2023. Moins de trois ans plus tard, leur idée est devenue une licorne valorisée à 1,7 milliard de dollars. Bienvenue dans l’histoire complètement dingue de LMArena.
Quand la sagesse collective devient l’étalon-or de l’IA
Imaginez un instant : vous tapez une question un peu tordue, parfois très technique, parfois complètement absurde. Aussitôt, deux réponses anonymes apparaissent côte à côte. Sans logo, sans nom de modèle. Vous devez choisir celle qui vous semble la meilleure. Et vous cliquez. Des millions de fois par mois.
C’est le principe de base qui a fait exploser LMArena (anciennement Chatbot Arena). Ce qui avait commencé comme un petit projet de recherche académique s’est transformé en le baromètre le plus respecté et le plus craint de toute l’industrie de l’intelligence artificielle générative.
D’un side-project universitaire à l’obsession des labs IA
Tout commence en 2023 avec Anastasios Angelopoulos et Wei-Lin Chiang, deux doctorants talentueux de l’Université de Californie à Berkeley. À l’époque, les benchmarks traditionnels (MMLU, HumanEval, GSM8K…) commençaient à montrer leurs limites. Les modèles s’entraînaient spécifiquement pour performer sur ces tests très encadrés. Le verdict de la communauté scientifique était clair : ces benchmarks sont en train d’être cassés.
Les deux chercheurs ont donc eu une idée simple mais brillante : plutôt que de créer un nouveau test encore plus dur, pourquoi ne pas demander directement aux humains de juger les réponses ? Ainsi est né Chatbot Arena, un site ultra-minimaliste où chacun pouvait comparer deux modèles en aveugle.
« Nous voulions revenir à la source : ce qui compte vraiment, c’est ce que les humains préfèrent utiliser au quotidien. »
Wei-Lin Chiang, co-fondateur de LMArena
Le bouche-à-oreille a fait le reste. Très rapidement, des ingénieurs, des chercheurs, des passionnés d’IA du monde entier ont commencé à s’affronter sur la plateforme pour défendre leur modèle préféré. Les classements sont devenus viraux sur Twitter/X, Reddit, Discord… Impossible pour les labs de les ignorer.
Mai 2025 : le premier choc – 100 M$ à 600 M$ de valorisation
Moins de deux ans après les premiers tests en ligne, le projet décide de se professionnaliser. L’équipe annonce une levée de fonds seed de 100 millions de dollars menée par… des investisseurs très sérieux. Valorisation post-money : 600 millions de dollars. Pour un produit qui n’avait même pas encore de modèle de monétisation clair.
À ce stade, beaucoup pensaient qu’on assistait à une nouvelle bulle IA. D’autres, au contraire, y voyaient le signe que la vraie métrique de performance n’était plus le score sur un dataset figé, mais bien la préférence humaine réelle.
- 60 millions de conversations par mois
- Plus de 5 millions d’utilisateurs mensuels actifs
- Utilisateurs présents dans plus de 150 pays
- Des centaines de modèles différents testés en permanence
Ces chiffres, publiés début 2026, ont achevé de convaincre les plus sceptiques.
Septembre 2025 → Lancement commercial & explosion
En septembre 2025, LMArena sort officiellement son offre B2B : AI Evaluations. Le principe est simple mais redoutablement efficace : les entreprises qui développent des modèles ou qui en achètent peuvent payer pour que la communauté LMArena les évalue en profondeur selon leurs propres critères.
Le bouche-à-oreille fonctionne à merveille. Dès le mois de décembre 2025, soit à peine quatre mois après le lancement commercial, l’entreprise annonce un run-rate annuel de 30 millions de dollars. Un démarrage exceptionnel pour une offre aussi jeune.
Janvier 2026 : 150 M$ Série A → 1,7 milliard de valorisation
Et puis arrive l’annonce du 6 janvier 2026 qui fait trembler tout l’écosystème : 150 millions de dollars levés en Série A, valorisation post-money de 1,7 milliard de dollars. Soit presque trois fois plus que lors du seed, en seulement huit mois.
| Étape | Date | Montant | Valorisation post-money |
| Seed | Mai 2025 | 100 M$ | 600 M$ |
| Série A | Janvier 2026 | 150 M$ | 1,7 Md$ |
| Écart temps | ~8 mois | ||
Parmi les investisseurs de ce tour historique, on retrouve des noms très prestigieux : Felicis (lead), UC Investments, Andreessen Horowitz, Kleiner Perkins, Lightspeed Venture Partners, The House Fund… La crème de la Silicon Valley a clairement voté pour LMArena.
Pourquoi une telle frénésie autour des classements humains ?
La réponse est multifactorielle.
- Les anciens benchmarks sont saturés : la plupart des grands modèles dépassent les 90 % sur MMLU, HumanEval… Difficile de faire la différence.
- Les préférences humaines sont plus riches : style, politesse, humour, refus de répondre aux questions sensibles, créativité… tout cela compte énormément pour les utilisateurs finaux.
- Transparence et aveugle : les utilisateurs ne savent pas quel modèle ils comparent → beaucoup plus difficile de biaiser les résultats.
- Effet réseau massif : plus il y a de votes, plus le classement devient fiable. Et plus il devient fiable, plus les gens votent.
- Marketing gratuit pour les labs : chaque fois qu’un modèle arrive en tête, le créateur communique massivement dessus.
Cette boucle vertueuse explique en grande partie pourquoi LMArena est devenu incontournable en si peu de temps.
Les controverses n’ont pas manqué
Comme tout phénomène qui prend autant d’importance, LMArena a aussi eu son lot de polémiques.
En avril 2025, un papier académique accuse certains grands labs d’avoir optimisé leurs modèles spécifiquement pour plaire à la communauté LMArena (style verbeux, réponses longues, ton amical…). L’équipe a fermement démenti toute forme de collusion et rappelé que les classements restent anonymes.
« Nous ne donnons aucun accès privilégié aux données d’entraînement ni aux prompts gagnants. Point final. »
Équipe LMArena, réponse officielle
La controverse n’a finalement fait qu’augmenter la visibilité du projet.
Quel avenir pour le leader incontesté des benchmarks humains ?
Aujourd’hui, plusieurs questions se posent pour la jeune licorne :
- Vont-ils rester 100 % open et communautaires ou vont-ils davantage se recentrer sur le B2B payant ?
- Comment gérer la montée en puissance des modèles open-source qui progressent extrêmement vite ?
- Comment lutter contre la fatigue des votants à long terme ?
- Comment intégrer les nouveaux usages multimodaux (vision, audio, vidéo) à très grande échelle ?
- Comment rester indépendant alors que les plus gros acteurs de l’IA investissent des milliards ?
Ce qui est certain, c’est que LMArena a déjà profondément modifié la façon dont l’industrie mesure le progrès en intelligence artificielle. Les classements ELO basés sur les préférences humaines sont désormais considérés comme le gold standard par une majorité d’observateurs.
Une leçon pour tous les entrepreneurs
L’histoire de LMArena est une formidable source d’inspiration. Elle montre qu’il est encore possible, même en 2025-2026, de :
- partir d’un vrai problème académique non résolu
- créer une solution extrêmement simple
- laisser la communauté s’approprier le produit
- monétiser très tardivement, une fois l’effet réseau devenu écrasant
- lever des sommes énormes très rapidement quand la traction est là
Une trajectoire qui rappelle furieusement les débuts d’OpenAI, d’Anthropic ou même… de Hugging Face quelques années plus tôt.
Alors la prochaine fois que vous hésiterez entre deux modèles pour votre projet, pensez-y : le classement le plus fiable ne sort peut-être pas d’un dataset poussiéreux, mais bien des clics de millions d’internautes anonymes.
Et ça… c’est peut-être la plus belle revanche de l’humain sur la machine.
(Compte de mots approximatif : ~3200 mots)