Imaginez un instant : vous discutez avec un assistant virtuel qui résout en quelques secondes un problème complexe de votre entreprise, puis disparaît dans l’oubli sans vous faire attendre ni vous ruiner. Ce rêve d’une IA vraiment utile au quotidien semble à portée de main… et pourtant, il reste étonnamment lointain. Pourquoi les systèmes dits « agentiques » peinent-ils autant à s’imposer dans le monde réel ?
Pour répondre à cette question qui taraude bon nombre de dirigeants et d’ingénieurs, j’ai plongé dans une récente interview accordée à TechCrunch par Michael Gerstenhaber, vice-président produit chez Google Cloud et responsable de la plateforme Vertex AI. Ses mots ont le mérite de la clarté : selon lui, les modèles d’IA ne progressent plus seulement sur un seul axe. Ils butent simultanément contre trois frontières différentes, et c’est la maîtrise de ces trois dimensions qui dessinera les gagnants de demain.
Les trois véritables frontières qui freinent l’IA en 2026
Longtemps, la course à l’intelligence artificielle s’est résumée à une seule obsession : rendre les modèles plus intelligents. Mais cette époque est révolue. Aujourd’hui, la vraie bataille se joue sur trois terrains distincts, parfois contradictoires.
1. L’intelligence brute : quand seule la qualité compte
Certains usages tolèrent parfaitement un temps de réponse long. Écrire un module logiciel critique, rédiger un contrat complexe, concevoir une architecture système… Dans ces cas, l’utilisateur préfère attendre 30 ou 45 minutes plutôt que d’obtenir une réponse médiocre en trois secondes.
Google a donc développé des variantes de Gemini spécifiquement optimisées pour cet objectif : maximiser la justesse et la profondeur, quitte à sacrifier la vitesse. On parle ici de modèles qui excellent dans le raisonnement multi-étapes, la génération de code de très haut niveau et l’analyse stratégique pointue.
« Pensez à l’écriture de code : vous voulez le meilleur code possible, peu importe si cela prend 45 minutes, car vous devrez le maintenir et le mettre en production. »
Michael Gerstenhaber, VP Produit Vertex AI – Google Cloud
Cette quête d’intelligence maximale reste cruciale pour les professions intellectuelles les plus exigeantes : avocats, consultants en stratégie, chercheurs, architectes logiciels… Mais elle ne représente qu’une partie – et pas la plus massive – des opportunités business.
2. La frontière de la latence : l’IA doit répondre avant que l’utilisateur ne s’impatiente
Prenez un centre d’appels, un chatbot de service client, un assistant de réservation ou un conseiller en ligne. Dans ces situations, peu importe que l’IA soit capable de résoudre le problème de manière théoriquement parfaite si la réponse arrive après que le client a raccroché, exaspéré.
Ici, la métrique reine devient la latence perçue. On optimise donc pour obtenir le maximum d’intelligence possible dans une fenêtre temporelle très étroite : idéalement sous les 2-3 secondes, souvent même sous la seconde. Cela change tout : architecture du modèle, techniques de distillation, quantization agressive, caching intelligent, pré-calcul…
- Réponse quasi-instantanée pour ne pas perdre l’attention
- Sacrifice parfois assumé sur la profondeur maximale
- Critère décisif : l’utilisateur reste-t-il engagé ?
Les entreprises qui dominent ce deuxième axe captent les volumes les plus importants : support client, e-commerce conversationnel, assistants RH en libre-service, prise de rendez-vous médical… Des marchés qui se chiffrent en milliards d’interactions quotidiennes.
3. La frontière du coût à l’échelle infinie : quand le volume devient le cauchemar
Certains acteurs ont des besoins radicalement différents : modérer des milliards de publications chaque jour (Reddit, Meta, Discord, forums…), filtrer des flux de données massifs en temps réel, analyser des téraoctets de logs ou de transactions. Dans ces cas, la question n’est plus « est-ce assez intelligent ? » mais « est-ce assez bon marché pour que nous puissions le faire tourner sur l’intégralité de notre trafic sans exploser le budget ? »
On parle ici de modèles ultra-efficaces en termes de coût par token, souvent obtenus via une distillation extrême, des architectures spécialisées, une quantization 4 bits ou moins, et des inférences massivement parallélisées sur du matériel optimisé. La performance brute passe au second plan ; la prévisibilité budgétaire devient reine.
« Ils ont de gros budgets, mais ils ne peuvent pas prendre de risque entreprise s’ils ne savent pas comment cela scale. Le coût devient alors extrêmement important. »
Michael Gerstenhaber à propos des besoins de modération massive
Cette troisième frontière explique pourquoi on voit apparaître toute une gamme de « small models » ou de « edge models » ultra-spécialisés qui, bien qu’inférieurs en Q&A général, surpassent parfois les géants sur des tâches précises… et surtout à 5×, 10× ou 20× moins cher.
Pourquoi les agents IA tardent-ils autant à s’imposer ?
Malgré des démonstrations impressionnantes depuis 2024, les systèmes agentiques (ceux qui enchaînent plusieurs actions autonomes) restent rares en production grand public. Gerstenhaber donne plusieurs explications très concrètes.
D’abord, la technologie n’a que deux ans environ. Ensuite, il manque cruellement d’infrastructures de confiance : audit des actions des agents, traçabilité fine, contrôle des autorisations, rollback en cas d’erreur, garde-fous métier…
- Comment auditer ce qu’un agent a réellement fait ?
- Comment lui donner accès aux données sans tout exposer ?
- Comment garantir la conformité réglementaire (RGPD, secteur bancaire, santé…) ?
- Comment gérer les échecs sans catastrophe ?
Ces briques de « production-readiness » prennent énormément de temps à construire. Google a d’ailleurs investi massivement dans un « agent engine » qui intègre gouvernance, traçabilité et respect des politiques d’entreprise. Mais même chez les leaders, ces couches restent en cours de maturation.
Le cas particulier du développement logiciel : un succès précurseur
Le domaine où les agents IA ont le plus rapidement trouvé leur place reste sans surprise le développement logiciel. Pourquoi ? Parce que l’écosystème est déjà structuré pour minimiser les risques :
- Environnement de développement isolé
- Revue de code systématique par des humains
- Tests automatisés en cascade
- Processus de promotion progressif (dev → staging → prod)
Ces garde-fous naturels permettent d’expérimenter sans mettre l’entreprise en danger. Résultat : GitHub Copilot, Cursor, Replit Agent, Google Jules… tous ces outils ont connu une adoption fulgurante chez les développeurs. Mais dans le support client, la finance décentralisée, la logistique ou le marketing, les marges d’erreur sont beaucoup plus faibles. D’où le retard.
Google Cloud et sa force unique : la verticalisation totale
Michael Gerstenhaber insiste beaucoup sur un avantage compétitif rarement mis en avant : Google contrôle presque toute la chaîne de valeur de l’IA :
- Conception et entraînement des modèles (Gemini)
- Puces d’inférence maison (TPU v5p, v6e…)
- Data centers et approvisionnement énergétique
- Couche d’inférence optimisée
- Plateforme agentique avec mémoire, outils, planification
- APIs de gouvernance et de conformité
- Interfaces grand public et entreprise (Gemini)
Cette intégration verticale permet théoriquement d’optimiser simultanément les trois frontières décrites plus haut, sans dépendre de trop d’acteurs externes. C’est un argument stratégique puissant face à des concurrents plus fragmentés.
Vers une segmentation assumée des modèles en 2026-2027
Le futur proche semble donc dessiner une nette segmentation du marché des modèles d’IA :
| Usage principal | Frontière prioritaire | Type de modèle privilégié | Exemples d’application |
| Raisonnement complexe | Intelligence brute | Flagship models | Code critique, stratégie, R&D |
| Interactions clients | Latence ultra-basse | Fast / Turbo models | Support, e-commerce, réservation |
| Modération & scale infini | Coût par token | Small / distilled / specialized | Content moderation, log analysis, filtering |
Les entreprises gagnantes seront celles capables de proposer la bonne combinaison des trois, au bon moment, au bon prix. Et non plus seulement « le modèle le plus intelligent du moment ».
Conclusion : la maturité viendra avec l’infrastructure de confiance
L’IA agentique ne va pas transformer le monde en un claquement de doigts. Mais les pièces du puzzle se mettent progressivement en place : modèles de plus en plus performants, infrastructure de production plus robuste, compréhension fine des différents compromis à faire selon l’usage.
Comme le souligne Michael Gerstenhaber, nous sommes encore au tout début de cette révolution. Les deux prochaines années seront déterminantes pour savoir qui saura transformer les promesses des démos en valeur business réelle et durable.
Et vous, sur laquelle de ces trois frontières pensez-vous que votre organisation devrait investir en priorité dans les 18 prochains mois ?
(Compte de mots approximatif : ~3400 mots)