Imaginez une conversation avec une intelligence artificielle qui répond avec la même fluidité qu’un ami au téléphone, sans ce petit décalage agaçant qui vous rappelle que vous parlez à une machine. Ce n’est plus de la science-fiction. C’est exactement ce que promet Gradium, la toute jeune startup parisienne qui vient de sortir du bois avec une levée de fonds complètement dingue.

Gradium lève 70 millions de dollars… trois mois après sa création

Le 2 décembre 2025, le monde de la tech a eu le souffle coupé. Une startup fondée en septembre de septembre de la même année annonce une seed round de 70 millions de dollars. Pas une série A, pas une série B : une seed. Pour comparaison, ElevenLabs avait levé 80 millions en série B après deux ans d’existence. Gradium pulvérise les standards.

Derrière ce tour de table monstre : FirstMark Capital et Eurazeo en lead, suivis par Xavier Niel en personne, DST Global, l’ex-CEO de Google Eric Schmidt et une ribambelle d’anges prestigieux. Quand les plus gros noms se battent pour entrer au capital dès le seed, c’est que quelque chose d’énorme se prépare.

D’où sort Gradium ? L’histoire d’un spin-off parfait

Gradium n’est pas née de nulle part. Elle est le fruit direct de Kyutai, le laboratoire d’IA français lancé en 2023 par Xavier Niel, Rodolphe Saadé et Eric Schmidt himself. Un labo open-source qui a déjà sorti Moshi, un modèle vocal capable de parler avec deux flux audio en parallèle (très impressionnant à l’époque).

Le fondateur, Neil Zeghidour, n’est pas un inconnu. Ancien chercheur chez Google DeepMind spécialisé dans l’audio, il faisait partie des membres fondateurs de Kyutai. Autrement dit : il connaît la musique (sans mauvais jeu de mots).

« Nous voulons que les développeurs puissent intégrer une voix aussi naturelle et rapide qu’une conversation humaine, peu importe la langue ou la plateforme. »

Neil Zeghidour, fondateur de Gradium

Le nerf de la guerre : la latence ultra-faible

Dans le domaine de la voix IA, il y a deux écoles. Ceux qui font joli (ElevenLabs, PlayHT, Respeecher…) et ceux qui font rapide (les modèles intégrés aux assistants comme Siri ou Alexa). Gradium veut les deux en même temps.

Leur promesse technique : une latence inférieure à 200 ms en conditions réelles. Pour vous donner une idée, c’est le temps que met votre cerveau à réaliser que quelqu’un vous a parlé. Autrement dit, l’utilisateur ne sent plus jamais qu’il parle à une machine.

  • Latence cible : < 200 ms bout-en-bout
  • Voix expressive avec intonation, respiration, émotions
  • Support natif de 5 langues au lancement (anglais, français, allemand, espagnol, portugais)
  • API optimisée pour le edge computing et le streaming

Un positionnement européen assumé

Dans un marché trusté par les Américains et les Britanniques (OpenAI, Anthropic, ElevenLabs…), Gradium joue la carte européenne à fond. Hébergement en Europe, conformité RGPD dès la conception, et surtout : un vrai multilinguisme dès le jour 1.

Car si l’anglais domine 80 % des usages actuels, le reste du monde existe. Et les entreprises européennes veulent des solutions qui parlent parfaitement français, allemand ou espagnol sans accent “robot à l’américaine”.

La concurrence est rude… mais perfectible

Personne ne va se mentir : le marché de la synthèse vocale est déjà saturé. Entre les géants du frontier (OpenAI GPT-4o, Claude 3.5 Sonnet, Gemini 1.5) et les pure players du vocal, Gradium arrive dans une arène bondée.

ActeurLatence moyenneExpressivitéMultilinguisme natifPrix (estimé)
ElevenLabs500-800 ms★★★★★LimitéÉlevé
OpenAI GPT-4o voice300-600 ms★★★★BonTrès élevé
Google WaveNet400 ms★★★ExcellentAbordable
Gradium (promis)<200 ms★★★★★ExcellentÀ découvrir

Le tableau parle de lui-même : si Gradium tient ses promesses techniques, ils pourraient créer une nouvelle catégorie : la voix IA temps réel expressive.

Quels cas d’usage concrets ?

La voix ultra-rapide et naturelle ouvre des portes folles :

  • Assistants virtuels dans les jeux vidéo (PNJ qui répondent instantanément)
  • Call centers automatisés réellement humains
  • Podcasts et livres audio générés à la volée dans n’importe quelle langue
  • Traduction simultanée en visio avec conservation de la voix d’origine
  • Compagnons IA pour personnes âgées ou isolées
  • Agents vocaux dans les voitures (le Graal de la sécurité)

Et ce n’est que le début. À mesure que les agents IA deviennent autonomes, la voix deviendra l’interface principale. Celui qui maîtrise la voix temps réel maîtrisera l’avenir.

Pourquoi les investisseurs ont craqué

70 millions en seed, c’est rarissime. Alors pourquoi maintenant ?

  • Équipe technique de classe mondiale (ex-DeepMind + Kyutai)
  • Technologie déjà fonctionnelle (démos privées impressionnantes)
  • Marché vocal estimé à 50 milliards de dollars d’ici 2030
  • Positionnement européen unique dans un monde dominé par les USA
  • Xavier Niel qui pousse fort (et met la main à la poche)

En clair : tous les signaux sont au vert pour que Gradium devienne le prochain licorne française de l’IA.

Et maintenant ?

Gradium est encore en phase privée. L’API devrait ouvrir en bêta début 2026. Les développeurs intéressés peuvent déjà s’inscrire sur liste d’attente (elle explose déjà).

Une chose est sûre : la guerre de la voix IA ne fait que commencer. Et pour une fois, la France est en pole position.

Alors, Gradium réussira-t-elle à tenir ses promesses folles de latence et d’expressivité ? Réponse dans quelques mois. Mais une chose est déjà certaine : Paris redevient un endroit où naissent les géants de demain.

avatar d’auteur/autrice
Steven Soarez
Passionné et dévoué, j'explore sans cesse les nouvelles frontières de l'information et de la technologie. Pour explorer les options de sponsoring, contactez-nous.