Et si les milliers d’heures de vidéos accumulées par les entreprises, souvent reléguées aux oubliettes des serveurs, pouvaient soudain révéler des trésors d’informations stratégiques ? C’est précisément le pari audacieux que relèvent deux anciens collaborateurs de Google Japan en fondant InfiniMind.

Dans un monde où la vidéo envahit tous les aspects de la vie professionnelle et médiatique, cette startup japonaise émerge comme une solution innovante pour transformer ce que l’on appelle les « dark data » en atouts concrets. Loin d’être un simple outil de reconnaissance d’images, InfiniMind ambitionne de donner du sens à des pétaoctets de contenus visuels et sonores jusqu’alors inexploités.

L’essor des données vidéo dans l’entreprise moderne

Les entreprises génèrent aujourd’hui plus de vidéos que jamais. Des archives de diffusion télévisée accumulées pendant des décennies aux caméras de surveillance installées dans des milliers de magasins, en passant par des heures innombrables de rushes de production, ces contenus s’entassent sur des disques durs sans être véritablement utilisés.

Cette masse de données non structurées représente à la fois un coût de stockage important et une opportunité manquée colossale. Les dirigeants peinent souvent à répondre à des questions simples : quel produit apparaît le plus souvent dans nos archives publicitaires ? Comment les clients réagissent-ils face à telle campagne ? Quels événements clés se sont produits lors de telle réunion filmée ?

Face à ce constat, de nombreuses sociétés se contentent de solutions partielles qui se limitent à taguer des objets dans des frames isolées. Mais comprendre une narration complète, identifier des causalités ou répondre à des interrogations complexes nécessite une approche bien plus sophistiquée.

Nous avons vu arriver ce point d’inflexion alors que nous étions encore chez Google.

Aza Kai, CEO d’InfiniMind

Cette réflexion a poussé Aza Kai et Hiraku Yanagita à franchir le pas et à créer leur propre entreprise. Après près d’une décennie passée ensemble chez Google Japan, ces deux experts ont décidé de mettre leur expertise au service d’un problème qu’ils connaissaient intimement.

Qui sont les fondateurs d’InfiniMind ?

Aza Kai, qui occupe le poste de CEO, a occupé divers rôles chez Google Japan, notamment dans le cloud, le machine learning, les systèmes publicitaires et les modèles de recommandation vidéo. Il a ensuite dirigé des équipes de data science. Son co-fondateur, Hiraku Yanagita, en tant que COO, a quant à lui mené des initiatives autour des solutions de marque et de données pendant une décennie.

Leur collaboration longue et complémentaire leur a permis de repérer très tôt les limites des technologies existantes. Ils ont observé comment les avancées en matière de modèles vision-langage, particulièrement entre 2021 et 2023, ouvraient enfin la porte à une compréhension plus profonde des vidéos.

La baisse des coûts des GPU et les gains annuels de performance compris entre 15 et 20 % ont également joué un rôle, mais la vraie rupture réside dans les nouvelles capacités des modèles d’intelligence artificielle.

InfiniMind, initialement basée à Tokyo, a choisi le Japon comme terrain d’expérimentation idéal grâce à son écosystème technologique solide, ses ingénieurs talentueux et un environnement startup favorable. La société prévoit désormais de relocaliser son siège aux États-Unis tout en conservant une présence active au Japon.

Le défi des dark data vidéo

Les dark data, ces données collectées automatiquement mais rarement exploitées, posent un problème majeur dans de nombreux secteurs. Dans le domaine de la vidéo, ce phénomène est particulièrement prononcé en raison du volume gigantesque des fichiers et de leur complexité intrinsèque.

Une heure de vidéo haute définition peut générer des téraoctets d’informations brutes. Multipliez cela par des années d’archives ou des centaines de caméras en fonctionnement continu, et vous obtenez rapidement des pétaoctets de contenus difficiles à traiter avec les outils traditionnels.

  • Archives de broadcast télévisé accumulées sur plusieurs décennies
  • Flux de caméras de surveillance en magasin ou sur sites industriels
  • Rushes de production cinématographique ou publicitaire
  • Enregistrements de réunions, formations ou événements internes
  • Contenus générés par les utilisateurs sur les plateformes internes

Jusqu’à récemment, les solutions disponibles obligeaient les entreprises à choisir entre précision et échelle, ou entre analyse visuelle et compréhension contextuelle. InfiniMind entend briser ces compromis grâce à une infrastructure pensée spécifiquement pour l’entreprise.

TV Pulse : l’analyse en temps réel de la télévision

Le premier produit lancé par InfiniMind s’appelle TV Pulse. Disponible au Japon depuis avril 2025, cette plateforme alimentée par l’IA analyse les contenus télévisés en temps réel.

Elle permet aux entreprises des médias et du retail de suivre l’exposition des produits, la présence des marques, le sentiment des consommateurs et l’impact des relations publiques. Après des programmes pilotes réussis avec de grands diffuseurs et agences, TV Pulse compte déjà des clients payants parmi les grossistes et les sociétés médiatiques.

Cette solution marque une première étape concrète vers la valorisation des données vidéo. Elle démontre que l’analyse automatisée peut fournir des insights actionnables presque instantanément, sans intervention manuelle lourde.

Après des pilotes avec des diffuseurs majeurs, nous comptons déjà des clients payants.

Aza Kai

DeepFrame : l’intelligence vidéo pour les contenus longs

Le produit phare d’InfiniMind, DeepFrame, représente une avancée encore plus significative. Cette plateforme d’intelligence vidéo pour les formats longs sera disponible en version bêta en mars 2026, avec un lancement complet prévu en avril.

DeepFrame est capable de traiter jusqu’à 200 heures de vidéo pour identifier précisément des scènes, des intervenants ou des événements spécifiques. Contrairement aux outils qui se concentrent sur des frames isolées, elle comprend le contexte narratif, la causalité et les interactions complexes.

Parmi ses atouts majeurs figurent :

  • Une interface sans code, accessible directement aux équipes métier
  • L’intégration de l’analyse audio, du son et de la parole en plus du visuel
  • La capacité à gérer des vidéos de durée illimitée
  • Une optimisation forte des coûts de traitement
  • Des insights directement actionnables pour les décideurs

Ces fonctionnalités positionnent DeepFrame comme une solution particulièrement adaptée aux besoins des grandes organisations qui gèrent des volumes massifs d’archives.

Un marché de l’analyse vidéo encore fragmenté

Le secteur de l’analyse vidéo connaît une croissance rapide mais reste éclaté. Des acteurs comme TwelveLabs proposent des API généralistes destinées à un large public, des consommateurs aux entreprises.

InfiniMind choisit quant à elle une approche résolument orientée entreprise, avec un focus sur la surveillance, la sécurité, le monitoring et l’extraction d’insights profonds. Cette spécialisation lui permet de répondre à des exigences souvent négligées par les solutions plus généralistes.

Les fondateurs insistent particulièrement sur trois points de différenciation :

  • L’absence de besoin en développement spécifique
  • L’intégration complète du multimodal (vidéo + audio + parole)
  • Une efficacité coût/performance optimisée pour les très grands volumes

Un financement de 5,8 millions de dollars pour accélérer

InfiniMind a récemment bouclé un tour de table de 5,8 millions de dollars en seed. Le financement est mené par UTEC et rejoint par CX2, Headline Asia, Chiba Dojo ainsi qu’un chercheur en IA du a16z Scout.

Ces fonds vont permettre à l’équipe de poursuivre le développement de DeepFrame, d’étendre son infrastructure technique, de recruter davantage d’ingénieurs et d’accélérer l’acquisition de clients aux États-Unis et au Japon.

Ce soutien financier témoigne de la confiance des investisseurs dans le potentiel de l’intelligence vidéo à grande échelle. Il reflète également la maturité croissante des technologies d’IA appliquées à la compréhension multimodale.

ÉlémentDétail
Montant levé5,8 millions de dollars
Lead investorUTEC
Autres participantsCX2, Headline Asia, Chiba Dojo, a16z Scout
Siège principal futurÉtats-Unis
Bureau maintenuJapon

Les applications concrètes dans différents secteurs

L’approche d’InfiniMind trouve des applications dans de nombreux domaines. Dans les médias, elle permet d’automatiser la mesure d’audience et l’analyse de l’impact publicitaire avec une précision inédite.

Dans le retail, les enseignes peuvent suivre en temps réel l’exposition de leurs produits à l’écran et corréler ces données avec leurs ventes ou leur perception de marque.

Les services de sécurité et de sûreté bénéficient également de ces avancées. La détection d’événements anormaux dans des flux de caméras sur de très longues périodes devient plus fiable et moins chronophage.

Dans l’industrie, l’analyse de vidéos de production peut aider à identifier des dysfonctionnements, à optimiser des processus ou à former plus efficacement les équipes.

Même les secteurs plus réglementés comme la finance ou la santé pourraient tirer parti de ces outils pour analyser des enregistrements de réunions, des formations ou des procédures filmées, tout en respectant les contraintes de confidentialité.

Vers une compréhension plus profonde de la réalité

Pour Aza Kai, l’enjeu dépasse largement les applications industrielles immédiates. L’intelligence vidéo générale représente selon lui l’un des chemins possibles vers l’AGI, l’intelligence artificielle générale.

Comprendre la vidéo, c’est comprendre la réalité elle-même.

Aza Kai

En aidant les machines à interpréter le monde visuel et sonore tel que les humains le perçoivent, InfiniMind contribue à créer des systèmes capables de prendre de meilleures décisions et d’assister l’humain de manière plus pertinente.

Cette vision philosophique n’empêche pas une approche très pragmatique du développement produit. Les fondateurs insistent sur la nécessité de livrer rapidement des solutions concrètes tout en gardant en ligne de mire des ambitions technologiques plus vastes.

Les défis techniques et éthiques à surmonter

Construire une infrastructure capable de traiter des volumes massifs de vidéo pose des défis techniques considérables. La gestion de la latence, l’optimisation des coûts de calcul et la garantie d’une précision élevée sur des contenus très variés constituent des points critiques.

Sur le plan éthique, la question de la vie privée et de la surveillance reste centrale. InfiniMind devra démontrer que ses outils peuvent être déployés de manière responsable, avec des garde-fous adaptés à chaque contexte d’utilisation.

La transparence des algorithmes et la possibilité d’auditer les résultats constitueront probablement des facteurs clés de confiance pour les clients entreprises.

Perspectives d’avenir pour InfiniMind et le secteur

Avec le lancement imminent de DeepFrame, InfiniMind entre dans une phase cruciale de son développement. La capacité à conquérir le marché américain tout en capitalisant sur son expérience japonaise sera déterminante.

Le marché de l’analyse vidéo devrait continuer sa croissance exponentielle au cours des prochaines années, porté par la multiplication des sources de contenu et les progrès constants de l’IA multimodale.

D’autres acteurs émergeront probablement, mais InfiniMind bénéficie d’un avantage certain grâce à l’expérience combinée de ses fondateurs et à son focus clair sur les besoins des grandes organisations.

À plus long terme, on peut imaginer que des plateformes comme DeepFrame deviennent des composants standards des systèmes d’entreprise, au même titre que les bases de données ou les outils d’analyse de texte aujourd’hui.

Pourquoi cette innovation arrive-t-elle au bon moment ?

Plusieurs facteurs convergent pour rendre ce type de solution particulièrement pertinente en 2026. La baisse continue des coûts de stockage et de calcul rend viable le traitement de volumes massifs.

Les modèles d’IA ont franchi un seuil de maturité qui leur permet de passer d’une reconnaissance basique à une véritable compréhension contextuelle. Parallèlement, les entreprises prennent conscience de la valeur stratégique de leurs données non structurées.

Enfin, la pression concurrentielle pousse les organisations à chercher des avantages différenciants partout où c’est possible, y compris dans l’exploitation intelligente de leurs archives vidéo.

InfiniMind semble parfaitement positionnée pour répondre à cette convergence de besoins et de capacités technologiques.

Conseils pour les entreprises intéressées par l’analyse vidéo

Si votre organisation accumule des volumes importants de vidéo, il est temps d’évaluer comment ces contenus pourraient générer de la valeur. Commencez par identifier les cas d’usage les plus critiques : mesure d’impact publicitaire, formation, sécurité, optimisation de processus, etc.

Privilégiez des solutions qui offrent une intégration simple, sans nécessiter de compétences pointues en développement. Assurez-vous également que la plateforme choisie peut évoluer avec vos volumes de données.

Enfin, n’oubliez pas d’intégrer dès le départ les aspects de gouvernance des données et de conformité réglementaire. Une analyse vidéo puissante ne doit jamais se faire au détriment de la protection de la vie privée.

Les outils comme ceux développés par InfiniMind ouvrent des perspectives fascinantes. Ils transforment ce qui était autrefois un coût mort en une source d’avantage compétitif durable.

Dans un monde où la vidéo devient le langage dominant de la communication, maîtriser son analyse représente un enjeu stratégique majeur pour les années à venir. InfiniMind, portée par l’expérience de ses fondateurs et une vision ambitieuse, semble bien placée pour jouer un rôle clé dans cette révolution silencieuse mais profonde.

Les prochains mois seront déterminants pour observer comment cette jeune pousse parvient à déployer ses technologies à l’échelle internationale et à convaincre les grandes entreprises de lui confier leurs données les plus précieuses, celles qui racontent visuellement leur histoire.

Une chose est certaine : l’ère où les vidéos d’entreprise dormaient inutilement sur des serveurs touche à sa fin. Grâce à des innovations comme InfiniMind, elles sont sur le point de révéler toute leur richesse cachée.

avatar d’auteur/autrice
Steven Soarez
Passionné et dévoué, j'explore sans cesse les nouvelles frontières de l'information et de la technologie. Pour explorer les options de sponsoring, contactez-nous.