L’intelligence artificielle (IA) évolue à une vitesse fulgurante, mais à quel prix ? Une récente controverse secoue la communauté tech : DeepSeek, une startup chinoise prometteuse, est soupçonnée d’avoir utilisé des données issues de Gemini, le modèle IA de Google, pour entraîner son dernier modèle, le R1. Cette accusation soulève des questions brûlantes sur l’éthique, la propriété intellectuelle et la course effrénée à l’innovation dans le domaine de l’IA. Plongeons dans cette affaire qui pourrait redéfinir les règles du jeu.

DeepSeek : Une Étoile Montante dans l’IA

DeepSeek, basée en Chine, s’est rapidement imposée comme un acteur clé dans le développement de l’intelligence artificielle. Son modèle R1, dévoilé récemment, impressionne par ses performances en mathématiques et en programmation. Mais derrière ces prouesses se cache une question troublante : d’où proviennent les données qui alimentent ce modèle ?

Contrairement à de nombreuses startups qui détaillent leurs méthodes d’entraînement, DeepSeek reste discret. Cette opacité a attiré l’attention de chercheurs et de développeurs, qui soupçonnent l’utilisation de données non autorisées. Cette affaire n’est pas sans rappeler d’autres scandales dans l’industrie, où la compétition pousse parfois à des pratiques controversées.

Les Soupçons autour de Gemini

Les premières accusations ont émergé sur les réseaux sociaux. Sam Paech, un développeur australien spécialisé dans l’évaluation de l’intelligence émotionnelle des IA, a partagé des observations troublantes. Selon lui, le modèle R1-0528 de DeepSeek utilise des expressions et un style similaires à ceux de Gemini 2.5 Pro, le modèle phare de Google. Cette ressemblance ne serait pas fortuite.

Le modèle de DeepSeek semble imiter les traces de Gemini. C’est comme si on lisait les pensées d’un modèle Google.

Sam Paech, développeur

Un autre développeur, connu sous le pseudonyme de SpeechMap, a renforcé ces allégations. Il a analysé les traces – ces étapes intermédiaires générées par l’IA pour résoudre un problème – et a conclu qu’elles ressemblaient étrangement à celles de Gemini. Bien que ces indices ne constituent pas une preuve définitive, ils alimentent les spéculations sur une possible distillation, une technique consistant à entraîner un modèle en exploitant les sorties d’un autre, plus performant.

La Distillation : Une Pratique Controversée

La distillation n’est pas une nouveauté dans le monde de l’IA. Elle permet à une startup disposant de ressources limitées, comme DeepSeek, de créer des modèles performants en s’appuyant sur les données générées par des géants comme Google ou OpenAI. Cependant, cette pratique soulève des questions éthiques, surtout lorsque les données utilisées violent les conditions d’utilisation des modèles sources.

Google, comme OpenAI, interdit explicitement l’utilisation de ses sorties pour entraîner des modèles concurrents. Pourtant, la tentation est grande : les données synthétiques issues de modèles comme Gemini offrent un moyen rapide et économique d’améliorer les performances d’une IA. DeepSeek, confronté à une pénurie de GPU et disposant de fonds importants, pourrait avoir succombé à cette stratégie.

Un Passé déjà Entaché

Ce n’est pas la première fois que DeepSeek fait face à de telles accusations. En décembre dernier, son modèle V3 a surpris la communauté en s’identifiant à plusieurs reprises comme ChatGPT, le célèbre chatbot d’OpenAI. Cette erreur a conduit à des soupçons selon lesquels DeepSeek aurait utilisé des journaux de conversation de ChatGPT pour entraîner son modèle.

Si j’étais DeepSeek, je générerais des tonnes de données synthétiques à partir du meilleur modèle disponible. C’est un moyen efficace d’optimiser ses ressources.

Nathan Lambert, chercheur à AI2

Plus tôt cette année, OpenAI a révélé avoir détecté des indices de distillation impliquant DeepSeek. Selon des rapports, Microsoft, partenaire d’OpenAI, a découvert que de grandes quantités de données étaient extraites via des comptes de développeurs d’OpenAI, probablement liés à DeepSeek. Ces révélations renforcent l’idée que la startup chinoise pourrait avoir adopté une stratégie agressive pour rivaliser avec les leaders du marché.

Les Défis de l’Éthique dans l’IA

La controverse autour de DeepSeek met en lumière un problème majeur : la contamination des données. Avec la prolifération de contenus générés par IA sur le web, il devient de plus en plus difficile de filtrer les données d’entraînement. Les contenus issus de fermes à clics ou de bots sur des plateformes comme Reddit et X compliquent la tâche des entreprises cherchant à respecter les règles.

Pour contrer ces pratiques, les grands acteurs de l’IA renforcent leurs mesures de sécurité. OpenAI exige désormais une vérification d’identité pour accéder à ses modèles avancés, excluant notamment la Chine. Google, de son côté, a commencé à résumer les traces de ses modèles sur sa plateforme AI Studio, rendant leur exploitation plus difficile. Anthropic, un autre acteur majeur, adopte une approche similaire pour protéger ses avantages compétitifs.

Les Enjeux pour l’Industrie

Cette affaire dépasse le simple cas de DeepSeek. Elle illustre la tension croissante entre innovation rapide et respect des normes éthiques. Voici les principaux enjeux :

  • Propriété intellectuelle : L’utilisation non autorisée de données d’entraînement menace les droits des créateurs de modèles.
  • Compétition déloyale : Les startups qui contournent les règles gagnent un avantage indu sur leurs concurrents.
  • Confiance des utilisateurs : Les scandales éthiques érodent la crédibilité de l’industrie de l’IA.
  • Régulation : Les gouvernements pourraient imposer des règles plus strictes pour encadrer l’entraînement des IA.

Pour mieux comprendre les implications, examinons les mesures prises par les leaders du secteur :

EntrepriseMesureObjectif
OpenAIVérification d’identitéEmpêcher l’accès non autorisé aux modèles
GoogleRésumé des tracesRéduire l’exploitation des sorties
AnthropicRésumé des tracesProtéger les avantages compétitifs

Quel Avenir pour DeepSeek ?

DeepSeek n’a pas encore répondu officiellement aux accusations. Si les soupçons se confirment, la startup risque de perdre la confiance des investisseurs et des utilisateurs. Cependant, elle pourrait aussi tirer parti de cette controverse pour clarifier ses pratiques et renforcer sa transparence.

Dans un secteur aussi compétitif, la tentation de couper les coins ronds est forte. Pourtant, l’avenir de l’IA dépend de la capacité des entreprises à innover de manière éthique. DeepSeek, avec ses ressources et son talent, a le potentiel de devenir un leader, mais seulement si elle joue selon les règles.

Une Leçon pour l’Industrie

La polémique autour de DeepSeek est un rappel : l’IA n’est pas seulement une question de technologie, mais aussi de responsabilité. À mesure que les modèles deviennent plus puissants, les entreprises doivent adopter des pratiques transparentes et respectueuses. Les utilisateurs, les régulateurs et les concurrents observent, et chaque faux pas peut avoir des conséquences durables.

En attendant des clarifications de DeepSeek, une chose est sûre : cette affaire marque un tournant dans la course à l’IA. Elle nous pousse à réfléchir à la manière dont l’innovation doit s’accompagner d’une éthique irréprochable. Et vous, que pensez-vous de cette controverse ? L’IA doit-elle être régulée plus strictement, ou la compétition justifie-t-elle tous les moyens ?

avatar d’auteur/autrice
Steven Soarez
Passionné et dévoué, j'explore sans cesse les nouvelles frontières de l'information et de la technologie. Pour explorer les options de sponsoring, contactez-nous.