Imaginez que vous passez des années à écrire un livre, à peaufiner chaque phrase, à partager votre expertise avec le monde. Et un jour, vous découvrez que votre œuvre a été aspirée sans permission dans les entrailles d’une intelligence artificielle géante, appartenant à l’une des plus grandes entreprises tech. C’est exactement ce qui arrive à Elizabeth Lyon, auteure américaine, et potentiellement à des milliers d’autres écrivains.

En décembre 2025, une class action a été déposée contre Adobe. L’accusation est lourde : l’entreprise aurait utilisé des versions piratées de livres pour entraîner son modèle de langage SlimLM. Ce n’est pas un cas isolé, mais il illustre parfaitement les tensions croissantes entre l’explosion de l’IA générative et le respect des droits d’auteur.

Adobe et son virage agressif vers l’intelligence artificielle

Depuis 2023, Adobe s’est lancé à corps perdu dans la course à l’IA. La société a dévoilé Firefly, une suite d’outils capables de générer images, vidéos et textes à partir de simples prompts. L’objectif affiché : démocratiser la création pour les professionnels du design et de l’édition.

Mais derrière ces fonctionnalités séduisantes se cache une réalité technique moins reluisante. Comme tous les grands modèles d’IA, ceux d’Adobe nécessitent des quantités colossales de données pour s’entraîner. Et c’est là que le bât blesse.

Le modèle incriminé s’appelle SlimLM, une famille de petits modèles de langage optimisés pour les tâches d’assistance documentaire sur mobile. Adobe le présente comme innovant et efficace. Pourtant, selon la plainte, son pré-entraînement repose sur un dataset controversé : SlimPajama-627B.

SlimPajama : un dataset dérivé de sources problématiques

SlimPajama n’est pas né de rien. Il s’agit d’une version modifiée et dédupliquée de RedPajama, un dataset open-source créé pour reproduire les performances de LLaMA de Meta. Mais RedPajama intègre lui-même une partie extrêmement litigieuse : Books3.

Books3, c’est cette fameuse bibliothèque de 191 000 livres numérisés sans autorisation, souvent issue de « shadow libraries » pirates. Ce dataset a déjà fait couler beaucoup d’encre – et beaucoup de plaintes – dans l’industrie tech.

La plainte déposée par Elizabeth Lyon affirme que SlimPajama contient bel et bien Books3, car il en est une copie dérivée. Résultat : les œuvres de l’auteure, des guides sur l’écriture non-fiction, se retrouvent intégrées sans consentement dans le modèle d’Adobe.

Le dataset SlimPajama a été créé en copiant et manipulant le dataset RedPajama (incluant Books3). Ainsi, SlimPajama contient le dataset Books3, y compris les œuvres protégées par le droit d’auteur de la plaignante et des membres de la class.

Extrait de la plainte contre Adobe

Books3 : la bombe à retardement de l’industrie de l’IA

Books3 n’est pas un dataset anodin. Il a été au cœur de nombreuses batailles judiciaires ces dernières années. Des auteurs, éditeurs et même des associations ont multiplié les actions contre les entreprises qui l’ont utilisé.

En septembre 2025, Anthropic a dû payer 1,5 milliard de dollars pour régler un litige avec des auteurs accusant l’entreprise d’avoir exploité leurs livres piratés pour entraîner Claude. Ce règlement a marqué un tournant : les entreprises commencent à payer cher leurs pratiques d’entraînement.

  • Apple accusé en septembre 2025 d’avoir utilisé RedPajama pour Apple Intelligence
  • Salesforce poursuivi en octobre pour les mêmes raisons
  • Meta, OpenAI, Microsoft… la liste des entreprises concernées par Books3 est longue
  • Même des datasets « open-source » comme RedPajama ou SlimPajama héritent de ces problèmes

Le problème est systémique : pour atteindre des performances élevées, les modèles ont besoin de données massives et variées. Internet regorge de contenu, mais une grande partie est protégée par le droit d’auteur.

Les arguments d’Adobe : entre déni et défense technique

Adobe, de son côté, met en avant la nature open-source de SlimPajama. L’entreprise affirme que le dataset a été publié par Cerebras, une société spécialisée dans les puces pour l’IA, et qu’il est libre d’utilisation.

Mais cette défense tient-elle la route ? Les plaignants arguent que le caractère open-source ne lave pas le dataset de ses origines illicites. Copier un contenu piraté, même en le modifiant, reste une violation du copyright.

C’est un débat juridique complexe qui oppose deux visions : celle des innovateurs tech qui estiment que l’entraînement sur des données publiques relève du fair use, et celle des créateurs qui exigent compensation et consentement.

Firefly : une IA « éthique » qui cache mal ses failles

Adobe a pourtant tenté de se démarquer de la concurrence. Avec Firefly, l’entreprise promettait une IA entraînée uniquement sur des contenus licenciés ou libres de droits. Un positionnement marketing fort : « Commercial safe ».

Mais cette promesse concerne surtout la génération d’images. Pour les modèles de texte comme SlimLM, la transparence est bien moindre. Et cette affaire révèle une possible incohérence dans la stratégie éthique d’Adobe.

Les créateurs se sentent trahis. Comment faire confiance à une entreprise qui, d’un côté, vante ses pratiques responsables et, de l’autre, utilise des datasets contaminés ?

Les implications pour l’ensemble de l’écosystème IA

Cette class action n’est qu’une goutte dans l’océan des litiges en cours. Mais elle pourrait avoir des répercussions majeures sur la façon dont les entreprises tech développent leurs modèles.

Plusieurs scénarios se dessinent :

  1. Des règlements massifs qui obligent les entreprises à payer des licences rétroactives
  2. Le développement de datasets entièrement « propres » (plus coûteux et limités)
  3. Une évolution de la jurisprudence sur le fair use en matière d’entraînement IA
  4. La montée en puissance de modèles plus petits, entraînés sur des données ciblées

À long terme, ces affaires pourraient ralentir l’innovation… ou au contraire la rendre plus respectueuse des créateurs.

Et les auteurs dans tout ça ?

Elizabeth Lyon n’est pas une activiste. C’est une auteure spécialisée dans les guides d’écriture. Ses livres aident des milliers de personnes à structurer leurs idées, à rédiger des mémoires ou des ouvrages professionnels.

Pour elle, découvrir que son travail sert à entraîner une IA sans compensation est une double peine : non seulement ses droits sont bafoués, mais l’IA risque de concurrencer directement son métier de formatrice et d’auteure.

De nombreux créateurs partagent ce sentiment. L’IA générative promet de démocratiser la création, mais à quel prix pour ceux qui produisent le contenu original ?

Comment pouvons-nous encourager la création si les outils qui la facilitent se nourrissent du travail des créateurs sans les rémunérer ?

Réflexion partagée par de nombreux auteurs

Vers une régulation inévitable ?

Les gouvernements commencent à bouger. L’Union européenne, avec son AI Act, impose déjà des obligations de transparence sur les données d’entraînement. Aux États-Unis, la pression monte pour une législation spécifique.

Les entreprises tech, elles, cherchent des solutions. Certaines investissent dans des partenariats avec des éditeurs. D’autres développent des outils d’opt-out (bien souvent inefficaces). Quelques-unes explorent le synthetic data.

Mais tant que la jurisprudence reste floue, les litiges vont se multiplier. Adobe n’est probablement que le début d’une longue série.

Conclusion : un tournant pour l’IA responsable

L’affaire Adobe vs Elizabeth Lyon et les auteurs n’est pas qu’un énième procès tech. Elle cristallise un débat de société : jusqu’où l’innovation peut-elle aller sans piétiner les droits des créateurs ?

Les prochains mois seront décisifs. Si les plaignants obtiennent gain de cause, cela pourrait forcer toute l’industrie à repenser ses pratiques d’entraînement. Une IA plus éthique, mais peut-être plus lente à progresser.

En attendant, une chose est sûre : les créateurs ne se laisseront plus faire silencieusement. Leur voix, amplifiée par ces actions collectives, pourrait bien redessiner les contours de l’intelligence artificielle de demain.

Et vous, qu’en pensez-vous ? L’entraînement sur des données publiques doit-il être considéré comme du fair use ? Ou les créateurs méritent-ils une compensation systématique ? Le débat est ouvert.

avatar d’auteur/autrice
Steven Soarez
Passionné et dévoué, j'explore sans cesse les nouvelles frontières de l'information et de la technologie. Pour explorer les options de sponsoring, contactez-nous.