Comment entraîner votre LLaMA ? - Questions de droits d’auteur liées à l’entraînement des modèles d’IA générative
Les modèles d’intelligence artificielle (IA) générative font des vagues à travers le monde et sont même parfois qualifiés de « machines à vapeur de la quatrième révolution industrielle ». Ces modèles d’IA sont avides de données et nécessitent de vastes quantités de données de haute qualité pour générer des résultats de qualité. Alors que la course à l’IA générative s’intensifie du côté des développeurs, l’obtention d’une permission ou d’une licence de tous les auteurs visés peut s’avérer impossible en raison des contraintes opérationnelles, financières et temporelles. Cette réalité a donné lieu à un bras de fer entre les développeurs de modèles d’IA et les auteurs. Les développeurs se réfugient sous l’égide de l’utilisation équitable, arguant que les œuvres créées par l’IA sont suffisamment transformées puisque, à l’instar des auteurs humains, les modèles d’IA produisent aussi leurs œuvres en se fondant sur la connaissance et la créativité. Les développeurs arguent par ailleurs que les protections du droit d’auteur s’appliquent à l’expression d’une idée, et non aux idées ou en renseignements factuels eux-mêmes. De l’autre côté, les auteurs y voient une menace à leur gagne-pain et s’estiment lésés par l’utilisation de leurs œuvres pour entraîner des modèles d’IA sans leur consentement. Les auteurs s’estiment également lésés par les risques d’hallucinations susceptibles de diluer leur marque.
Récents développements juridiques
Dans l’espace concurrentiel actuel, certains développeurs se sont appuyés sur des bibliothèques clandestines, ce qui a mené à une rafale de poursuites aux États-Unis. Par exemple, Meta a reconnu[1] avoir utilisé la section « Books3 » de l’ensemble de données de modélisation de langage de source ouverte « The Pile » pour entraîner son modèle LLaMA. « The Pile » prend une partie de son contenu de bibliothèques clandestines piratées. Par conséquent, certains auteurs, comme l’humoriste Sarah Silverman, ont déposé des poursuites contre Meta[2] et OpenAI[3]. Dans la poursuite de Silverman contre Meta, les auteurs soutiennent que le produit et le modèle d’IA lui-même sont des œuvres dérivées, violant ainsi le droit d’auteur. La Cour a refusé d’accepter cette affirmation, citant une décision[4] de 1984 pour indiquer que pour établir une violation, il est nécessaire de prouver que le produit [traduction] « intègre, d’une quelconque façon, une partie » des livres des demandeurs.
Dans le but d’élargir l’application ChatGPT au reportage de nouvelles, OpenAI a signé des ententes avec l’Associated Press et Axel Springer et entamé des négociations avec le New York Times (NYT). Les négociations sont toutefois tombées à l’eau, ce qui a ultimement conduit le NYT à déposer une poursuite contre OpenAI et Microsoft à la Cour de New York[5], alléguant que ChatGPT et Copilot ont été bâtis en copiant et en s’appuyant sur des millions d’articles, d’enquêtes, d’opinions, de critiques et de guides parus dans les journaux. La poursuite du NYT est unique, puisqu’elle allègue que le produit des modèles d’IA ne se contente pas de [traduction] « résumer de près » le contenu du NYT protégé par le droit d’auteur et d’« imiter son style d’expression » : le NYT allègue que les modèles peuvent aussi copier verbatim le contenu, fournissant dans le dossier de poursuite « de nombreux exemples ». La poursuite du NYT est donc axée sur le produit des modèles d’IA.
Dans un autre dossier intéressant, les visualistes ont déposé une poursuite à la Cour[6] de la Californie en s’appuyant sur un ensemble exhaustif de motifs, y compris la violation directe du droit d’auteur, la violation indirecte du droit d’auteur, les droits publicitaires, la concurrence déloyale, et la violation de contrat. Bien que la Cour ait rejeté les autres motifs en se fondant sur les faits de l’affaire, le motif de violation directe du droit d’auteur a survécu. Cela est dû au fait que les développeurs ont téléchargé des images protégées par le droit d’auteur sans autorisation pour les utiliser dans l’entraînement de Stable Diffusion. Crucialement, cet entraînement signifie que « ces images sont stockées dans Stable Diffusion et intégrées à celui-ci sous la forme de copies compressées ».
L’utilisation équitable
La doctrine de l’utilisation équitable peut protéger les développeurs contre les actions relatives à la violation du droit d’auteur. Dans le contexte américain plus particulièrement, lorsqu’une œuvre est suffisamment transformée de manière téléologique, sans toutefois constituer une copie substantielle ou exacte du texte protégé, il est possible de se protéger en invoquant la doctrine de l’utilisation équitable. Une décision de principe pertinente a été rendue par la Cour suprême des États-Unis refusant d’infirmer la conclusion tirée par le deuxième circuit dans le cadre de l’affaire Google Books[7]. Google Books crée une base de données contenant la copie numérisée d’œuvres protégées par le droit d’auteur, offre une fonction de recherche et affiche une partie des livres protégés à ses utilisateurs, une pratique que la Cour a jugé être protégée par l’utilisation équitable. Si la jurisprudence ressortant de la décision Google Books s’applique, il est probable que les développeurs de l’IA ne puissent être tenus responsables du stockage d’œuvres protégées par le droit d’auteur dans le programme dorsal.
Que nous réserve l’avenir?
Comme les modèles d’IA génératrices continuent d’être entraînés à l’aide d’ensembles de données de plus en plus vastes, les produits arriveront éventuellement à minimiser la régurgitation, ressemblant de moins en moins aux œuvres originales qui les ont alimentés. Il deviendra ainsi plus difficile pour les auteurs et les artistes originaux de prouver qu’il y a eu une violation directe du droit d’auteur en se fondant sur les produits de ces systèmes d’IA. Néanmoins, les auteurs pourront continuer d’alléguer que les développeurs ont utilisé des ensembles de données piratés et créé des copies de leurs œuvres soit dans les systèmes du développeur, soit dans les systèmes du fournisseur de données, ce qui rendrait le développeur directement ou indirectement responsable, respectivement. Il pourrait toutefois être difficile de prouver ces allégations, puisque les renseignements concernant les ensembles de données utilisés pour entraîner l’IA deviennent très opaques, ce qui vient dresser des obstacles au dépôt d’une poursuite en premier lieu.
Il est néanmoins intéressant de noter que les lois relatives à la propriété intellectuelle (PI) peuvent varier grandement d’une administration à l’autre. On note entre autres développements majeurs que le considérant 60i de la Loi sur l’IA de l’Union européenne (UE) vient créer une nouvelle obligation pour les modèles d’IA d’utilité générale, qui doivent maintenant obtenir l’autorisation du titulaire de droits concerné avant de pouvoir se servir de ses œuvres dans l’entraînement du modèle d’IA. Par ailleurs, l’énonciation 60k exige que les développeurs divulguent publiquement [traduction] « un sommaire détaillé du contenu utilisé pour entraîner » les modèles d’IA, et l’énonciation 60j rend fait en sorte que la loi proposée s’appliquerait aux modèles d’IA entraînés en dehors de l’administration.
Si les auteurs ont accueilli les modifications législatives proposées, les développeurs ont pour leur part soulevé des préoccupations. Les développeurs sont préoccupés du fait que des contrôles juridiques stricts sur l’utilisation de renseignements moissonnés et la contrainte des développeurs à négocier des droits de licence pour les données d’entraînement viendraient nuire au progrès technologique, entraîner des pertes financières importantes et perturber l’écosystème numérique global. Les développeurs estiment également que l’obligation de divulguer des secrets commerciaux, comme les méthodes d’entraînement et les sources des données d’entraînement, viendrait éroder leur avantage concurrentiel et étouffer l’innovation. Les développeurs pourraient alors recourir à des options semblables à celle prise par Meta lorsqu’il a répondu à la Loi sur les nouvelles en ligne en retirant les médias d’information canadiens de sa plateforme. Les développeurs pourraient donc décider d’accorder une plus grande attention au contenu issu de quelques administrations qui leur sont plus favorables, ce qui pourrait être problématique pour la diversité de l’économie du savoir et du progrès social. De l’autre côté, si aucun mécanisme n’est établi pour soutenir les créateurs originaux, l’IA pourrait avoir des effets épouvantables sur les créateurs de contenu originaux qui sont déjà en difficulté, ce qui pourrait amoindrir la créativité.
J’estime que la façon de procéder doit consister à encourager, et non à contraindre, l’établissement de mécanismes de licence fondés sur des mesures comme le nombre de fois que le modèle d’IA a utilisé le contenu protégé par le droit d’auteur dans son entraînement et dans la création de produits, dépendamment de la faisabilité. Par conséquent, des collaborations plus approfondies entre créateurs originaux et développeurs joueraient un rôle essentiel dans l’équilibre de la créativité, de l’originalité et de l’innovation technique. Il pourrait s’agir à titre d’exemple d’une collaboration où les créateurs originaux travaillent avec les développeurs dans le cadre d’un partenariat conjoint, jouant un rôle actif dans le développement et l’amélioration des modèles d’IA.
[1] Huge Touvron et coll., LlaMA: Open and Efficient Foundation Language Models (arXiv, 2023) arXiv:2302.13971 [cs].
[2] Kadrey et al. v. Meta Platforms, Inc., 23-cv-03417-VC (Cour de district des États-Unis, district du Nord de la Californie).
[3] Silverman et al. v. Open AI, 3:23-cv-03416 (Cour de district des États-Unis, district du Nord de la Californie).
[4] Litchfield v. Spielberg, 736 F.2d 1352, 1357 (Cour d’appel des États-Unis du neuvième circuit; 6 juillet 1984).
[5] The New York Times Company v. Microsoft Corp. et al., 23-cv-11195 (Cour de district des États-Unis, district du Sud de New York).
[6] Andersen et al. v. Stability AI Ltd. et al., 23-cv-00201-WHO (Cour de district des États-Unis, district du Nord de la Californie).
[7] Authors Guild v. Google 721 F.3d 132 (Cour d’appel des États-Unis du deuxième circuit; 2015).