IA et propriété intellectuelle: le grand bouleversement

Entre une Europe qui penche vers toujours plus de régulation et des États-Unis qui défendent le droit à l’innovation, la législation autour de l’intelligence artificielle se trouve à un tournant décisif.
En mai 2023, les scénaristes d’Hollywood amorçaient un mouvement de grève de près de cinq mois pour obtenir une revalorisation de leurs salaires ainsi qu’un meilleur encadrement de l’usage de l’intelligence artificielle. Ce printemps, c’est l’actrice Scarlett Johansson qui a dû batailler ferme, avocats à l’appui, pour empêcher l’entreprise OpenAI d’utiliser sa voix afin d’interagir avec les utilisateurs et utilisatrices de ChatGPT4. De son côté, l’artiste Jason Michael Allen ferraille avec la justice depuis 2022 pour faire reconnaître ses droits sur l’œuvre Théâtre d’opéra spatial, créée via l’outil d’intelligence artificielle Midjourney et récompensée d’un prix lors d’un concours de photographie organisé dans le Colorado. Quant au rappeur Drake et au chanteur The Weeknd, ils se sont réveillés un beau matin en découvrant que leurs voix avaient servi à leur insu pour générer un clip musical ayant été vu près de 10 millions de fois sur la plateforme TikTok.
Autant d’exemples qui illustrent bien les bouleversements causés par l’émergence de l’intelligence artificielle (IA) en matière de protection de la propriété intellectuelle. Le point sur la question avec Yaniv Benhamou, professeur de droit du numérique et de l’information à la Faculté de droit et membre de l’Autorité indépendante d’examen des plaintes en matière de radiotélévision (AIEP).
«Contrairement aux technologies apparues au XXe siècle, qui ont permis d’automatiser certaines tâches répétitives, par exemple dans l’industrie de l’automobile, l’IA est capable de réalisations créatives, pose le juriste. Ce qui la met en concurrence avec des professions non seulement créatives mais aussi dites “intellectuelles» comme celles de chercheur, de journaliste ou de traducteur-interprète. Sur le plan juridique, cette situation pose deux grandes questions. La première porte sur l’usage des données permettant d’entraîner ce type d’outils. La deuxième concerne la protection des données et le respect de la vie privée.»
Nourrir la bête
Le principe de base des intelligences artificielles contemporaines consiste à créer un programme informatique sous la forme d’un réseau de neurones artificiel, capable d’apprendre à partir des données dont on l’alimente. C’est ce qu’on appelle les «training data» ou données d’entraînement. Pouvant prendre des formes très diverses (articles de journaux, images, vidéos, textes, conversations ou informations personnelles glanées sur les réseaux sociaux…), ces informations étaient jusqu’ici, dans leur immense majorité, accessibles librement et de façon gratuite sur Internet.
Cette manne pourrait toutefois rapidement se tarir. Au cours des trois dernières années, près de la moitié des sites utilisés pour nourrir les IA sont en effet devenus payants ou ont érigé des barrières empêchant la récolte automatisée de leurs données par les robots qui alimentent les IA. «Nous sommes entrés dans une nouvelle ère que l’on peut appeler ‘l’hiver des données', constate Yaniv Benhamou. Alors qu’à l’origine, Internet avait été pensé comme un espace global, libre et accessible à chacun, c’est en train de devenir un territoire de plus en plus fermé et fragmenté.»
Sur le plan juridique, cette évolution s’est accompagnée par l’ouverture aux États-Unis d’une trentaine de procès pour violation du droit d’auteur impliquant notamment le New York Times dont le site est massivement utilisé par des compagnies comme OpenAI ou Microsoft pour faire progresser leurs programmes d’IA.
La situation se tend également sur le front des données personnelles des utilisateurs d’Internet avec toute une série d’actions en justice collectives, aux États-Unis comme en Europe, dont l’objectif est d’empêcher que ne soient récupérées sur internet des données personnelles, telles que des conversations Facebook ou des images sur YouTube pour entraîner des IA génératives et des outils conversationnels tels que ChatGPT.
C’est d’ailleurs le même motif qui a poussé le gouvernement italien à suspendre le déploiement de ce produit dans son pays pendant près d’un mois au cours du printemps 2023 dans l’attente de garanties en matière de protection des données. Plus précisément, le régulateur italien souhaitait qu’OpenAI fournisse une information détaillée aux citoyens nationaux sur l’utilisation de leurs données et que ces mêmes citoyens aient le droit d’accéder et éventuellement d’effacer les données les concernant.
Innovation vs régulation
«Nous nous trouvons actuellement à la croisée des chemins entre deux visions très différentes de ce que peut ou ne peut pas faire l’IA, constate Yaniv Benhamou. Les anglo-saxons, suivant une tradition libérale, ont davantage tendance à mettre en avant l’innovation, tandis que l’Europe s’efforce de réguler ce qui peut l’être. Avec le risque, à terme, de créer un fossé entre ces deux mondes.»
L’approche concernant le droit d’auteur illustre bien ce hiatus. Dans la plupart des juridictions du monde, les données soumises au droit d’auteur sont en effet protégées en tant que telles dès lors qu’elles sont réutilisées à des fins d’entraînement d’une IA. Et ce, même si elles n’apparaissent pas dans les résultats finaux produits par ladite IA.
Pour abaisser cet obstacle, de nombreuses législations (sous les appellations de Text and data mining exceptions en Europe et de Fair Use aux États-Unis) ont introduit des exceptions à cette mesure contraignante.
Le législateur européen a cependant fortement limité la portée de ces exceptions dans la mesure où il est relativement facile pour les ayants droit de les déclarer inapplicables et de prévoir des mesures de protection visant à empêcher des robots d’indexation de venir extraire les informations sur un site web. Une brèche dans laquelle s’est engouffrée l’immense majorité des personnes ou consortiums concernés rendant cette mesure caduque.
Par ailleurs, depuis l’entrée en vigueur du Règlement sur l’intelligence artificielle (IA Act), le 1er août 2024, les fournisseurs d’IA ont aussi l’obligation de fournir un résumé détaillé des œuvres qu’ils utilisent pour entraîner leurs machines sur l’ensemble des territoires de l’UE.
«La difficulté est qu’il est très compliqué, voire infaisable, de publier l’ensemble des données avec lesquelles des programmes comme Dall-E et Midjourney ou ChatGPT ont été entraînés, relève Yaniv Benhamou. Il y a non seulement un problème de masse, on parle là de milliards de données, mais aussi une difficulté liée au format dans lequel ces données devraient être présentées. Sans parler de la mise à jour de ces informations, qui représente un vrai casse-tête, en particulier pour les start-up européennes qui disposent d’une puissance de feu moindre que celle de leurs concurrents américains ou chinois.»
Du côté américain, cette asymétrie est encore renforcée par le fait que la portée du Fair Use n’est pas encore clairement définie. «La question sera probablement tranchée devant les tribunaux d’ici à 2026, poursuit le juriste. Soit un juge décide que le Fair Use s’applique et les IA – en tout cas celles similaires au cas tranché – pourront continuer à s’entraîner en utilisant des données récupérées sur internet. Soit le même magistrat considère que l’exception ne s’applique pas dans le cas présent et toutes les applications de l’IA devront cesser d’exploiter ces données à des fins d’entraînement. Ou alors elles devront les acheter, ce qui ne fera qu’accélérer le processus de monétarisation des données.»
Vie privée exigeante En parallèle, la législation sur la protection de la vie privée a également beaucoup évolué ces dernières années, ce qui risque d’avoir un impact considérable sur les IA. Alors qu’il y a une décennie, très peu de pays avaient édicté des textes détaillés sur ce sujet, 125 États disposent en effet aujourd’hui de législations encadrant la vie privée et les données personnelles.
Le Règlement général sur la protection des données (RGPD) adopté en 2018 par l’Union européenne, par exemple, oblige tout prestataire fournissant des services sur le territoire de l’UE à être transparent sur les données personnelles qu’il est amené à utiliser. Il confère par ailleurs aux individus le droit de contrôler les informations qui les concernent, d’y accéder et d’en obtenir l’effacement.
«Ces droits s’appliquent même si les données sont librement accessibles sur Internet, précise Yaniv Benhamou. Ce qui, là encore, complique énormément la tâche des entreprises qui développent des IA, puisqu’elles reprennent souvent des millions de données portant sur des millions d’individus à des fins d’entraînement.»
Pour contourner cet écueil, une entreprise peut choisir d’entraîner ses IA uniquement avec les données de son propre réseau social, comme le fait X avec son chatbot Grok ou Meta, qui projette d’entraîner son propre système avec les utilisateurs de Facebook ayant consenti à cet usage. Une autre option consiste à passer des accords commerciaux sous forme de licence, ce qu’a fait OpenAI avec le réseau Reddit.
Pour l’heure, certains plaident en faveur d’une exception à la protection de la vie privée au motif d’un intérêt prépondérant qui justifierait le développement d’IA performantes et accessibles aux consommateurs et consommatrices. Il existe d’ailleurs un précédent allant dans ce sens puisqu’un tribunal américain a reconnu à un tiers le droit d’exploiter les données de LinkedIn au nom du «droit de conduire des affaires».
«Cette décision est intéressante, commente Yaniv Benhamou, dans la mesure où elle reconnaît qu’il existe un intérêt à exploiter commercialement des données. La grande question sera ensuite de déterminer ce qui prévaut entre l’intérêt à développer des outils d’IA ou la protection de la vie privée des individus. Vu l’importance de la protection des données, on peut douter que l’intérêt à l’IA puisse prévaloir, mais cela ouvre une brèche dans laquelle les compagnies actives dans l’IA pourraient tenter de s’engouffrer à l’avenir.»
En attendant d’y voir plus clair en ce qui concerne les inputs, la situation se décante également un peu du côté des outputs de l’IA, c’est-à -dire des résultats qu’elle produit. Ce qui est clairement établi aujourd’hui, c’est que si un texte, un son ou une image réalisée par le biais d’une intelligence artificielle ressemble à une œuvre existante protégée et est reconnaissable en tant que telle, il s’agit d’une violation du droit d’auteur. Ce qui est moins clair par contre, c’est le statut des résultats obtenus «à la manière de». «Du moment où on ne reproduit pas des éléments individuels d’une création artistique, on est à peu près libre de copier ce que l’on veut, précise Yaniv Benhamou. On ne peut pas être poursuivi pour violation de droit d’auteur pour avoir créé un tableau imitant le style d’Andy Warhol, tout comme le rappeur Drake et le chanteur The Weeknd n’ont pas pu empêcher la diffusion d’un titre imitant leur style. Et si Scarlett Johansson est parvenue à dissuader OpenAI d’exploiter sa voix pour ChatGPT, ce n’est pas tant au nom de la protection du droit d’auteur que sur la base de la protection de la personnalité.»
L’autre point qui fait débat touche à la propriété des œuvres créées par le biais d’une IA, comme l’illustre la bataille juridique engagée par Jason Michael Allen pour faire reconnaître ses droits sur Théâtre d’opéra spatial, une photographie produite selon les instructions de l’artiste par le logiciel Midjourney. L’ensemble des règles qui régissent actuellement la propriété intellectuelle octroient en effet des droits uniquement à des personnes physiques. Il n’est pas impensable que dans un avenir plus ou moins proche les choses évoluent et qu’une machine – qu’il s’agisse d’une IA, d’un robot ou d’une créature virtuelle – puisse disposer d’une telle prérogative. Le Parlement de Nouvelle-Zélande a bien accordé en 2017 à un de ses fleuves une personnalité juridique. Mais en attendant, l’élément décisif reste l’apport créatif d’une personne physique humaine et le lien de causalité entre cet apport créatif et le résultat produit par l’IA.
«°ä´Ç²Ô³¦°ùè³Ù±ð³¾±ð²Ô³Ù, résume Yaniv Benhamou, plus l’utilisateur d’outils d’IA dispose d’un contrôle sur les paramètres de l’outil, plus on va être enclin à considérer qu’il est bel et bien l’auteur de l’œuvre qu’il va produire. Inversement, moins il aura de contrôle, moins on aura tendance à reconnaître ses droits d’auteur, sa production tombant dès lors dans le domaine public.»
La frontière entre les deux n’est cependant pas toujours facile à délimiter. Un tribunal américain a ainsi considéré que Jason Michael Allen ne pouvait revendiquer de droits sur son Théâtre d’opéra spatial au motif qu’il s’est contenté de donner quelques instructions au logiciel qui a fourni l’essentiel du travail. À l’inverse, un magistrat chinois a reconnu les droits d’une internaute de son pays qui a procédé de façon tout à fait similaire, considérant que cette dernière a fourni un effort créatif notable. «Ces questions sont fondamentales, conclut Yaniv Benhamou. Si on protège facilement toute œuvre générée à l’aide d’outils d’IA, on risque de se retrouver avec un cyberespace surpeuplé de contenus protégés. À l’inverse, si l’on refuse toute protection, on a un risque de sous-protection avec des œuvres artificielles. Celles-ci étant alors non protégées (et donc a priori gratuites), elles concurrenceront les œuvres humaines protégées par le droit d’auteur (a priori payantes), ce qui bouleversera l’écosystème économique.»