Intervention de Jessica Hoffmann

Réunion du jeudi 7 mars 2024 à 8h30
Office parlementaire d'évaluation des choix scientifiques et technologiques

Jessica Hoffmann, chercheuse dans l'équipe Pair (People + AI Research) de Google :

. – Bonjour à toutes et à tous. Je suis une ancienne élève de l'École normale supérieure de Paris-Saclay, où j'ai suivi un cursus en informatique avant de rejoindre l'université de Houston au Texas. J'y ai soutenu une thèse sur l'intelligence artificielle, puis ai fait un post-doctorat sur l'implémentation algorithmique de l'éthique. J'ai ensuite intégré Google, et l'équipe d'intelligence artificielle responsable.

Si l'on veut apprendre à un algorithme qui embaucher, on va lui donner un historique de CV reçus et lui indiquer qui a été embauché et qui ne l'a pas été. Ensuite, l'algorithme va apprendre seul les paramètres importants – par exemple, l'école ou les stages réalisés – et ceux qui ne le sont pas, tels que nos passe-temps.

Malheureusement, si des discriminations ont eu cours dans le passé, l'algorithme va apprendre seul qu'être une femme, ce n'est pas bien, par exemple. Il donnera donc aux femmes un score inférieur à celui des hommes. C'est mathématique. L'IA reflète les biais des données.

Ainsi, à la question « L'IA est-elle sexiste ? », la réponse est oui. Pour un chercheur, c'est une non question. L'IA est sexiste, parce qu'elle reflète les biais de la société.

Aujourd'hui, je vous expliquerai ce que nous pouvons mettre en œuvre pour lutter contre ce phénomène.

De la même façon que les mathématiques couvrent plusieurs disciplines, dont l'algèbre ou la géométrie, l'intelligence artificielle est très large. Elle est composée de domaines très différents dont trois principaux : la classification, la recommandation et l'IA générative. D'abord, les données peuvent être classifiées. Par exemple, doit-on embaucher quelqu'un ou non ? Dans ce cadre, les problèmes de sexisme correspondent surtout à des problèmes d'erreur : à compétence égale, on va dire qu'on n'embauche pas une femme, mais on va embaucher un homme. Je ne vous ai pas donné cet exemple par hasard. Un énorme scandale a éclaté en 2018 lorsqu'on a constaté qu'un algorithme utilisé pour le recrutement était sexiste, entre autres problèmes.

Ensuite, la recommandation : lorsque vous finissez de regarder une vidéo sur YouTube, l'algorithme vous en propose une autre. Dans ce cas, les problèmes de sexisme relèvent surtout d'une invisibilisation du contenu des femmes.

Enfin, l'IA générative correspond aux modèles avec lesquels on peut discuter, comme Gemini de Google ou ChatGPT. Ils peuvent inventer des poèmes, par exemple. Là, les problèmes de sexisme sont surtout des problèmes de stéréotypes.

Ma recherche concerne l'IA générative. Je me concentrerai donc sur ce volet.

Une révolution technique a eu lieu en 2018. Ce qu'on peut faire aujourd'hui n'a rien à voir avec ce qu'on pouvait faire par le passé. Aujourd'hui, la technologie derrière les IA génératives s'appelle Large Language Model, ou LLM. Ces modèles sont entraînés avec tout ce qui se trouve en accès libre sur Internet. Ils apprennent quels mots sont dits dans quel contexte avec quels autres mots. Ils apprennent aussi à faire attention aux mots importants.

Par définition, un LLM apprend des corrélations qui lui permettront de formuler des phrases grammaticales, mais aussi à répondre de façon « normale ». C'est ce qui donne l'illusion que le modèle nous comprend. Tout est dans ce « normal », étant donné que la norme a trait aux stéréotypes. Ceux-ci peuvent être inoffensifs. Par exemple, si on dit « le chat est », très souvent, le modèle répondra « mignon », parce qu'Internet adore les chats. Mais si on dit « les femmes sont », la réponse pourra être très toxique, parce qu'Internet n'est pas forcément très gentil avec les femmes.

Si nous utilisons les LLM sans faire attention à ce phénomène, ils peuvent être toxiques. Aujourd'hui, personne n'utilise les LLM tels quels. On leur applique des mesures pour les rendre plus éthiques.

Une première idée est la suivante : si les LLM sont toxiques parce qu'ils ont vu des données toxiques, on n'a qu'à ne leur donner aucune donnée toxique. Cette solution est inefficace. D'abord, il n'existe pas de consensus sur ce qui n'est pas discriminatoire. Même si c'était le cas, nous aurions besoin d'humains pour vérifier que les données qui alimentent l'algorithme ne sont pas discriminatoires, et il faudrait des millions, voire des milliards d'interventions si tout le monde s'y mettait. Et ce ne serait même pas suffisant pour entraîner un LLM, qui a besoin de millions de millions d'occurrences.

Il existe d'autres techniques dont je voudrais vous parler. Un secteur de la recherche s'intéresse au model alignment, ou alignement de modèles, dont le but est d'aligner les modèles avec des valeurs éthiques telles que le respect ou la véracité des faits. Il existe beaucoup de techniques : le fine-tuning, le prompt tuning, le reinforcement learning from human feedback. Le principe de base reste le même : on cherche à émuler certains exemples et à en éviter d'autres. Le modèle apprendra sur cette base. On peut faire beaucoup grâce à ces techniques.

Souvent, le problème n'est pas technique, il relève des ressources. C'est le point le plus important de mon intervention. Aujourd'hui, on peut faire beaucoup de choses mais peu d'organisations se donnent les moyens humains et financiers de mettre en place ce qu'on sait déjà faire.

De plus, en matière d'intelligence artificielle, nous manquons de données en français. Une énorme partie des données dont nous disposons sont en réalité traduites de l'anglais de manière automatique. Ce n'est donc pas du vrai français.

Or, nous avons besoin de ces données pour deux raisons. D'abord, pour que les modèles soient plus éthiques, ce qui nécessite de disposer de données éthiques. Ensuite, pour la vérification qui est très importante. Elle permet de s'assurer qu'un algorithme n'est pas sexiste, sans avoir à faire aveuglément confiance à ses créateurs lorsqu'ils affirment que c'est le cas.

En conclusion, vous nous demandiez si l'intelligence artificielle était sexiste. La réponse est oui, mais j'espère que ma présentation vous a montré qu'il existe aujourd'hui des solutions prometteuses pour y remédier. Les biais sexistes, racistes ou encore homophobes dans l'intelligence artificielle font l'objet de recherches très actives depuis de nombreuses années. Nous n'avons pas attendu l'IA générative pour nous y intéresser.

Enfin, en tant que chercheuse à Google, je me permets aussi de rappeler qu'en 2018, l'entreprise a publié une charte éthique, Les principes d'une IA responsable. Elle encourage, entre autres, à ne pas créer ni amplifier les discriminations existantes. Elle guide le développement des produits de Google, qui a créé une équipe internationale travaillant uniquement sur l'IA responsable. J'en fais partie. Nous encourageons toute la communauté à se doter de chartes éthiques similaires et à se donner les moyens de les suivre.

Aucun commentaire n'a encore été formulé sur cette intervention.

Inscription
ou
Connexion