À propos des biais liés à l’intelligence artificielle

À propos des biais liés à l’intelligence artificielle

tl; dr:

  • L'apprentissage automatique recherche des modèles dans les données. Mais l’intelligence artificielle peut être « biaisée », c’est-à-dire trouver des modèles incorrects. Par exemple, un système de détection du cancer de la peau basé sur la photo pourrait accorder une attention particulière aux images prises dans le cabinet d'un médecin. L'apprentissage automatique ne peut pas comprendre: ses algorithmes n'identifient que des modèles dans les nombres, et si les données ne sont pas représentatives, le résultat de leur traitement le sera aussi. Et détecter de tels bugs peut être difficile en raison des mécanismes mêmes de l’apprentissage automatique.
  • Le problème le plus évident et le plus redoutable est celui de la diversité humaine. Il existe de nombreuses raisons pour lesquelles les données sur les personnes peuvent perdre leur objectivité même au stade de la collecte. Mais il ne faut pas croire que ce problème ne concerne que les humains : les mêmes difficultés se posent lorsqu’on tente de détecter une inondation dans un entrepôt ou une turbine à gaz en panne. Certains systèmes peuvent être orientés vers la couleur de la peau, d'autres vers les capteurs Siemens.
  • De tels problèmes ne sont pas nouveaux dans le domaine de l’apprentissage automatique, et ils sont loin d’être uniques. Des hypothèses erronées sont formulées dans toute structure complexe, et il est toujours difficile de comprendre pourquoi une décision particulière a été prise. Nous devons lutter contre cela de manière globale : créer des outils et des processus de vérification - et éduquer les utilisateurs afin qu'ils ne suivent pas aveuglément les recommandations de l'IA. L'apprentissage automatique fait certaines choses bien mieux que nous - mais les chiens, par exemple, sont beaucoup plus efficaces que les humains pour détecter les drogues, ce qui n'est pas une raison pour les utiliser comme témoins et porter des jugements sur la base de leur témoignage. Et les chiens, soit dit en passant, sont bien plus intelligents que n’importe quel système d’apprentissage automatique.

L’apprentissage automatique est aujourd’hui l’une des tendances technologiques fondamentales les plus importantes. C’est l’une des principales façons dont la technologie changera le monde qui nous entoure au cours de la prochaine décennie. Certains aspects de ces changements sont préoccupants. Par exemple, l’impact potentiel de l’apprentissage automatique sur le marché du travail, ou son utilisation à des fins contraires à l’éthique (par exemple, par des régimes autoritaires). Il y a un autre problème auquel cet article répond : biais d'intelligence artificielle.

Ce n'est pas une histoire facile.

À propos des biais liés à l’intelligence artificielle
L'IA de Google peut trouver des chats. Cette nouvelle de 2012 était alors quelque chose de spécial.

Qu’est-ce que le « biais IA » ?

Les « données brutes » sont à la fois un oxymore et une mauvaise idée ; les données doivent être préparées correctement et avec soin. —Geoffrey Bocker

Quelque part avant 2013, pour créer un système qui, par exemple, reconnaît les chats sur les photographies, il fallait décrire des étapes logiques. Comment trouver les coins d'une image, reconnaître les yeux, analyser les textures de la fourrure, compter les pattes, etc. Ensuite, rassemblez tous les composants et découvrez que cela ne fonctionne pas vraiment. Tout comme un cheval mécanique : en théorie, il peut être fabriqué, mais en pratique, il est trop complexe à décrire. Le résultat final est constitué de centaines (voire de milliers) de règles manuscrites. Et pas un seul modèle fonctionnel.

Avec l’avènement de l’apprentissage automatique, nous avons cessé d’utiliser des règles « manuelles » pour reconnaître un objet particulier. Au lieu de cela, nous prenons mille échantillons de « ceci », X, mille échantillons de « autre », Y, et demandons à l’ordinateur de construire un modèle basé sur leur analyse statistique. Nous donnons ensuite à ce modèle quelques exemples de données et il détermine avec une certaine précision s'il correspond à l'un des ensembles. L'apprentissage automatique génère un modèle à partir de données plutôt qu'à partir d'un humain qui l'écrit. Les résultats sont impressionnants, notamment dans le domaine de la reconnaissance d’images et de formes, et c’est pourquoi l’ensemble de l’industrie technologique se tourne désormais vers l’apprentissage automatique (ML).

Mais ce n'est pas si simple. Dans le monde réel, vos milliers d'exemples de X ou Y contiennent également A, B, J, L, O, R et même L. Ceux-ci peuvent ne pas être répartis uniformément, et certains peuvent se produire si fréquemment que le système paiera plus cher. faites attention à eux plutôt qu'aux objets qui vous intéressent.

Qu’est-ce que cela signifie en pratique ? Mon exemple préféré est celui où les systèmes de reconnaissance d'images regarde une colline herbeuse et dis "mouton". La raison est claire : la plupart des exemples de photographies de « moutons » sont pris dans les prairies où ils vivent, et dans ces images l'herbe prend beaucoup plus de place que les petites peluches blanches, et c'est l'herbe que le système considère comme la plus importante. .

Il existe des exemples plus sérieux. Un récent projet pour détecter le cancer de la peau sur des photographies. Il s'est avéré que les dermatologues photographient souvent la règle ainsi que les manifestations du cancer de la peau pour enregistrer la taille des formations. Il n’y a pas de règles dans les exemples de photographies de peau saine. Pour un système d'IA, de telles règles (plus précisément, les pixels que nous définissons comme une « règle ») sont devenues l'une des différences entre des ensembles d'exemples, et parfois plus importantes qu'une petite éruption cutanée sur la peau. Ainsi, un système créé pour identifier le cancer de la peau reconnaissait parfois les dirigeants.

Le point clé ici est que le système n’a aucune compréhension sémantique de ce qu’il examine. Nous regardons un ensemble de pixels et y voyons un mouton, une peau ou des règles, mais le système n'est qu'une droite numérique. Elle ne voit pas l'espace tridimensionnel, ni les objets, les textures ou les moutons. Elle voit simplement des modèles dans les données.

La difficulté de diagnostiquer de tels problèmes est que le réseau neuronal (le modèle généré par votre système d'apprentissage automatique) est constitué de milliers de centaines de milliers de nœuds. Il n’existe pas de moyen simple d’examiner un modèle et de voir comment il prend une décision. Disposer d’une telle méthode signifierait que le processus serait suffisamment simple pour décrire toutes les règles manuellement, sans recourir à l’apprentissage automatique. Les gens craignent que l’apprentissage automatique soit devenu une sorte de boîte noire. (J'expliquerai un peu plus tard pourquoi cette comparaison est encore de trop.)

C'est, en termes généraux, le problème des biais dans l'intelligence artificielle ou l'apprentissage automatique : un système permettant de trouver des modèles dans les données peut trouver les mauvais modèles, et vous ne le remarquerez peut-être pas. Il s’agit d’une caractéristique fondamentale de la technologie, et elle est évidente pour tous ceux qui travaillent avec elle dans le monde universitaire et dans les grandes entreprises technologiques. Mais ses conséquences sont complexes, tout comme nos solutions possibles à ces conséquences.

Parlons d'abord des conséquences.

À propos des biais liés à l’intelligence artificielle
L'IA peut, implicitement pour nous, faire un choix en faveur de certaines catégories de personnes, en fonction d'un grand nombre de signaux imperceptibles.

Scénarios de biais de l'IA

De manière plus évidente et plus effrayante, ce problème peut se manifester lorsqu’il s’agit de diversité humaine. Récemment il y avait une rumeurqu'Amazon a essayé de créer un système d'apprentissage automatique pour la sélection initiale des candidats à un emploi. Comme il y a plus d’hommes parmi les travailleurs d’Amazon, les exemples « d’embauche réussie » sont également plus souvent masculins, et il y avait plus d’hommes dans la sélection de CV proposée par le système. Amazon l'a remarqué et n'a pas mis le système en production.

La chose la plus importante dans cet exemple est que, selon la rumeur, le système favoriserait les candidats masculins, malgré le fait que le sexe n'était pas spécifié sur le CV. Le système a identifié d'autres modèles dans les exemples de « bonnes embauches » : par exemple, les femmes peuvent utiliser des mots spéciaux pour décrire leurs réalisations ou avoir des passe-temps particuliers. Bien entendu, le système ne savait pas ce qu'était le « hockey », ni qui étaient les « gens », ni ce qu'était le « succès » - il effectuait simplement une analyse statistique du texte. Mais les modèles qu’elle a observés passeraient très probablement inaperçus aux yeux des humains, et certains d’entre eux (par exemple, le fait que les personnes de sexes différents décrivent le succès différemment) seraient probablement difficiles à percevoir même si nous les regardions.

De plus, c'est pire. Un système d’apprentissage automatique très efficace pour détecter le cancer sur une peau pâle peut ne pas fonctionner aussi bien sur une peau foncée, ou vice versa. Pas nécessairement à cause de préjugés, mais parce que vous devrez probablement créer un modèle distinct pour une couleur de peau différente, en choisissant des caractéristiques différentes. Les systèmes d’apprentissage automatique ne sont pas interchangeables, même dans un domaine aussi restreint que la reconnaissance d’images. Vous devez modifier le système, parfois simplement par essais et erreurs, pour bien maîtriser les caractéristiques des données qui vous intéressent jusqu'à ce que vous obteniez la précision souhaitée. Mais ce que vous ne remarquerez peut-être pas, c'est que le système est précis à 98 % du temps avec un groupe, et à seulement 91 % (encore plus précis que l'analyse humaine) avec l'autre.

Jusqu’à présent, j’ai principalement utilisé des exemples relatifs aux personnes et à leurs caractéristiques. La discussion autour de ce problème se concentre principalement sur ce sujet. Mais il est important de comprendre que les préjugés envers les gens ne constituent qu’une partie du problème. Nous utiliserons l'apprentissage automatique pour beaucoup de choses, et l'erreur d'échantillonnage sera pertinente pour toutes. D’un autre côté, si vous travaillez avec des personnes, le biais des données peut ne pas être lié à elles.

Pour comprendre cela, revenons à l’exemple du cancer de la peau et considérons trois possibilités hypothétiques de défaillance du système.

  1. Répartition hétérogène des personnes : un nombre déséquilibré de photographies de différentes carnations, conduisant à des faux positifs ou des faux négatifs dus à la pigmentation.
  2. Les données sur lesquelles le système est formé contiennent une caractéristique fréquente et distribuée de manière hétérogène qui n'est pas associée aux personnes et n'a aucune valeur diagnostique : une règle sur les photographies de cancer de la peau ou de l'herbe sur les photographies de moutons. Dans ce cas, le résultat sera différent si le système trouve des pixels dans l'image de quelque chose que l'œil humain identifie comme une « règle ».
  3. Les données contiennent une caractéristique tierce qu'une personne ne peut pas voir même si elle la recherche.

Qu'est-ce que ça veut dire? Nous savons a priori que les données peuvent représenter différemment différents groupes de personnes, et nous pouvons au minimum prévoir de rechercher de telles exceptions. En d’autres termes, il existe de nombreuses raisons sociales de supposer que les données sur des groupes de personnes contiennent déjà certains biais. Si nous regardons la photo avec la règle, nous verrons cette règle - nous l'avons simplement ignorée auparavant, sachant que cela n'a pas d'importance et oubliant que le système ne sait rien.

Mais que se passerait-il si toutes vos photos de peau malsaine étaient prises dans un bureau sous une lumière incandescente et que votre peau saine était prise sous une lumière fluorescente ? Et si, après avoir fini de photographier une peau saine, avant de photographier une peau malsaine, vous mettiez à jour le système d'exploitation de votre téléphone et qu'Apple ou Google modifiaient légèrement l'algorithme de réduction du bruit ? Une personne ne peut pas le remarquer, peu importe à quel point elle recherche de telles caractéristiques. Mais le système d’utilisation de la machine le verra et l’utilisera immédiatement. Elle ne sait rien.

Jusqu'à présent, nous avons parlé de fausses corrélations, mais il se peut également que les données soient exactes et que les résultats soient corrects, mais que vous ne vouliez pas les utiliser pour des raisons éthiques, juridiques ou de gestion. Certaines juridictions, par exemple, n'autorisent pas les femmes à bénéficier d'une réduction sur leur assurance, même si les femmes peuvent être des conductrices plus sûres. On peut facilement imaginer un système qui, lors de l’analyse des données historiques, attribuerait un facteur de risque plus faible aux prénoms féminins. D'accord, supprimons les noms de la sélection. Mais rappelez-vous l'exemple d'Amazon : le système peut déterminer le sexe en fonction d'autres facteurs (même s'il ne sait pas ce qu'est le sexe, ni même ce qu'est une voiture), et vous ne le remarquerez pas tant que le régulateur n'aura pas analysé rétroactivement les tarifs que vous avez appliqués. offre et vous facture, vous serez condamné à une amende.

Enfin, on suppose souvent que nous n’utiliserons de tels systèmes que pour des projets impliquant des personnes et des interactions sociales. C'est faux. Si vous fabriquez des turbines à gaz, vous souhaiterez probablement appliquer le machine learning à la télémétrie transmise par des dizaines ou des centaines de capteurs sur votre produit (l'audio, la vidéo, la température et tout autre capteur génèrent des données qui peuvent être très facilement adaptées pour créer une machine). modèle d'apprentissage). Hypothétiquement, vous pourriez dire : « Voici les données d’un millier de turbines qui sont tombées en panne avant de tomber en panne, et voici les données d’un millier de turbines qui ne sont pas tombées en panne. Construisez un modèle pour montrer quelle est la différence entre eux. Eh bien, imaginez maintenant que des capteurs Siemens soient installés sur 75 % des mauvaises turbines, et seulement 12 % des bonnes (il n'y a aucun lien avec des pannes). Le système construira un modèle pour trouver des turbines équipées de capteurs Siemens. Oops!

À propos des biais liés à l’intelligence artificielle
Photo — Moritz Hardt, UC Berkeley

Gérer les biais de l'IA

Que pouvons-nous y faire? Vous pouvez aborder la question sous trois angles :

  1. Rigueur méthodologique dans la collecte et la gestion des données pour la formation du système.
  2. Outils techniques pour analyser et diagnostiquer le comportement du modèle.
  3. Formez, éduquez et soyez prudent lors de la mise en œuvre de l’apprentissage automatique dans les produits.

Il y a une plaisanterie dans le livre de Molière « Le Bourgeois dans la noblesse » : on disait à un homme que la littérature se divise en prose et en poésie, et il fut ravi de découvrir qu'il avait parlé en prose toute sa vie, sans le savoir. C’est probablement ce que pensent les statisticiens aujourd’hui : sans s’en rendre compte, ils ont consacré leur carrière à l’intelligence artificielle et aux erreurs d’échantillonnage. Rechercher l’erreur d’échantillonnage et s’en préoccuper n’est pas un problème nouveau, il suffit d’aborder systématiquement sa solution. Comme mentionné ci-dessus, dans certains cas, il est en réalité plus facile d’y parvenir en étudiant les problèmes liés aux données personnelles. Nous supposons a priori que nous pouvons avoir des préjugés à l'égard de différents groupes de personnes, mais il nous est difficile d'imaginer ne serait-ce qu'un préjugé à l'égard des capteurs Siemens.

Ce qui est nouveau dans tout cela, bien sûr, c'est que les gens ne font plus directement d'analyse statistique. Elle est réalisée par des machines qui créent de grands modèles complexes et difficiles à comprendre. La question de la transparence est l’un des principaux aspects du problème des préjugés. Nous craignons que le système ne soit pas seulement biaisé, mais qu’il n’existe aucun moyen de détecter ses biais, et que l’apprentissage automatique soit différent des autres formes d’automatisation, censées consister en des étapes logiques claires pouvant être testées.

Ici, nous avons deux problèmes. Nous pourrons peut-être encore effectuer une sorte d’audit des systèmes d’apprentissage automatique. Et auditer n’importe quel autre système n’est en réalité pas plus simple.

Premièrement, l'une des orientations de la recherche moderne dans le domaine de l'apprentissage automatique est la recherche de méthodes permettant d'identifier les fonctionnalités importantes des systèmes d'apprentissage automatique. Cela dit, l’apprentissage automatique (dans son état actuel) est un domaine scientifique complètement nouveau qui évolue rapidement, alors ne pensez pas que des choses qui sont impossibles aujourd’hui ne pourront bientôt devenir tout à fait réelles. Projet OpenAI en est un exemple intéressant.

Deuxièmement, l’idée selon laquelle vous pouvez tester et comprendre le processus de prise de décision de systèmes ou d’organisations existants est bonne en théorie, mais médiocre en pratique. Comprendre comment les décisions sont prises dans une grande organisation n’est pas chose facile. Même s’il existe un processus décisionnel formel, il ne reflète pas la manière dont les gens interagissent réellement et, souvent, ils n’ont pas eux-mêmes une approche logique et systématique pour prendre leurs décisions. Comme mon collègue l'a dit Vijay Pandé, les gens sont aussi des boîtes noires.

Prenez un millier de personnes dans plusieurs entreprises et institutions qui se chevauchent, et le problème devient encore plus complexe. Nous savons après coup que la navette spatiale était destinée à se briser à son retour, et que des individus au sein de la NASA disposaient d'informations qui leur donnaient des raisons de penser que quelque chose de grave pourrait arriver, mais le système généralement Je ne le savais pas. La NASA vient même de subir un audit similaire après avoir perdu sa navette précédente, et pourtant elle en a perdu une autre pour une raison très similaire. Il est facile de prétendre que les organisations et les individus suivent des règles claires et logiques qui peuvent être testées, comprises et modifiées, mais l'expérience prouve le contraire. Ce "L'illusion de Gosplan».

Je compare souvent l'apprentissage automatique aux bases de données, notamment relationnelles - une nouvelle technologie fondamentale qui a modifié les capacités de l'informatique et du monde qui l'entoure, qui est devenue une partie de tout, que nous utilisons constamment sans nous en rendre compte. Les bases de données ont également des problèmes, et ils sont de nature similaire : le système peut être construit sur de mauvaises hypothèses ou de mauvaises données, mais cela sera difficile à remarquer, et les personnes qui utilisent le système feront ce qu'il leur dit sans se poser de questions. Il y a beaucoup de vieilles blagues sur les fiscalistes qui ont mal orthographié votre nom, et les convaincre de corriger l’erreur est beaucoup plus difficile que de changer réellement votre nom. Il existe de nombreuses façons d'envisager cela, mais il n'est pas clair lequel est le meilleur : comme un problème technique dans SQL, ou comme un bug dans une version d'Oracle, ou comme un échec des institutions bureaucratiques ? Dans quelle mesure est-il difficile de trouver un bug dans un processus qui a conduit le système à ne pas disposer de fonction de correction des fautes de frappe ? Aurait-on pu s’en rendre compte avant que les gens ne commencent à se plaindre ?

Ce problème est illustré encore plus simplement par les histoires de conducteurs se dirigeant vers des rivières en raison de données obsolètes dans le navigateur. D'accord, les cartes doivent être constamment mises à jour. Mais dans quelle mesure TomTom est-il responsable de l'explosion de votre voiture en mer ?

La raison pour laquelle je dis cela est que oui, les biais d’apprentissage automatique créeront des problèmes. Mais ces problèmes seront similaires à ceux auxquels nous avons été confrontés dans le passé, et ils pourront être remarqués et résolus (ou non) aussi bien que nous avons pu le faire dans le passé. Par conséquent, il est peu probable qu’un scénario dans lequel les biais de l’IA causent des dommages se produise aux chercheurs seniors travaillant dans une grande organisation. Très probablement, un entrepreneur technologique ou un fournisseur de logiciels insignifiant écrira quelque chose à genoux, en utilisant des composants, des bibliothèques et des outils open source qu'il ne comprend pas. Et le client malchanceux achètera l'expression « intelligence artificielle » dans la description du produit et, sans poser de questions, la distribuera à ses employés mal payés, en leur ordonnant de faire ce que dit l'IA. C'est exactement ce qui s'est passé avec les bases de données. Il ne s’agit pas d’un problème d’intelligence artificielle, ni même d’un problème logiciel. C'est le facteur humain.

Conclusion

L'apprentissage automatique peut faire tout ce que vous pouvez apprendre à un chien - mais vous ne pouvez jamais être sûr de ce que vous avez exactement appris au chien.

J’ai souvent l’impression que le terme « intelligence artificielle » ne fait que gêner des conversations comme celle-ci. Ce terme donne la fausse impression que nous avons réellement créé cette intelligence. Que nous sommes en route vers HAL9000 ou Skynet - quelque chose qui en fait comprend. Mais non. Ce ne sont que des machines, et il est beaucoup plus précis de les comparer, par exemple, à une machine à laver. Elle fait la lessive bien mieux qu'un humain, mais si vous lui mettez de la vaisselle au lieu de la lessive, elle... les lavera. La vaisselle deviendra même propre. Mais ce ne sera pas ce à quoi vous vous attendiez, et cela n’arrivera pas car le système a des préjugés concernant les plats. La machine à laver ne sait pas ce qu'est la vaisselle ni ce que sont les vêtements - ce n'est qu'un exemple d'automatisation, conceptuellement semblable à la façon dont les processus étaient automatisés auparavant.

Qu'il s'agisse de voitures, d'avions ou de bases de données, ces systèmes seront à la fois très puissants et très limités. Ils dépendront entièrement de la manière dont les gens utilisent ces systèmes, de leurs intentions bonnes ou mauvaises et de leur compréhension de leur fonctionnement.

Par conséquent, dire que « l’intelligence artificielle est mathématique, elle ne peut donc pas avoir de préjugés » est complètement faux. Mais il est tout aussi faux de dire que l’apprentissage automatique est « de nature subjective ». L'apprentissage automatique trouve des modèles dans les données, et les modèles qu'il trouve dépendent des données, et les données dépendent de nous. Tout comme ce que nous faisons avec eux. L'apprentissage automatique fait certaines choses bien mieux que nous - mais les chiens, par exemple, sont beaucoup plus efficaces que les humains pour détecter les drogues, ce qui n'est pas une raison pour les utiliser comme témoins et porter des jugements sur la base de leur témoignage. Et les chiens, soit dit en passant, sont bien plus intelligents que n’importe quel système d’apprentissage automatique.

Traduction: Diana Letskaïa.
Édition : Alexey Ivanov.
Communauté: @PonchikNews.

Source: habr.com

Ajouter un commentaire