Про упередженість штучного інтелекту

Про упередженість штучного інтелекту

ТЛ; ін:

  • Машинне навчання шукає закономірності даних. Але штучний інтелект може бути «упереджений» — тобто знаходити невірні патерни. Наприклад, система виявлення раку шкіри за фотографією може звертати особливу увагу на знімки, зроблені у лікарському кабінеті. Машинне навчання не вміє розуміти: його алгоритми лише виявляють закономірності у числах, і якщо дані не репрезентативні, таким буде результат їх обробки. А відловлювати такі баги може бути непросто через саму механіку машинного навчання.
  • Найочевидніша й лякаюча проблемна галузь — це людська різноманітність. Існує безліч причин, чому дані про людей можуть втрачати об'єктивність ще на етапі збору. Але не варто думати, що ця проблема стосується тільки людей: такі самі складнощі виникають при спробі знайти потоп на складі або газову турбіну, що вийшла з ладу. Одні системи можуть мати упередження щодо кольору шкіри, інші будуть упереджено ставитись до датчиків Siemens.
  • Такі проблеми не є новими для машинного навчання, та й властиві далеко не тільки йому. Невірні припущення робляться у будь-яких складних структурах, а зрозуміти, чому було прийнято те чи інше рішення, завжди непросто. Боротися з цим потрібно комплексно: створювати інструменти та процеси для перевірки — і утворювати користувачів, щоб вони не сліпо дотримувалися рекомендацій ІІ. Машинне навчання справді робить деякі речі набагато кращими за нас, — але собаки, наприклад, набагато ефективніші за людей у ​​виявленні наркотиків, що зовсім не привід залучати їх як свідків і виносити вироки на підставі їхніх свідчень. А собаки, до речі, набагато розумніші за будь-яку систему машинного навчання.

Машинне навчання сьогодні – один із найважливіших фундаментальних технологічних трендів. Це один з основних способів, якими технологія змінюватиме навколишній світ у наступне десятиліття. Деякі аспекти цих змін викликають занепокоєння. Наприклад, потенційний вплив машинного навчання ринку праці, чи його використання для неетичних цілей (припустимо, авторитарними режимами). Є ще одна проблема, якій і присвячений цей пост: упередженість штучного інтелекту.

Це складна історія.

Про упередженість штучного інтелекту
ІІ від Google вміє знаходити котиків. Ця новина з 2012 року була тоді чимось особливим.

Що таке «упередженість ІІ»?

"Сирі дані" - це одночасно і оксюморон, і погана ідея; дані потрібно добре і дбайливо готувати. -Джеффрі Бокер

Десь до 2013 року, щоби зробити систему, яка, скажімо, розпізнає котів на фотографіях, вам треба було описувати логічні кроки. Як знайти на зображенні кути, розпізнати очі, проаналізувати текстури на наявність хутра, порахувати лапи тощо. Потім зібрати всі компоненти - і виявити, що це все до ладу не працює. Приблизно як механічний кінь — теоретично його можна зробити, але на практиці він занадто складний для опису. На виході маєте сотні (або навіть тисячі) рукописних правил. І жодної працюючої моделі.

З появою машинного навчання ми перестали використовувати «ручні» правила розпізнавання того чи іншого об'єкта. Натомість ми беремо тисячу зразків «того», Х, тисячу зразків «іншого», Y, і змушуємо комп'ютер побудувати модель на основі їхнього статистичного аналізу. Потім ми даємо цій моделі деякий приклад даних, і вона з певною точністю визначає, чи підходить він до одного з наборів. Машинне навчання генерує модель на основі даних, а не за допомогою людини, яка її пише. Результати вражають, особливо в області розпізнавання зображень і патернів, і саме тому вся технічна індустрія зараз переходить на машинне навчання (ML).

Але не все так просто. У реальному світі ваші тисячі прикладів X або Y також містять А, B, J, L, O, R і навіть L. Вони можуть бути нерівномірно розподілені, і деякі з них можуть зустрічатися настільки часто, що система зверне на них більше уваги, ніж на об'єкти, що вас цікавлять.

Що це означає на практиці? Мій улюблений приклад – це коли системи розпізнавання зображень дивляться на трав'янистий пагорб і кажуть: вівця. Зрозуміло, чому: більша частина фотографій-прикладів «вівці» зроблена на луках, де вони живуть, і на цих зображеннях трава займає набагато більше місця, ніж маленькі пухнасті біленькі, і саме траву системи вважають найважливішою.

Є приклади й серйозніші. З недавнього — один проект виявлення раку шкіри на фотографіях. Виявилося, що дерматологи часто фотографують лінійку разом із проявами раку шкіри, щоб зафіксувати розмір утворень. На прикладах фотографій здорової шкіри лінійок немає. Для системи ІІ такі лінійки (точніше, пікселі, які нами визначаються як «лінійка») стали однією з відмінностей між наборами прикладів, і іноді важливішими, ніж невеликий висип на шкірі. Так система, створена для розпізнавання раку шкіри, іноді замість нього упізнавала лінійки.

Ключовий момент тут те, що система не має семантичного розуміння того, на що вона дивиться. Ми дивимося на набір пікселів і бачимо у них вівцю, шкіру чи лінійки, а система — лише числову рядок. Вона не бачить тривимірного простору, не бачить ні об'єктів, ні текстур, ні овець. Вона просто бачить патерни у даних.

Складність діагностики таких проблем у тому, що нейронна мережа (модель, згенерована системою машинного навчання) складається з тисяч сотень тисяч вузлів. Немає простого способу заглянути в модель і побачити, як вона ухвалює рішення. Наявність такого способу означало б, що досить простий, щоб описати всі правила вручну, без використання машинного навчання. Люди турбуються, що машинне навчання стало якоюсь «чорною скринькою». (Я поясню трохи згодом, чому це порівняння все-таки перебір.)

Це, загалом, і є проблема упередженості штучного інтелекту або машинного навчання: система для знаходження патернів у даних може знаходити невірні патерни, а ви можете цього не помітити. Це фундаментальна характеристика технології, і це очевидно всім, хто працює з нею у наукових колах та у великих технологічних компаніях. Але її наслідки складні, і наші можливі рішення цих наслідків теж.

Поговоримо спочатку про наслідки.

Про упередженість штучного інтелекту
ІІ може неявно для нас робити вибір на користь тих чи інших категорій людей, ґрунтуючись на великій кількості непомітних сигналів

Сценарії упередженості ІІ

Найочевидніше й лякає, що ця проблема може виявитися, коли йдеться про людське розмаїття. Нещодавно пройшла чуткаАмазон спробував побудувати систему машинного навчання для первинного скринінгу кандидатів на роботу. Оскільки серед працівників Амазона більше чоловіків, приклади «вдалого найму» теж частіше чоловічої статі, і у добірці резюме, запропонованої системою, було більше чоловіків. Амазон помітив це і не став випускати систему у продакшн.

Найважливіше в цьому прикладі те, що система, за чутками, надавала перевагу кандидатам чоловічої статі, незважаючи на те, що стать не була вказана в резюме. Система бачила інші патерни в прикладах "вдалого найму": наприклад, жінки можуть використовувати особливі слова для опису досягнень, або мати особливі хобі. Звичайно, система не знала ні що таке «хокей», ні хто такі «люди», ні що таке «успіх», вона просто проводила статистичний аналіз тексту. Але закономірності, які вона бачила, залишилися б швидше за все не поміченими людиною, а деякі з них (наприклад, те, що люди різної статі по-різному описують успіх) нам, мабуть, важко було б побачити навіть дивлячись на них.

Далі – гірше. Система машинного навчання, яка дуже добре знаходить рак на блідій шкірі, може гірше працювати з темною шкірою, або навпаки. Не обов'язково через упередженість, а тому, що вам, ймовірно, потрібно побудувати для іншого кольору шкіри окрему модель, вибравши інші характеристики. Системи машинного навчання не взаємозамінні навіть у такій вузькій сфері, як розпізнавання зображень. Вам потрібно налаштувати систему, іноді просто шляхом проб і помилок, щоб добре помічати особливості в даних, що вас цікавлять, поки ви не досягнете бажаної точності. Але ви можете не помітити, що система в 98% випадків точна при роботі з однією групою і лише в 91% (нехай і точніше, ніж аналіз, проведений людиною) — з іншого.

Я поки що використовував здебільшого приклади щодо людей та їх характеристик. На цій темі в основному фокусується дискусія навколо цієї проблеми. Але важливо розуміти, що упередженість до людей — лише частина проблеми. Ми будемо використовувати машинне навчання для багатьох речей, і помилка вибірки буде релевантна для всіх них. З іншого боку, якщо ви працюєте з людьми, упередженість даних може бути пов'язана не з ними.

Щоб зрозуміти це, повернемося, наприклад, з раком шкіри і розглянемо три гіпотетичні можливості поломки системи.

  1. Неоднорідний розподіл людей: незбалансована кількість фотографій шкіри різних тонів, що веде до хибнопозитивних або хибнонегативних результатів, пов'язаних з пігментацією.
  2. Дані, на яких тренується система, містять поширену і неоднорідно розподілену характеристику, не пов'язану з людьми і не має діагностичної цінності: лінійку на фотографіях проявів раку шкіри або траву на фотографіях овець. В цьому випадку результат відрізнятиметься, якщо на зображенні система знайде пікселі чогось, що людське око визначить як «лінійку».
  3. Дані містять сторонню характеристику, яку людина не може побачити, навіть якщо її шукатиме.

Що це означає? Ми апріорі знаємо, що дані можуть по-різному представляти різні групи людей, і, як мінімум, можемо запланувати пошук подібних винятків. Іншими словами, є безліч соціальних причин припускати, що дані про групи людей вже містять певне упередження. Якщо ми подивимося на фото з лінійкою, побачимо цю лінійку — ми просто ігнорували її раніше, знаючи, що вона не має значення, і забувши, що системі нічого не відомо.

Але якщо всі ваші фотографії нездорової шкіри зроблені в офісі, де використовуються лампи розжарювання, а здорової — при флуоресцентному світлі? Що, якщо закінчивши знімати здорову шкіру, перед зйомкою нездорової ви оновили операційну систему на телефоні, а Епл або Гугл трохи змінив алгоритм придушення шуму? Людині цього не помітити, хоч би скільки він шукав такі особливості. А ось система машинного використання відразу ж побачить і використовує це. Вона нічого не знає.

Поки ми говорили про хибні кореляції, але може статися і так, що і дані точні, і результати правильні, але ви не хочете використовувати їх з етичних, юридичних або управлінських причин. У деяких юрисдикціях, наприклад, не можна надавати жінкам знижку на страховку, незважаючи на те, що жінки, можливо, безпечніше водять машину. Ми можемо легко уявити систему, яка при аналізі історичних даних надасть жіночим іменам менший коефіцієнт ризику. Окей, давайте видалимо імена з вибірки. Але згадайте приклад з Амазоном: система може визначити підлогу за іншими факторами (хоча вона і не знає, що таке підлога, та й що таке машина), а ви цього не помітите, поки регулятор заднім числом не проаналізує запропоновані вами тарифи і не стягне з вас штраф.

Зрештою, часто мається на увазі, що ми будемо використовувати такі системи лише для проектів, які пов'язані з людьми та соціальними взаємодіями. Це не так. Якщо ви робите газові турбіни, ви напевно захочете застосувати машинне навчання до телеметрії, що передається десятками або сотнями датчиків на вашому продукті (аудіо-, відео-, температурні та й будь-які інші датчики генерують дані, які можна дуже легко пристосувати для створення моделі машинного навчання ). Гіпотетично ви можете сказати: «Ось дані про тисячі турбін, що вийшли з ладу, отримані перед їх поломкою, а ось дані з тисячі турбін, які не ламалися. Побудуйте модель, щоби сказати, в чому між ними різниця». Ну а тепер уявіть собі, що датчики Siemens стоять на 75% поганих турбін і лише на 12% хороших (зв'язку зі збоями при цьому немає). Система побудує модель, щоб знаходити турбіни із датчиками Siemens. Упс!

Про упередженість штучного інтелекту
Зображення — Moritz Hardt, UC Berkeley

Управління упередженістю ІІ

Що нам з цим вдієш? Можна підійти до питання із трьох сторін:

  1. Методологічна строгість при зборі та менеджменті даних для навчання системи.
  2. Технічні інструменти для аналізу та діагностики поведінки моделі.
  3. Тренінг, навчання та обережність при впровадженні машинного навчання у продукти.

У книзі «Міщанин у дворянстві» Мольєра є жарт: одному чоловікові розповіли, що література ділиться на прозу та поезію, і він із захопленням виявляє, що все життя говорив прозою, сам того не знаючи. Напевно, статистики якось так і почуваються сьогодні: самі того не помічаючи, вони присвятили свої кар'єри штучному інтелекту та помилці вибірки. Шукати помилку вибірки та переживати через неї — це не нова проблема, нам просто треба системно підійти до її вирішення. Як згадано вище, у деяких випадках це справді простіше робити, вивчаючи проблеми, пов'язані з даними про людей. Ми апріорі припускаємо, що у нас можуть бути упередження щодо різних груп людей, але упередження щодо датчиків Siemens нам складно навіть уявити.

Нове у всьому цьому, звісно, ​​те, що люди більше не займаються статистичним аналізом безпосередньо. Його проводять машини, що створюють великі комплексні моделі, складні для розуміння. Питання прозорості — один із основних аспектів проблеми упередженості. Нам страшно, що система не просто упереджена, але немає ніякої можливості виявити її упередженість, і що машинне навчання цим відрізняється від інших форм автоматизації, які, як передбачається, складаються з чітких логічних кроків, які можна перевірити.

Тут є дві проблеми. Ми, можливо, можемо проводити аудит систем машинного навчання. І аудит будь-якої іншої системи насправді анітрохи не легший.

По-перше, один із напрямків сучасних досліджень у галузі машинного навчання – це пошук методів, як виявляти важливий функціонал систем машинного навчання. При цьому машинне навчання (в його поточному стані) — це зовсім нова галузь науки, яка швидко змінюється, тому не варто думати, що неможливі сьогодні речі не можуть стати цілком реальними. Проект OpenAI - Цікавий тому приклад.

По-друге, ідея про те, що можна перевіряти і розуміти процес прийняття рішень у існуючих системах чи організаціях, хороша в теорії, але так собі на практиці. Зрозуміти, як приймаються рішення у великій організації, зовсім непросто. Навіть якщо там існує формальний процес прийняття рішень, він не відображає те, як люди взаємодіють насправді, та й самі вони часто не мають логічного підходу до прийняття своїх рішень. Як сказав мій колега Віджей Панде, люди - це теж чорні ящики.

Візьміть тисячу людей у ​​кількох компаніях та інститутах, що перетинаються, і проблема стане ще складнішою. Ми знаємо постфактум, що «Спейс шатлу» судилося розпастися на частини при поверненні, і окремі люди всередині NASA мали інформацію, яка давала їм привід думати, що може статися щось погане, але система в цілому цього не знала. NASA навіть щойно пройшла аналогічний аудит, втративши попередній шатл, і все-таки вона втратила ще один — дуже схожою причиною. Легко стверджувати, що організації та люди дотримуються чітких логічних правил, які можна перевірити, зрозуміти та поміняти – але досвід доводить протилежне. Це «помилка Держплану».

Я часто порівнюю машинне навчання з базами даних, особливо з реляційними — новою фундаментальною технологією, яка змінила можливості інформатики та світ навколо неї, яка стала частиною всього, яку ми постійно використовуємо, не усвідомлюючи цього. У баз даних теж є проблеми, і вони схожої властивості: система може бути побудована на невірних припущеннях або на поганих даних, але це складно буде помітити, і люди, які використовують систему, робитимуть те, що вона їм каже, не ставлячи запитань. Є купа старих жартів про податкових працівників, які колись неправильно записали ваше ім'я, і ​​переконати їх виправити помилку набагато складніше, ніж насправді поміняти ім'я. Про це можна думати по-різному, але незрозуміло як краще: як про технічну проблему в SQL, чи як про помилку в релізі Oracle, чи як про збій бюрократичних інститутів? Наскільки складно знайти помилку у процесі, що призвів до того, що система не має такої фічі, як виправлення друкарських помилок? Чи можна було це зрозуміти до того, як люди почали скаржитися?

Ще простіше цю проблему ілюструють історії, коли водії через застарілі дані в навігаторі з'їжджають у річки. Окей, карти повинні постійно оновлюватись. Але наскільки ТомТом винен у тому, що вашу машину зносить у море?

Я це говорю до того, що так — упередженість машинного навчання створить проблеми. Але ці проблеми будуть схожі на ті, з якими ми стикалися в минулому, і їх можна буде помітити і вирішити (або ні) приблизно настільки ж добре, наскільки це нам вдавалося в минулому. Отже, сценарій, за якого упередженість ІІ завдасть шкоди, навряд чи станеться з провідними дослідниками, які працюють у великій організації. Швидше за все, якийсь малозначний технологічний підрядник чи вендор ПЗ напише щось на коліні, використовуючи незрозумілі йому опенсорсні компоненти, бібліотеки та інструменти. А невдалий клієнт купиться на словосполучення "штучний інтелект" в описі продукту і, не ставлячи зайвих питань, роздасть його своїм працівникам, оплачувавши їм робити те, що скаже ІІ. Саме це і сталося із базами даних. Це не проблема штучного інтелекту і навіть не проблема програмного забезпечення. Це є людський фактор.

Висновок

Машинне навчання може зробити все, чого ви можете навчити собаку, але ви ніколи не можете бути впевнені, чому саме ви цього собаку навчили.

Мені часто здається, що термін «штучний інтелект» лише заважає заходити до розмов на кшталт цього. Цей термін створює хибне враження того, що ми насправді створили його — це інтелект. Що ми на шляху до HAL9000 або Skynet — до чогось, що насправді розуміє. Але немає. Це просто машини, і їх набагато правильніше порівнювати, скажімо, із пральною машиною. Вона набагато краще за людину справляється з пранням, але якщо ви покладете в неї посуд замість білизни, вона її ... випрає. Посуд навіть стане чистим. Але це буде не те, на що ви розраховували, і станеться це не тому, що система має упередження щодо посуду. Пральна машина не знає ні що таке посуд, ні що таке одяг — це лише приклад автоматизації, який концептуально не відрізняється від того, як процеси автоматизували раніше.

Про що б не йшлося, — про машини, літаки чи бази даних — ці системи будуть одночасно дуже потужними і дуже обмеженими. Вони повністю залежатимуть від того, як люди використовують ці системи, хороші чи погані у них при цьому наміри і наскільки вони розуміють їхню роботу.

Отже, говорити, що «штучний інтелект — це математика, тому в нього не може бути упереджень» зовсім не так. Але так само невірно стверджувати, що машинне навчання «суб'єктивне за своєю природою». Машинне навчання знаходить патерни в даних, і які патерни воно знайде залежить від даних, а дані залежать від нас. Як і те, що ми з ними робимо. Машинне навчання справді робить деякі речі набагато кращими за нас, — але собаки, наприклад, набагато ефективніші за людей у ​​виявленні наркотиків, що зовсім не привід залучати їх як свідків і виносити вироки на підставі їхніх свідчень. А собаки, до речі, набагато розумніші за будь-яку систему машинного навчання.

Переклад: Діана Лецька.
Редактура: Олексій Іванов.
Спільнота: @PonchikNews.

Джерело: habr.com

Додати коментар або відгук