Як розпізнати шарлатана від Data Science?

Як розпізнати шарлатана від Data Science?
Можливо, ви чули про аналітиків, фахівців з машинного навчання та штучного інтелекту, але чи чули ви про тих, кому незаслужено переплачують? Зустрічайте шарлатана даних! Ці хитруни, яких приваблює прибуткова робота, створюють погану репутацію справжнім фахівцям з обробки даних. У матеріалі розуміємося, як виводити таких людей на чисту воду.

Шарлатани даних всюди

Шарлатани даних настільки добре вміють ховатися на увазі, що ви можете бути одним із нихнавіть не усвідомлюючи цього. Швидше за все, ваша організація роками приховувала цих хитрунів, але є хороша новина: їх легко ідентифікувати, якщо ви знаєте, що шукати.
Перший попереджувальний знак – нерозуміння того, що аналітика та статистика - дуже різні дисципліни. Далі я поясню це.

Різні дисципліни

Статистики навчені робити висновки про те, що виходить за рамки їх даних, аналітики навчені вивчати зміст набору даних. Іншими словами, аналітики роблять висновки про те, що міститься в їх даних, а статистики роблять висновки про те, чого даних немає. Аналітики допомагають ставити хороші питання (висувати гіпотези), а статистики допомагають отримувати добрі відповіді (перевіряти гіпотези).

Є також химерні гібридні ролі, коли людина намагається всидіти на двох стільцях… Чому б ні? Основний принцип науки про дані: якщо ви маєте справу з невизначеністю, не можна використовувати одну й ту саму точку даних для гіпотез та перевірки. Коли дані обмежені, невизначеність змушує вибирати між статистикою чи аналітикою. пояснення тут.

Без статистики ви застрягнете і не зможете зрозуміти, чи критику витримує щойно сформульоване судження, а без аналізу ви рухаєтеся наосліп, маючи мало шансів приручити невідоме. Це важкий вибір.

Вихід шарлатана з цієї колотнечі — ігнорувати її, а потім прикидатися здивованим, що раптом виявляється. Логіка перевірки статистичних гіпотез зводиться до питання: чи достатньо даних дивують нас, щоб змінити нашу думку. Як ми можемо бути здивовані даними, якщо ми вже їх бачили?

Щоразу, коли шарлатани знаходять патерн, вони надихаються, потім перевіряють ті ж дані для того ж патерну, щоб опублікувати результат з легітимним p-значенням або двома, поряд з їхньою теорією. Тим самим вони брешуть вам (а, можливо, і собі теж). Таке p-значення не відіграє ролі, якщо ви не дотримуєтеся своєї гіпотези до того, як переглянули дані. Шарлатани імітують дії аналітиків та статистиків без розуміння причин. В результаті у всій галузі науки про дані складається погана репутація.

Справжні статистики завжди роблять свої висновки

Завдяки майже містичній репутації фахівців зі статистики, які займаються строгими міркуваннями, кількість фейкової інформації в Data Science рекордно висока. Легко обдурити і не попастися, особливо якщо жертва, яка нічого не підозрює, думає, що вся справа в рівняннях і даних. Набір даних – це набір даних, чи не так? Ні. Має значення, як ви його використовуєте.

На щастя, вам потрібна лише одна підказка, щоб упіймати шарлатанів: вони «відкривають Америку заднім числом». Наново відкриваючи явища, які, як їм відомо, присутні у даних.

На відміну від шарлатанів, хороші аналітики — не мають упереджень і розуміють, що ідеї, що надихають, можуть мати багато різних пояснень. У той самий час, хороші статистики ретельно визначають свої висновки, як вони зроблять.

Аналітики звільнено від відповідальності… поки вони не виходять за межі своїх даних. Якщо вони виникає спокуса заявити у тому, чого не бачили, це зовсім інша робота. Їм слід «зняти взуття» аналітика та «перевзутися» у взуття статистика. Зрештою, хоч би якою була офіційна назва посади, не існує правила, згідно з яким ви не можете вивчати обидві професії, якщо хочете. Тільки не плутайте їх.

Якщо ви добре знаєтеся на статистиці, це не означає, що ви добре знаєтеся на аналітиці, і навпаки. Якщо хтось намагається сказати вам інше, варто насторожитися. Якщо ця людина повідомляє вам, що можна робити статистичний висновок на даних, які ви вже вивчили, це привід насторожитися подвійно.

Химерні пояснення

Спостерігаючи за шарлатанами даних у дикій природі, ви помітите, що вони люблять складати фантастичні історії, щоб «пояснити» дані, що спостерігаються. Чим академічніше, тим краще. Не має значення, що ці історії підганяються заднім числом.

Коли шарлатани так роблять - дозвольте мені не скупитися на слова - вони брешуть. Жодна кількість рівнянь чи гарні поняття не компенсує того, що вони запропонували нульовий доказ своїх версій. Не дивуйтеся, наскільки незвичайними є їх пояснення.

Це те саме, що продемонструвати свої «екстрасенсорні» здібності, спочатку глянувши на карти в руках, а потім передбачити, що ви тримаєте… те, що тримаєте. Це упередженість ретроспективного погляду, і професія дата-саєніста нафаршована цим по горло.

Як розпізнати шарлатана від Data Science?

Аналітики кажуть: «Ви щойно пішли з бубнової королеви». Статистики кажуть: «Я записав свої гіпотези на цьому клаптику паперу до того, як ми почали. Давай пограємо, подивимося деякі дані та подивимося, чи правий я». Шарлатани кажуть: «Я знав, що ви збираєтеся піти цією бубновою королевою, бо…»

Поділ даних — це швидке вирішення проблеми, якого потребує кожен.

Коли даних не так багато, доводиться вибирати між статистикою та аналітикою, але коли даних з лишком, є чудова можливість без обману скористатися аналітикою и статистикою. У вас є ідеальний захист від шарлатанів - це поділ даних і, на мій погляд, це найпотужніша ідея Data Science.

Щоб захистити себе від шарлатанів, все, що вам потрібно зробити - переконатися, що ви зберігаєте деякі тестові дані поза досяжністю їх цікавих очей, а потім ставитись до всього іншого як до аналітики. Коли ви стикаєтеся з теорією, яку ризикуєте прийняти, використовуйте її, щоб оцінити ситуацію, а потім відкрийте свої секретні тестові дані, щоб перевірити, що теорія не нісенітниця. Це так просто!

Як розпізнати шарлатана від Data Science?
Переконайтеся, що нікому не дозволено переглядати тестові дані на етапі дослідження. Для цього дотримуйтесь дослідницьких даних. Тестові дані не повинні використовуватись для аналізу.

Це великий крок уперед у порівнянні з тим, до чого люди звикли в епоху «малих даних», коли вам потрібно пояснювати, звідки ви знаєте те, що знаєте, щоб нарешті переконати людей, що ви дійсно щось знаєте.

Застосовуємо ті ж правила до ML/AI

Деяких шарлатанів, які видають себе за експертів у галузі ML/AI, також легко виявити. Ви зловите їх так само, як упіймали б будь-якого іншого поганого інженера: «рішення», які вони намагаються побудувати, постійно зазнають невдачі. Ранній попереджувальний знак – відсутність досвіду роботи зі стандартними галузевими мовами та бібліотеками програмування.

Але як щодо людей, які створюють системи, які здаються працездатними? Як дізнатися, що відбувається щось підозріле? Застосовується те саме правило! Шарлатан – зловісний персонаж, який показує вам, наскільки добре модель працювала… на тих же даних, які вони використали для створення моделі.

Якщо ви створили дуже складну систему машинного навчання, як дізнатися, наскільки вона хороша? Ви не взнаєте, поки не покажете, що вона працює з новими даними, яких раніше не бачила.

Коли ви бачили дані до прогнозування, навряд чи це передоповідання.

Коли ви маєте достатньо даних для поділу, вам не потрібно посилатися на красу ваших формул, щоб виправдати проект (стара модна звичка, яку я бачу скрізь, не тільки в науці). Ви можете сказати: «Я знаю, що це працює, тому що можу взяти набір даних, якого раніше не бачив, і точно передбачити, що там станеться… і матиму рацію. Знову і знову".

Перевірка вашої моделі/теорії на нових даних є найкращою основою для довіри.

Я не терплю шарлатанів даних. Мені байдуже, чи спирається ваша думка на різні фішки. Мене не вражає краса пояснень. Покажіть мені, що ваша теорія/модель працює (і продовжує працювати) на цілій низці нових даних, яких ви ніколи раніше не бачили. Це і є перевірка стійкості вашої думки.

Звернення до фахівців у галузі Data Science

Якщо ви хочете, щоб до вас серйозно ставилися всі, хто розуміє цей гумор, перестаньте ховатися за химерними рівняннями, щоб підтримувати особисті упередження. Покажіть, що ви маєте. Якщо хочете, щоб ті, хто «зрозумів», розглядали вашу теорію/модель як щось більше, ніж просто поезію, що надихає, майте сміливість влаштувати грандіозне уявлення того, наскільки добре вона працює на абсолютно новому наборі даних… при свідках!

Звернення до керівників

Відмовляйтеся приймати всерйоз будь-які «ідеї» про дані, доки вони не перевірені на нових даних. Не хочеться докладати зусиль? Дотримуйтесь аналітики, але не покладайтеся на ці ідеї – вони ненадійні та не були перевірені на надійність. Крім того, коли в організації є дані удосталь, немає жодного недоліку в тому, щоб зробити поділ основою в науці та підтримувати його на рівні інфраструктури, контролюючи доступ до тестових даних для статистики. Це чудовий спосіб припинити спроби вас надурити!

Якщо ви хочете побачити більше прикладів шарлатанів, які замишляють щось погане. ось чудовий тред у Twitter.

Підсумки

Коли даних занадто мало для поділу, тільки шарлатан намагається суворо дотримуватись натхнення, відкриваючи Америку ретроспективно, математично перевідкриваючи явища, про які вже відомо, що вони є в даних, і називаючи здивування статистично значущим. Це відрізняє їх від неупередженого аналітика, що має справу з натхненням, і скрупульозного статистика, що пропонує докази під час прогнозування.

Коли даних багато, заведіть звичку розділяти дані, то ви зможете мати найкраще з обох світів! Обов'язково робіть аналітику та статистику окремо за окремими підмножинами вихідного нагромадження даних.

  • Аналітики пропонують вам натхнення та широту поглядів.
  • Статистики пропонують суворе тестування.
  • Шарлатани пропонують вам перекручений ретроспективний погляд, який прикидається аналітикою плюс статистикою.

Можливо, після прочитання статті, у вас з'явиться думка «а чи не шарлатан я»? Це нормально. Прогнати цю думку можна двома способами: по-перше, озирнутися, подивитися, що зроблено, чи принесла ваша робота з даними практичну користь. А по-друге, можна ще попрацювати над своєю кваліфікацією (що точно зайвим не буде), тим більше своїм студентам ми даємо практичні навички та знання, які дозволяють їм стати справжніми дата-саентистами.

Як розпізнати шарлатана від Data Science?

Ще курси

Читати ще

Джерело: habr.com

Додати коментар або відгук