Возможно, вы слышали об аналитиках, специалистах по машинному обучению и искусственному интеллекту, но слышали ли вы о тех, кому незаслуженно переплачивают? Встречайте шарлатана данных! Эти хитрецы, которых манит прибыльная работа, создают плохую репутацию настоящим специалистам по обработке данных. В материале разбираемся, как выводить таких людей на чистую воду.
Шарлатаны данных повсюду
Шарлатаны данных настолько хорошо умеют скрываться на виду, что вы можете быть одним из них, даже не осознавая этого. Скорее всего, ваша организация годами укрывала этих хитрецов, но есть хорошая новость: их легко идентифицировать, если вы знаете, что искать.
Первый предупреждающий знак — непонимание того, что аналитика и статистика — очень разные дисциплины. Далее я поясню это.
Разные дисциплины
Статистики обучены делать выводы о том, что выходит за рамки их данных, аналитики обучены изучать содержание набора данных. Другими словами, аналитики делают выводы о том, что содержится в их данных, а статистики делают выводы о том, чего в данных нет. Аналитики помогают задавать хорошие вопросы (выдвигать гипотезы), а статистики помогают получать хорошие ответы (проверять гипотезы).
Есть также причудливые гибридные роли, когда человек пытается усидеть на двух стульях… Почему бы нет? Основной принцип науки о данных: если вы имеете дело с неопределенностью, нельзя использовать одну и ту же точку данных для гипотез и проверки. Когда данные ограничены, неопределенность заставляет выбирать между статистикой или аналитикой. Объяснениездесь.
Без статистики вы застрянете и не сможете понять, выдерживает ли критику только что сформулированное суждение, а без анализа вы двигаетесь вслепую, имея мало шансов приручить неизвестное. Это трудный выбор.
Выход шарлатана из этой передряги — игнорировать ее, а затем притворяться удивленным тому, что вдруг обнаруживается. Логика проверки статистических гипотез сводится к вопросу: достаточно ли данные удивляют нас, чтобы изменить наше мнение. Как мы можем быть удивлены данными, если мы их уже видели?
Всякий раз, когда шарлатаны находят паттерн, они вдохновляются, затем проверяют те же данные для того же паттерна, чтобы опубликовать результат с легитимным p-значением или двумя, рядом с их теорией. Тем самым они лгут вам (а, возможно, и себе тоже). Такое p-значение не играет роли, если вы не придерживаетесь своей гипотезы до того, как просмотрели свои данные. Шарлатаны имитируют действия аналитиков и статистиков без понимания причин. В результате у всей области науки о данных складывается плохая репутация.
Истинные статистики всегда делают свои выводы
Благодаря почти мистической репутации специалистов по статистике, занимающихся строгими рассуждениями, количество фейковой информации в Data Science рекордно высокое. Легко обмануть и не попасться, особенно если ничего не подозревающая жертва думает, что все дело в уравнениях и данных. Набор данных — это набор данных, верно? Нет. Имеет значение как вы его используете.
К счастью, вам нужна только одна подсказка, чтобы поймать шарлатанов: они «открывают Америку задним числом». Заново открывая явления, которые, как им уже известно, присутствуют в данных.
В отличие от шарлатанов, хорошие аналитики — не имеют предубеждений и понимают, что вдохновляющие идеи могут иметь много разных объяснений. В то же время, хорошие статистики тщательно определяют свои выводы, прежде чем они их сделают.
Аналитики освобождены от ответственности… пока они не выходят за рамки своих данных. Если у них возникает соблазн заявить о том, чего они не видели, это совсем другая работа. Им следует «снять обувь» аналитика и «переобуться» в обувь статистика. В конце концов, каким бы ни было официальное название должности, не существует правила, согласно которому вы не можете изучать обе профессии, если хотите. Только не путайте их.
Если вы хорошо разбираетесь в статистике, это не значит, что вы хорошо разбираетесь в аналитике, и наоборот. Если кто-то пытается сказать вам обратное, стоит насторожиться. Если этот человек сообщает вам, что разрешено делать статистический вывод на данных, которые вы уже изучили, это повод насторожиться вдвойне.
Причудливые объяснения
Наблюдая за шарлатанами данных в дикой природе, вы заметите, что они любят сочинять фантастические истории, чтобы «объяснить» наблюдаемые данные. Чем академичнее, тем лучше. Неважно, что эти истории подгоняются задним числом.
Когда шарлатаны так поступают — позвольте мне не скупиться на слова — они лгут. Никакое количество уравнений или красивые понятия не компенсирует того, что они предложили нулевое доказательство своих версий. Не удивляйтесь тому, насколько необычны их объяснения.
Это то же самое, что продемонстрировать свои «экстрасенсорные» способности, сначала взглянув на карты в руках, а затем предсказать, что вы держите… то, что держите. Это предвзятость ретроспективного взгляда, и профессия дата-сайентиста нафарширована этим по горло.
Аналитики говорят: «Вы только что пошли с бубновой королевы». Статистики говорят: «Я записал свои гипотезы на этом клочке бумаги до того, как мы начали. Давай поиграем, посмотрим некоторые данные и посмотрим, прав ли я ». Шарлатаны говорят: «Я знал, что вы собираетесь пойти этой бубновой королевой, потому что…»
Разделение данных — это быстрое решение проблемы, в котором нуждается каждый.
Когда данных не так много, приходится выбирать между статистикой и аналитикой, но когда данных с лихвой, есть прекрасная возможность без обмана воспользоваться аналитикой и статистикой. У вас есть идеальная защита от шарлатанов — это разделение данных и, на мой взгляд, это самая мощная идея в Data Science.
Чтобы защитить себя от шарлатанов, все, что вам нужно сделать — убедиться, что вы храните некоторые тестовые данные вне досягаемости их любопытных глаз, а затем относиться ко всему остальному как к аналитике. Когда вы сталкиваетесь с теорией, которую рискуете принять, используйте ее, чтобы оценить ситуацию, а затем откройте свои секретные тестовые данные, чтобы проверить, что теория не чепуха. Это же так просто!
Убедитесь, что никому не позволено просматривать тестовые данные на этапе исследования. Для этого придерживайтесь исследовательских данных. Тестовые данные не должны использоваться для анализа.
Это большой шаг вперед по сравнению с тем, к чему люди привыкли в эпоху «малых данных», когда вам нужно объяснять, откуда вы знаете то, что знаете, чтобы наконец убедить людей, что вы действительно что-то знаете.
Применяем те же правила к ML/AI
Некоторых шарлатанов, выдающих себя за экспертов в области ML/AI, тоже легко обнаружить. Вы поймаете их так же, как поймали бы любого другого плохого инженера: «решения», которые они пытаются построить, постоянно терпят неудачу. Ранний предупреждающий знак — отсутствие опыта работы со стандартными отраслевыми языками и библиотеками программирования.
Но как насчет людей, создающих системы, которые кажутся работоспособными? Как узнать, что происходит нечто подозрительное? Применяется то же правило! Шарлатан — зловещий персонаж, который показывает вам, насколько хорошо модель работала… на тех же данных, которые они использовали для создания модели.
Если вы создали безумно сложную систему машинного обучения, как узнать, насколько она хороша? Вы не узнаете, пока не покажете, что она работает с новыми данными, которых раньше не видела.
Когда вы видели данные до прогнозирования — вряд ли это предсказывание.
Когда у вас достаточно данных для разделения, вам не нужно ссылаться на красоту ваших формул, чтобы оправдать проект (старая модная привычка, которую я вижу везде, не только в науке). Вы можете сказать: «Я знаю, что это работает, потому что могу взять набор данных, которого раньше не видел, и точно предсказать, что там произойдет… и буду прав. Снова и снова».
Проверка вашей модели/теории на новых данных — лучшая основа для доверия.
Я не терплю шарлатанов данных. Мне все равно, опирается ли ваше мнение на разные фишки. Меня не впечатляет красота объяснений. Покажите мне, что ваша теория / модель работает (и продолжает работать) на целом ряде новых данных, которых вы никогда раньше не видели. Это и есть настоящая проверка стойкости вашего мнения.
Обращение к специалистам в области Data Science
Если вы хотите, чтобы к вам серьезно относились все, кто понимает этот юмор, перестаньте прятаться за причудливыми уравнениями, чтобы поддерживать личные предубеждения. Покажите, что у вас есть. Если хотите, чтобы те, кто «понял», рассматривали вашу теорию/модель как нечто большее, чем просто вдохновляющую поэзию, имейте смелость устроить грандиозное представление того, насколько хорошо она работает на совершенно новом наборе данных… при свидетелях!
Обращение к руководителям
Отказывайтесь принимать всерьез любые «идеи» о данных, пока они не проверены на новых данных. Не хочется прикладывать усилия? Придерживайтесь аналитики, но не полагайтесь на эти идеи — они ненадежны и не были проверены на надежность. Кроме того, когда у организации есть данные в изобилии, нет никакого недостатка в том, чтобы сделать разделение основой в науке и поддерживать его на уровне инфраструктуры, контролируя доступ к тестовым данным для статистики. Это отличный способ пресечь попытки вас надурить!
Если вы хотите увидеть больше примеров шарлатанов, замышляющих что-то нехорошее — вот чудесный тред в Twitter.
Итоги
Когда данных слишком мало для разделения, только шарлатан пытается строго следовать вдохновению, открывая Америку ретроспективно, математически переоткрывая явления, о которых уже известно, что они есть в данных, и называя удивление статистически значимым. Это отличает их от непредубежденного аналитика, имеющего дело с вдохновением, и дотошного статистика, предлагающего доказательства при прогнозировании.
Когда данных много, заведите привычку разделять данные, так вы сможете иметь лучшее из обоих миров! Обязательно делайте аналитику и статистику отдельно по отдельным подмножествам исходного нагромождения данных.
Аналитики предлагают вам вдохновение и широту взглядов.
Возможно, после прочтения статьи, у вас появится мысль «а не шарлатан ли я»? Это нормально. Прогнать эту мысль можно двумя способами: во-первых, оглянуться, посмотреть, что вами сделано, принесла ли ваша работа с данными практическую пользу. А во-вторых, можно еще поработать над своей квалификацией (что уж точно лишним не будет), тем более своим студентам мы даем практические навыки и знания, которые позволяют им стать настоящими дата-сайентистами.