Как да разпознаем шарлатанин от Data Science?

Как да разпознаем шарлатанин от Data Science?
Може би сте чували за анализатори, специалисти по машинно обучение и изкуствен интелект, но чували ли сте за тези, които са несправедливо надплатени? Среща данни шарлатанин! Тези хакове, привлечени от доходоносни работни места, създават лошо име на истинските специалисти по данни. В материала разбираме как да изведем такива хора на чиста вода.

Шарлатаните с данни са навсякъде

Шарлатаните с данни са толкова добри в криенето пред очите, че можете бъди един от тяхбез дори да го осъзнават. Вероятно вашата организация е приютявала тези подли момчета от години, но добрата новина е, че са лесни за идентифициране, ако знаете какво да търсите.
Първият предупредителен знак е липсата на разбиране за това анализът и статистиката са много различни дисциплини. Ще обясня това допълнително.

Различни дисциплини

Статистиците са обучени да правят заключения за това, което надхвърля техните данни, анализаторите са обучени да изследват съдържанието на набор от данни. С други думи, анализаторите правят заключения за това какво има в техните данни, а статистиците правят заключения за това какво не е в данните. Анализаторите ви помагат да задавате добри въпроси (правете хипотези), а статистиците ви помагат да получавате добри отговори (тествайте вашите хипотези).

Има и странни хибридни роли, в които човек се опитва да седи на два стола... Защо не? Основен принцип на науката за данните: ако имате работа с несигурност, не можете да използвате същото точка от данни за хипотези и тестване. Когато данните са ограничени, несигурността налага избор между статистика или анализи. обяснение тук.

Без статистика ще бъдете блокирани и не можете да разберете дали преценката, която току-що сте формулирали, е валидна, а без анализ се движите сляпо, с малък шанс да укротите неизвестното. Това е труден избор.

Изходът на шарлатана от тази бъркотия е да я игнорира и след това да се престори на изненадан от това, което внезапно се появява. Логиката зад тестването на статистически хипотези се свежда до въпроса дали данните ни изненадват достатъчно, за да променим мнението си. Как можем да бъдем изненадани от данни, ако вече сме ги видели?

Всеки път, когато шарлатаните намерят модел, те се вдъхновяват, след което проверяват същите данни за същия модел, за да публикуват резултата с легитимна p-стойност или две, до тяхната теория. Така те лъжат вас (а може би и себе си). Тази p-стойност няма значение, ако не се придържате към хипотезата си до как сте преглеждали данните си. Шарлатаните имитират действията на анализатори и статистици, без да разбират причините. В резултат на това цялата област на науката за данни получава лоша репутация.

Истинските статистици винаги си правят изводите

Благодарение на почти мистичната репутация на статистиците за техните строги разсъждения, количеството фалшива информация в Data Science е най-високо за всички времена. Лесно е да се измамиш и да не те хванат, особено ако нищо неподозиращата жертва мисли, че всичко е въпрос на уравнения и данни. Наборът от данни си е набор от данни, нали? Не. Има значение как го използвате.

За щастие имате нужда само от една улика, за да хванете шарлатаните: те „откриват Америка със задна дата“. Чрез преоткриване на явления, за които вече знаят, че присъстват в данните.

За разлика от шарлатаните, добрите анализатори са отворени и разбират, че вдъхновяващите идеи могат да имат много различни обяснения. В същото време добрите статистици внимателно дефинират своите заключения, преди да ги направят.

Анализаторите са освободени от отговорност... докато остават в обхвата на своите данни. Ако се изкушават да твърдят нещо, което не са видели, това е съвсем друга работа. Трябва да събуят обувките на анализатора и да обуят обувките на статистика. В крайна сметка, без значение каква е официалната длъжност, няма правило, което да казва, че не можете да изучавате и двете професии, ако искате. Само не ги бъркайте.

Това, че сте добри в статистиката, не означава, че сте добри в анализите и обратното. Ако някой се опита да ви каже обратното, трябва да внимавате. Ако този човек ви каже, че е допустимо да се правят статистически заключения от данни, които вече сте проучили, това е причина да бъдете двойно предпазливи.

Странни обяснения

Когато наблюдавате шарлатаните на данни в дивата природа, ще забележите, че те обичат да измислят фантастични истории, за да „обяснят“ данните, които наблюдават. Колкото по-академично, толкова по-добре. Няма значение, че тези истории са коригирани със задна дата.

Когато шарлатаните правят това - нека бъда ясен - те лъжат. Никакви уравнения или фантастични концепции не могат да компенсират факта, че те не са предложили никакви доказателства за своите теории. Не се учудвайте колко необичайни са техните обяснения.

Това е същото като да демонстрирате вашите "психически" способности, като първо погледнете картите в ръцете си и след това предскажете какво държите...какво държите. Това е пристрастие със задна дата и професията на науката за данни е изпълнена до ръба с него.

Как да разпознаем шарлатанин от Data Science?

Анализаторите казват: „Ти току-що отиде с Дамата на диамантите.“ Статистиците казват: „Написах хипотезите си на този лист хартия, преди да започнем. Нека да поиграем и да разгледаме някои данни и да видим дали съм прав." Шарлатаните казват: „Знаех си, че ще станеш тази кралица на диамантите, защото...“

Споделянето на данни е бързото решение, от което всеки има нужда.

Когато няма много данни, трябва да избирате между статистика и анализи, но когато има повече от достатъчно данни, има чудесна възможност да използвате анализи без измама и статистика. Имате перфектната защита срещу шарлатани - разделяне на данни и според мен това е най-мощната идея в Data Science.

За да се предпазите от шарлатани, всичко, което трябва да направите, е да се уверите, че пазите някои тестови данни далеч от любопитните им очи, а след това да третирате останалите като анализи. Когато попаднете на теория, която рискувате да приемете, използвайте я, за да оцените ситуацията и след това разкрийте своите тайни тестови данни, за да проверите дали теорията не е глупост. Толкова е просто!

Как да разпознаем шарлатанин от Data Science?
Уверете се, че никой няма право да преглежда данните от теста по време на фазата на проучване. За да направите това, придържайте се към данните от изследванията. Данните от теста не трябва да се използват за анализ.

Това е голяма крачка напред от това, с което хората са свикнали в ерата на „малките данни“, когато трябва да обясните как знаете това, което знаете, за да убедите най-накрая хората, че наистина знаете нещо.

Приложете същите правила към ML/AI

Някои шарлатани, представящи се за експерти по ML/AI, също са лесни за забелязване. Ще ги хванете по същия начин, както бихте хванали всеки друг лош инженер: „решенията“, които се опитват да създадат непрекъснато се провалят. Ранен предупредителен знак е липсата на опит с индустриалните стандартни езици за програмиране и библиотеки.

Но какво да кажем за хората, които създават системи, които изглежда работят? Как да разберете дали се случва нещо подозрително? Същото правило важи! Шарлатанинът е зловещ герой, който ви показва колко добре работи моделът... върху същите данни, които са използвали за създаването на модела.

Ако сте изградили безумно сложна система за машинно обучение, откъде знаете колко добра е тя? Няма да разберете, докато не й покажете как работи с нови данни, които не е виждала преди.

Когато сте видели данните преди прогнозиране - това е малко вероятно предиразказване

Когато имате достатъчно данни за разделяне, не е необходимо да цитирате красотата на вашите формули, за да оправдаете проекта (стар моден навик, който виждам навсякъде, не само в науката). Можеш да кажеш: „Знам, че работи, защото мога да взема набор от данни, който не съм виждал преди, и да предскажа какво точно ще се случи там... и ще бъда прав. Отново и отново".

Тестването на вашия модел/теория срещу нови данни е най-добрата основа за увереност.

Не толерирам шарлатани с данни. Не ме интересува дали мнението ви се основава на различни трикове. Не съм впечатлен от красотата на обясненията. Покажете ми, че вашата теория/модел работи (и продължава да работи) върху цял куп нови данни, които никога преди не сте виждали. Това е истинският тест за силата на вашето мнение.

Свързване с експерти по наука за данни

Ако искате да бъдете взети на сериозно от всички, които разбират този хумор, спрете да се криете зад фантастични уравнения, за да поддържате лични пристрастия. Покажи ми какво имаш. Ако искате онези, които „разберат“, да гледат на вашата теория/модел като нещо повече от просто вдъхновяваща поезия, имайте смелостта да направите грандиозно шоу колко добре работи върху напълно нов набор от данни... пред свидетели !

Призив към лидерите

Откажете да приемате на сериозно всякакви „идеи“ относно данните, докато не бъдат тествани нов данни. Не ви се полагат усилия? Придържайте се към анализа, но не разчитайте на тези идеи – те са ненадеждни и не са тествани за надеждност. Освен това, когато една организация разполага с изобилие от данни, няма недостатък в превръщането на разделянето в основа на науката и поддържането му на ниво инфраструктура чрез контролиране на достъпа до тестови данни за статистика. Това е чудесен начин да спрете хората, които се опитват да ви заблудят!

Ако искате да видите още примери за шарлатани, които не са добри - ето една чудесна тема в Twitter.

Резултати от

Когато има твърде малко данни за разделяне, само един шарлатанин се опитва да следва стриктно вдъхновението, като открива Америка ретроспективно, математически преоткрива феномени, за които вече е известно, че са в данните, и нарича изненадата статистически значима. Това ги отличава от непредубедения анализатор, който се занимава с вдъхновение, и щателния статистик, който предлага доказателства, когато прави прогнози.

Когато има много данни, придобийте навика да разделяте данните, за да можете да имате най-доброто от двата свята! Не забравяйте да правите анализи и статистики поотделно за отделни подгрупи от оригиналната купчина данни.

  • анализатори ви предлага вдъхновение и непредубеденост.
  • Статистика предлагаме строги тестове.
  • Шарлатани ви предлагаме изкривена ретроспекция, която се преструва, че е анализ плюс статистика.

Може би, след като прочетете статията, ще имате мисълта „шарлатанин ли съм“? Това е добре. Има два начина да се отървете от тази мисъл: първо погледнете назад, вижте какво сте направили, дали работата ви с данни е донесла практическа полза. И второ, все още можете да работите върху квалификациите си (което със сигурност няма да е излишно), особено след като ние даваме на нашите студенти практически умения и знания, които им позволяват да станат истински учени по данни.

Как да разпознаем шарлатанин от Data Science?

Още курсове

Прочетете още

Източник: www.habr.com

Добавяне на нов коментар