Како препознати шарлатана из Дата Сциенце?

Како препознати шарлатана из Дата Сциенце?
Можда сте чули за аналитичаре, стручњаке за машинско учење и вештачку интелигенцију, али да ли сте чули за оне који су неправедно преплаћени? Сусрет дата цхарлатан! Ови хакови, намамљени уносним пословима, дају лошу репутацију правим научницима за податке. У материјалу разумемо како такве људе довести у чисту воду.

Шарлатани података су свуда

Шарлатани података су толико добри у скривању на видику да можете буди један од њиха да то ни не схватају. Шансе су да је ваша организација годинама скривала ове подмукле момке, али добра вест је да их је лако идентификовати ако знате шта да тражите.
Први знак упозорења је недостатак разумевања тога аналитика и статистика су веома различите дисциплине. Објаснићу ово даље.

Различите дисциплине

Статистичари су обучени да доносе закључке о томе шта превазилази њихове податке, аналитичари су обучени да испитују садржај скупа података. Другим речима, аналитичари изводе закључке о томе шта се налази у њиховим подацима, а статистичари о томе шта није у подацима. Аналитичари вам помажу да постављате добра питања (стварате хипотезе), а статистичари вам помажу да добијете добре одговоре (тестирајте своје хипотезе).

Има и чудних хибридних улога где човек покушава да седи на две столице... Зашто не? Основни принцип науке о подацима: ако имате посла са несигурношћу, не можете користити исти тачка података за хипотезе и тестирање. Када су подаци ограничени, неизвесност намеће избор између статистике или аналитике. Објашњење овде.

Без статистике, бићете заглављени и неспособни да разумете да ли пресуда коју сте управо формулисали стоји, а без анализе се крећете слепо, са малим шансама да укротите непознато. Ово је тежак избор.

Шарлатанов излаз из ове збрке је да то игнорише, а затим се претвара да је изненађен оним што се изненада појави. Логика која стоји иза тестирања статистичких хипотеза своди се на питање да ли нас подаци довољно изненађују да променимо мишљење. Како можемо бити изненађени подацима ако смо их већ видели?

Кад год шарлатани пронађу образац, они се инспиришу, па провере исти подаци за исти образац, да објави резултат са легитимном п-вредношћу или два, поред њихове теорије. Дакле, лажу вас (а, можда, и себе). Ова п-вредност није битна ако се не држите своје хипотезе до како сте прегледали своје податке. Шарлатани имитирају поступке аналитичара и статистичара не схватајући разлоге. Као резултат тога, читаво поље науке о подацима добија лошу репутацију.

Прави статистичари увек изводе своје закључке

Захваљујући готово мистичној репутацији статистичара због њиховог ригорозног расуђивања, количина лажних информација у Дата Сциенце је на врхунцу свих времена. Лако је преварити се и не бити ухваћен, посебно ако несуђена жртва мисли да је све у једначинама и подацима. Скуп података је скуп података, зар не? Не. Важно је како га користите.

Срећом, потребан вам је само један траг да ухватите шарлатане: они „ретроактивно откривају Америку“. Поновним откривањем појава за које већ знају да су присутне у подацима.

За разлику од шарлатана, добри аналитичари су отвореног ума и разумеју да инспиративне идеје могу имати много различитих објашњења. Истовремено, добри статистичари пажљиво дефинишу своје закључке пре него што их донесу.

Аналитичари су ослобођени одговорности... све док остају у оквиру својих података. Ако су у искушењу да тврде нешто што нису видели, то је сасвим други посао. Требало би да скину ципеле аналитичара и да обују ципеле статистичара. На крају крајева, без обзира на званичан назив радног места, не постоји правило које каже да не можете да студирате обе професије ако желите. Само их немој збунити.

Само зато што сте добри у статистици не значи да сте добри у аналитици, и обрнуто. Ако неко покуша да вам каже другачије, будите опрезни. Ако вам ова особа каже да је дозвољено изводити статистичке закључке из података које сте већ проучавали, то је разлог да будете двоструко опрезни.

Бизарна објашњења

Када посматрате шарлатане података у дивљини, приметићете да они воле да измишљају фантастичне приче како би „објасне“ податке које посматрају. Што академскије, то боље. Нема везе што се ове приче прилагођавају уназад.

Када то раде шарлатани – да будем јасан – лажу. Никакве једначине или фенси концепти не могу надокнадити чињеницу да су понудили нула доказа за своје теорије. Немојте се изненадити колико су њихова објашњења необична.

Ово је исто као да демонстрирате своје "психичке" способности тако што ћете прво погледати карте у рукама, а затим предвидети шта држите...шта држите. Ово је пристрасност ретроспектива, а професија науке о подацима је испуњена до врха.

Како препознати шарлатана из Дата Сциенце?

Аналитичари кажу: „Управо сте отишли ​​са Краљицом дијаманата. Статистичари кажу: „Записао сам своје хипотезе на овом комаду папира пре него што смо почели. Хајде да се поиграмо и погледамо неке податке и видимо да ли сам у праву." Шарлатани кажу: „Знао сам да ћеш постати ова краљица дијаманата јер...“

Дељење података је брзо решење које је свима потребно.

Када нема много података, морате бирати између статистике и аналитике, али када података има више него довољно, постоји одлична прилика да користите аналитику без обмане и статистика. Имате савршену одбрану од шарлатана – раздвајање података и, по мом мишљењу, ово је најмоћнија идеја у науци о подацима.

Да бисте се заштитили од шарлатана, све што треба да урадите је да држите неке тестне податке ван домашаја њихових знатижељних очију, а затим да остале третирате као аналитику. Када наиђете на теорију коју ризикујете да прихватите, искористите је да процените ситуацију, а затим откријте своје тајне податке теста да бисте проверили да теорија није бесмислица. То је тако једноставно!

Како препознати шарлатана из Дата Сциенце?
Уверите се да никоме није дозвољено да види податке теста током фазе истраживања. Да бисте то урадили, држите се истраживачких података. Подаци теста не би требало да се користе за анализу.

Ово је велики корак у односу на оно на шта су људи навикли у ери „малих података“, где морате да објасните како знате шта знате да бисте коначно убедили људе да заиста нешто знате.

Примените иста правила на МЛ/АИ

Лако је уочити и неке шарлатане који се представљају као стручњаци за МЛ/АИ. Ухватићете их на исти начин на који бисте ухватили било ког другог лошег инжењера: „решења“ која покушавају да изграде непрестано пропадају. Знак раног упозорења је недостатак искуства са индустријским стандардним програмским језицима и библиотекама.

Али шта је са људима који стварају системе који изгледа да раде? Како знате да ли се нешто сумњиво дешава? Исто правило важи! Шарлатан је злокобни лик који вам показује колико је модел добро функционисао...на истим подацима које су користили за креирање модела.

Ако сте направили лудо сложен систем машинског учења, како знате колико је добар? Нећете знати док јој не покажете да ради са новим подацима које раније није видела.

Када сте видели податке пре предвиђања - мало је вероватно преказивање

Када имате довољно података за раздвајање, не морате да наводите лепоту својих формула да бисте оправдали пројекат (стара модна навика коју видим свуда, не само у науци). Можеш рећи: „Знам да функционише јер могу да узмем скуп података који раније нисам видео и да предвидим тачно шта ће се тамо догодити... и бићу у праву. Опет и опет".

Тестирање вашег модела/теорије у односу на нове податке је најбоља основа за поверење.

Не трпим шарлатане података. Није ме брига да ли је твоје мишљење засновано на различитим триковима. Нисам импресиониран лепотом објашњења. Покажите ми да ваша теорија/модел функционише (и наставља да функционише) на читавој гомили нових података које никада раније нисте видели. Ово је прави тест снаге вашег мишљења.

Контактирајте стручњаке за науку о подацима

Ако желите да вас сви који разумеју овај хумор схвате озбиљно, престаните да се кријете иза фенси једначина како бисте подржали личне предрасуде. Покажи ми шта имаш. Ако желите да они који то "схвате" виде вашу теорију/модел као више од инспиративне поезије, имајте храбрости да приредите велику представу о томе како добро функционише на потпуно новом скупу података... пред сведоцима !

Апел лидерима

Одбијте да озбиљно схватите било какве "идеје" о подацима док се не тестирају Нова података. Не желите да се трудите? Држите се аналитике, али немојте се ослањати на ове идеје – оне су непоуздане и нису тестиране на поузданост. Штавише, када организација располаже подацима у изобиљу, нема лоше стране у томе да раздвајање буде фундаментално у науци и да се одржава на нивоу инфраструктуре контролисањем приступа тест подацима за статистику. Ово је одличан начин да зауставите људе који покушавају да вас преваре!

Ако желите да видите више примера шарлатана који нису добри - ево дивне теме на Твитеру.

Резултати

Када је премало података за раздвајање, само шарлатан покушава да стриктно прати инспирацију откривајући Америку ретроспективно, математички поново откривајући феномене за које се већ зна да су у подацима, и називајући изненађење статистички значајним. То их разликује од аналитичара отвореног ума, који се бави инспирацијом, и педантног статистичара, који нуди доказе приликом предвиђања.

Када има пуно података, стекните навику да их раздвајате како бисте имали најбоље од оба света! Обавезно урадите аналитику и статистику одвојено за појединачне подскупове оригиналне гомиле података.

  • Аналитичари понудити вам инспирацију и отвореност.
  • Статистика понудити вам ригорозно тестирање.
  • шарлатани нуди вам изокренуту ретроспективу која се претвара да је аналитика плус статистика.

Можда ћете, након читања чланка, имати мисао „да ли сам ја шарлатан“? Ово је добро. Постоје два начина да се решите ове мисли: прво, осврните се уназад, видите шта сте урадили, да ли је ваш рад са подацима донео практичну корист. И друго, још увек можете да радите на својим квалификацијама (што сигурно неће бити сувишно), поготово што нашим студентима дајемо практичне вештине и знања која им омогућавају да постану прави научници података.

Како препознати шарлатана из Дата Сциенце?

Више курсева

Опширније

Извор: ввв.хабр.цом

Додај коментар