Како да препознаете шарлатан од Data Science?

Како да препознаете шарлатан од Data Science?
Можеби сте слушнале за аналитичари, специјалисти за машинско учење и вештачка интелигенција, но дали сте слушнале за оние кои се неправедно преплатени? Запознајте се податоци шарлатан! Овие хакови, привлечени од профитабилни работни места, им даваат лошо име на научниците за вистински податоци. Во материјалот разбираме како да ги доведеме таквите луѓе до чиста вода.

Шарлатаните на податоци се насекаде

Шарлатаните со податоци се толку добри во криењето на очигледен поглед што можете биди еден од нивдури и без да го сфати тоа. Големи се шансите дека вашата организација со години ги засолнила овие подмолни момци, но добрата вест е дека тие лесно се препознаваат ако знаете што да барате.
Првиот знак за предупредување е тоа што не го разбирате аналитиката и статистиката се многу различни дисциплини. Ова дополнително ќе го објаснам.

Различни дисциплини

Статистичарите се обучени да донесуваат заклучоци за тоа што е подалеку од нивните податоци, аналитичарите се обучени да ја испитуваат содржината на збир на податоци. Со други зборови, аналитичарите донесуваат заклучоци за тоа што е во нивните податоци, а статистичарите заклучоци за она што го нема во податоците. Аналитичарите ви помагаат да поставувате добри прашања (да правите хипотези), а статистичарите ви помагаат да добиете добри одговори (проверете ги вашите хипотези).

Има и чудни хибридни улоги каде човек се обидува да седне на две столчиња... Зошто да не? Основен принцип на науката за податоци: ако се занимавате со несигурност, не можете да користите исто податочна точка за хипотези и тестирање. Кога податоците се ограничени, неизвесноста принудува избор помеѓу статистика или аналитика. Објаснување тука.

Без статистика, ќе останете заглавени и нема да можете да разберете дали судот што штотуку го формулиравте држи, а без анализа, се движите слепо, со мали шанси да го скротите непознатото. Ова е тежок избор.

Излезот на шарлатанот од овој хаос е да го игнорира и потоа да се преправа дека е изненаден од она што одеднаш се појавува. Логиката зад тестирањето на статистичките хипотези се сведува на прашањето дали податоците не изненадуваат доволно за да се предомислиме. Како можеме да бидеме изненадени од податоците ако веќе сме ги виделе?

Шарлатаните секогаш кога ќе најдат шема, се инспирираат, па проверуваат истите податоци за истата шема, да го објават резултатот со легитимна p-вредност или две, веднаш до нивната теорија. Така, тие ве лажат вас (а можеби и самите себе). Оваа p-вредност не е важна ако не се држите до вашата хипотеза да како ги гледавте вашите податоци. Шарлатаните ги имитираат постапките на аналитичарите и статистичарите без да ги разберат причините. Како резултат на тоа, целото поле на науката за податоци добива лоша репутација.

Вистинските статистичари секогаш донесуваат свои заклучоци

Благодарение на речиси мистичната репутација на статистичарите за нивното ригорозно расудување, количината на лажни информации во Data Science е на највисоко ниво на сите времиња. Лесно е да се измами и да не се фати, особено ако несудената жртва мисли дека се е до равенки и податоци. Дата на податоци е база на податоци, нели? бр. Важно е како го користите.

За среќа, потребна ви е само една трага за да ги фатите шарлатаните: тие „ретроактивно ја откриваат Америка“. Со повторно откривање на појави за кои веќе знаат дека се присутни во податоците.

За разлика од шарлатаните, добрите аналитичари се слободоумни и разбираат дека инспиративните идеи можат да имаат многу различни објаснувања. Во исто време, добрите статистичари внимателно ги дефинираат своите заклучоци пред да ги направат.

Аналитичарите се ослободени од одговорност... се додека останат во опсегот на нивните податоци. Ако се во искушение да тврдат нешто што не го виделе, тоа е сосема друга работа. Треба да му ги соблечат чевлите на аналитичарот и да ги облечат чевлите на статистичарот. На крајот на краиштата, без разлика кое е официјалното работно место, не постои правило кое вели дека не можете да ги студирате двете професии ако сакате. Само не ги мешајте.

Само затоа што сте добри во статистиката не значи дека сте добри и во аналитика, и обратно. Ако некој се обиде да ви каже поинаку, треба да бидете претпазливи. Ако оваа личност ви каже дека е дозволено да се извлекуваат статистички заклучоци од податоци што веќе сте ги проучувале, ова е причина да бидете двојно претпазливи.

Бизарни објаснувања

Кога ги набљудувате шарлатаните на податоци во дивината, ќе забележите дека тие сакаат да измислуваат фантастични приказни за да ги „објаснат“ податоците што ги набљудуваат. Колку повеќе академски, толку подобро. Не е важно што овие приказни се приспособени наназад.

Кога шарлатаните го прават ова - да бидам јасен - тие лажат. Ниту една количина равенки или фенси концепти не може да го надомести фактот дека тие понудија нула доказ за нивните теории. Немојте да се чудите колку се необични нивните објаснувања.

Ова е исто како да ги демонстрирате вашите „психички“ способности со тоа што прво ќе ги погледнете картичките во рацете, а потоа ќе предвидите што држите...што држите. Ова е пристрасност одназад, а професијата наука за податоци е исполнета до гребенот со неа.

Како да препознаете шарлатан од Data Science?

Аналитичарите велат: „Ти штотуку отиде со кралицата на дијамантите“. Статистичарите велат: „Ги запишав моите хипотези на ова парче хартија пред да започнеме. Ајде да си поиграме и да погледнеме некои податоци и да видиме дали сум во право“. Шарлатаните велат: „Знаев дека ќе станеш оваа кралица на дијамантите затоа што...“

Споделувањето податоци е брзата поправка што му е потребна на сите.

Кога нема многу податоци, треба да изберете помеѓу статистика и аналитика, но кога има повеќе од доволно податоци, постои одлична можност да користите аналитика без измама и статистика. Имате совршена одбрана против шарлатаните - раздвојување на податоците и, според мене, ова е најмоќната идеја во Data Science.

За да се заштитите од шарлатаните, сè што треба да направите е да се погрижите да чувате некои податоци од тестот подалеку од дофат на нивните љубопитни очи, а потоа да ги третирате останатите како аналитика. Кога ќе наидете на теорија што ризикувате да ја прифатите, искористете ја за да ја процените ситуацијата, а потоа откријте ги вашите тајни податоци од тестот за да проверите дали теоријата не е бесмислица. Тоа е толку едноставно!

Како да препознаете шарлатан од Data Science?
Осигурајте се дека никој не смее да ги гледа податоците од тестот за време на фазата на истражување. За да го направите ова, држете се до податоците од истражувањето. Податоците од тестот не треба да се користат за анализа.

Ова е голем чекор напред од она на што луѓето се навикнати во ерата на „малите податоци“, каде што треба да објасните како го знаете она што го знаете за конечно да ги убедите луѓето дека навистина знаете нешто.

Применете ги истите правила за ML/AI

Некои шарлатани кои се претставуваат како експерти за ML/AI исто така лесно се забележуваат. Ќе ги фатиш на ист начин како што би фатил кој било друг лош инженер: „решенијата“ што тие се обидуваат да ги изградат постојано пропаѓаат. Знак за рано предупредување е недостатокот на искуство со индустриски стандардни програмски јазици и библиотеки.

Но, што е со луѓето кои создаваат системи кои изгледаат како да функционираат? Како да знаете дали нешто сомнително се случува? Истото правило важи! Шарлатанот е злобен лик кој ви покажува колку добро функционирал моделот...на истите податоци што ги користеле за да го создадат моделот.

Ако сте изградиле лудо сложен систем за машинско учење, како да знаете колку е добар? Нема да знаете додека не и покажете дека работи со нови податоци што не ги видела досега.

Кога ги видовте податоците пред да прогнозирате - малку е веројатно поранокажувајќи

Кога имате доволно податоци за раздвојување, не треба да се повикувате на убавината на вашите формули за да го оправдате проектот (стара модерна навика што ја гледам насекаде, не само во науката). Можеш да кажеш: „Знам дека работи затоа што можам да земам збир на податоци што не сум го видел досега и да предвидам што точно ќе се случи таму... и ќе бидам во право. Повторно и повторно".

Тестирањето на вашиот модел/теорија според новите податоци е најдобрата основа за доверба.

Не поднесувам шарлатани на податоци. Не ми е гајле дали твоето мислење се заснова на различни трикови. Не сум импресиониран од убавината на објаснувањата. Покажете ми дека вашата теорија/модел функционира (и продолжува да работи) на цел куп нови податоци што никогаш не сте ги виделе досега. Ова е вистинскиот тест за силата на вашето мислење.

Контактирајте со експерти за наука за податоци

Ако сакате да бидете сфатени сериозно од сите што го разбираат овој хумор, престанете да се криете зад фенси равенки за да ги поддржите личните предрасуди. Покажи ми што имаш. Ако сакате оние кои „го добиваат“ да гледаат на вашата теорија/модел како повеќе од само инспиративна поезија, имајте храброст да приредите големо шоу за тоа колку добро функционира на сосема нов сет на податоци... пред сведоци !

Апел до лидерите

Одбијте сериозно да сфаќате какви било „идеи“ за податоците додека не бидат тестирани нови податоци. Немате желба да вложите труд? Држете се до аналитиката, но не потпирајте се на овие идеи - тие се несигурни и не се тестирани за веродостојност. Покрај тоа, кога една организација има податоци во изобилство, нема негативна страна да се направи поделбата фундаментална во науката и да се одржува на ниво на инфраструктура преку контролирање на пристапот до податоците за тестирање за статистика. Ова е одличен начин да ги спречите луѓето да се обидуваат да ве измамат!

Ако сакате да видите повеќе примери на шарлатани до ништо добро - еве една прекрасна тема на Твитер.

Резултатите од

Кога има премалку податоци за да се разделат, само шарлатан се обидува строго да ја следи инспирацијата откривајќи ја Америка ретроспективно, математички повторно откривајќи феномени кои веќе се познати дека се во податоците и изненадувањето го нарекува статистички значајно. Ова ги разликува од отворениот аналитичар, кој се занимава со инспирација, и педантниот статистичар, кој нуди докази кога прави предвидувања.

Кога има многу податоци, стекнете навика да ги раздвојувате податоците за да го имате најдоброто од двата света! Погрижете се да направите аналитика и статистика одделно за поединечни подмножества од оригиналниот куп податоци.

  • Аналитичарите ви нуди инспирација и отворен ум.
  • Статистика ви нуди ригорозно тестирање.
  • Шарлатани ви нуди извртена ретроспектива која се преправа дека е аналитика плус статистика.

Можеби, откако ќе ја прочитате статијата, ќе ви текне „дали сум шарлатан“? Ова е во ред. Постојат два начини да се ослободите од оваа мисла: прво, погледнете наназад, видете што сте направиле, дали вашата работа со податоци донесе практична корист. И второ, сè уште можете да работите на вашите квалификации (што сигурно нема да биде излишно), особено затоа што на нашите студенти им даваме практични вештини и знаења што им овозможуваат да станат вистински научници за податоци.

Како да препознаете шарлатан од Data Science?

Повеќе курсеви

Прочитај повеќе

Извор: www.habr.com

Додадете коментар