Jak rozpoznać szarlatana z Data Science?

Jak rozpoznać szarlatana z Data Science?
Być może słyszałeś o analitykach, specjalistach zajmujących się uczeniem maszynowym i sztuczną inteligencją, ale czy słyszałeś o tych, którzy są niesprawiedliwie przepłacani? Poznać szarlatan danych! Te hacki, zwabione lukratywną pracą, przynoszą złą sławę prawdziwym analitykom danych. W materiale rozumiemy, jak doprowadzić takich ludzi do czystej wody.

Szarlatani danych są wszędzie

Szarlatani danych są tak dobrzy w ukrywaniu się na widoku, że Ty to potrafisz bądź jednym z nichnawet nie zdając sobie z tego sprawy. Prawdopodobnie Twoja organizacja ukrywa tych podstępnych gości od lat, ale dobra wiadomość jest taka, że ​​łatwo ich zidentyfikować, jeśli wiesz, czego szukać.
Pierwszym sygnałem ostrzegawczym jest brak zrozumienia tego analityka i statystyka to bardzo różne dyscypliny. Wyjaśnię to dalej.

Różne dyscypliny

Statystycy są szkoleni w wyciąganiu wniosków na temat tego, co wykracza poza ich dane, a analitycy są szkoleni w badaniu zawartości zbioru danych. Innymi słowy, analitycy wyciągają wnioski na temat tego, co jest w ich danych, a statystycy wyciągają wnioski na temat tego, czego nie ma w danych. Analitycy pomagają zadawać dobre pytania (stawiać hipotezy), a statystycy pomagają uzyskać dobre odpowiedzi (testować hipotezy).

Są też dziwne role hybrydowe, w których osoba próbuje usiąść na dwóch krzesłach… Dlaczego nie? Podstawowa zasada nauki o danych: jeśli masz do czynienia z niepewnością, nie możesz jej użyć ten sam punkt danych dla hipotez i testów. Gdy dane są ograniczone, niepewność wymusza wybór między statystyką a analityką. Wyjaśnienie tutaj.

Bez statystyk utkniesz i nie będziesz w stanie zrozumieć, czy sąd, który właśnie sformułowałeś, jest słuszny, a bez analizy poruszasz się na ślepo, z niewielkimi szansami na okiełznanie nieznanego. To trudny wybór.

Wyjściem szarlatana z tego bałaganu jest zignorowanie go, a następnie udawanie zaskoczenia tym, co nagle się pojawia. Logika stojąca za testowaniem hipotez statystycznych sprowadza się do pytania, czy dane zaskakują nas na tyle, aby zmienić zdanie. Jak możemy być zaskoczeni danymi, skoro już je widzieliśmy?

Ilekroć szarlatani znajdą wzór, czerpią inspirację, a następnie sprawdzają te same dane dla ten sam wzór, aby opublikować wynik z uzasadnioną wartością p lub dwoma, obok swojej teorii. W ten sposób okłamują ciebie (i być może także siebie). Ta wartość p nie ma znaczenia, jeśli nie będziesz trzymać się swojej hipotezy do jak przeglądałeś swoje dane. Szarlatani naśladują działania analityków i statystyków, nie rozumiejąc powodów. W rezultacie cała dziedzina analityki danych cieszy się złą reputacją.

Prawdziwi statystycy zawsze wyciągają własne wnioski

Dzięki niemal mistycznej reputacji statystyków ze względu na ich rygorystyczne rozumowanie, ilość fałszywych informacji w Data Science jest najwyższa w historii. Łatwo jest oszukać i nie dać się złapać, zwłaszcza jeśli niczego niepodejrzewająca ofiara myśli, że chodzi tylko o równania i dane. Zbiór danych to zbiór danych, prawda? NIE. Ważne jest, jak go użyjesz.

Na szczęście wystarczy tylko jedna wskazówka, aby złapać szarlatanów: „odkrywają Amerykę z mocą wsteczną”. Odkrywając na nowo zjawiska, o których istnieniu wiedzą już w danych.

W przeciwieństwie do szarlatanów, dobrzy analitycy są otwarci i rozumieją, że inspirujące pomysły mogą mieć wiele różnych wyjaśnień. Jednocześnie dobrzy statystycy dokładnie określają swoje wnioski, zanim je wyciągną.

Analitycy są zwolnieni z odpowiedzialności... tak długo, jak pozostają w zakresie swoich danych. Jeśli kusi ich, by twierdzić coś, czego nie widzieli, to już zupełnie inna sprawa. Powinni zdjąć buty analityka i założyć buty statystyka. Przecież niezależnie od tego, jakie jest oficjalne stanowisko, nie ma reguły mówiącej, że jeśli się chce, nie można studiować obu zawodów. Po prostu ich nie myl.

To, że jesteś dobry w statystyce, nie oznacza, że ​​jesteś dobry w analityce i odwrotnie. Jeśli ktoś próbuje Ci wmówić inaczej, zachowaj ostrożność. Jeśli ta osoba powie Ci, że wolno wyciągać wnioski statystyczne z danych, które już przestudiowałeś, jest to powód do podwójnej ostrożności.

Dziwne wyjaśnienia

Obserwując szarlatanów danych na wolności, zauważysz, że uwielbiają wymyślać fantastyczne historie, aby „wyjaśnić” obserwowane dane. Im bardziej akademicki, tym lepiej. Nie ma znaczenia, że ​​te historie są korygowane z perspektywy czasu.

Kiedy szarlatani to robią – żeby było jasne – kłamią. Żadna ilość równań ani fantazyjnych koncepcji nie może zrekompensować faktu, że nie oferowały one żadnego dowodu na poparcie ich teorii. Nie zdziw się, jak niezwykłe są ich wyjaśnienia.

Jest to to samo, co demonstrowanie swoich zdolności „psychicznych” poprzez najpierw spojrzenie na karty w dłoniach, a następnie przewidzenie, co trzymasz… co trzymasz. Jest to błąd wynikający z perspektywy czasu, a zawód analityki danych jest nim po brzegi wypełniony.

Jak rozpoznać szarlatana z Data Science?

Analitycy mówią: „Właśnie poszedłeś z Królową Karo”. Statystycy mówią: „Zanim zaczęliśmy, spisałem swoje hipotezy na tej kartce papieru. Pobawmy się, spójrzmy na dane i zobaczmy, czy mam rację. Szarlatani mówią: „Wiedziałem, że zostaniesz tą Królową Diamentów, ponieważ…”

Udostępnianie danych to szybkie rozwiązanie, którego potrzebuje każdy.

Kiedy danych jest mało, trzeba wybierać między statystyką a analityką, ale gdy danych jest więcej niż wystarczająca ilość, pojawia się świetna okazja, aby wykorzystać analitykę bez oszustw и Statystyka. Masz doskonałą obronę przed szarlatanami – separacja danych i to jest, moim zdaniem, najpotężniejszy pomysł w Data Science.

Aby uchronić się przed szarlatanami, jedyne, co musisz zrobić, to trzymać niektóre dane testowe poza zasięgiem ich wścibskich oczu, a resztę potraktować jako dane analityczne. Kiedy natkniesz się na teorię, którą możesz zaakceptować, użyj jej do oceny sytuacji, a następnie ujawnij tajne dane testowe, aby sprawdzić, czy teoria ta nie jest bzdurą. To takie proste!

Jak rozpoznać szarlatana z Data Science?
Upewnij się, że nikt nie może przeglądać danych testowych w fazie eksploracji. Aby to zrobić, trzymaj się danych badawczych. Dane testowe nie powinny być wykorzystywane do analizy.

To duży krok naprzód w stosunku do tego, do czego ludzie są przyzwyczajeni w erze „małych danych”, gdzie trzeba wyjaśnić, skąd wiesz to, co wiesz, aby w końcu przekonać ludzi, że rzeczywiście coś wiesz.

Zastosuj te same zasady do ML/AI

Niektórych szarlatanów podających się za ekspertów w dziedzinie prania pieniędzy i sztucznej inteligencji również łatwo rozpoznać. Złapiesz ich w ten sam sposób, w jaki złapiesz każdego innego złego inżyniera: „rozwiązania”, które próbują zbudować, nieustannie zawodzą. Wczesnym sygnałem ostrzegawczym jest brak doświadczenia ze standardowymi w branży językami programowania i bibliotekami.

Ale co z ludźmi, którzy tworzą systemy, które wydają się działać? Po czym poznajesz, że dzieje się coś podejrzanego? Obowiązuje ta sama zasada! Szarlatan to złowroga postać, która pokazuje, jak dobrze model działał... na tych samych danych, których użył do stworzenia modelu.

Jeśli zbudowałeś niesamowicie złożony system uczenia maszynowego, skąd wiesz, jak dobry jest? Nie dowiesz się, dopóki nie pokażesz jej pracy z nowymi danymi, których wcześniej nie widziała.

Kiedy widziałeś dane przed prognozowaniem – jest to mało prawdopodobne przedtemwymowny

Kiedy masz wystarczającą ilość danych do rozdzielenia, nie musisz przytaczać piękna swoich formuł, aby uzasadnić projekt (stary nawyk, który widzę wszędzie, nie tylko w nauce). Możesz powiedzieć: „Wiem, że to działa, ponieważ mogę wziąć zbiór danych, którego wcześniej nie widziałem, i dokładnie przewidzieć, co się tam stanie… i będę miał rację. Znowu i znowu".

Testowanie modelu/teorii w oparciu o nowe dane jest najlepszą podstawą pewności.

Nie toleruję szarlatanów danych. Nie obchodzi mnie, że Twoja opinia opiera się na różnych sztuczkach. Piękno wyjaśnień nie robi na mnie wrażenia. Pokaż mi, że Twoja teoria/model działa (i nadal działa) na całej gamie nowych danych, których nigdy wcześniej nie widziałeś. To prawdziwy test siły Twojej opinii.

Kontaktowanie się z ekspertami ds. nauki o danych

Jeśli chcesz, aby każdy, kto rozumie ten humor, był traktowany poważnie, przestań ukrywać się za wymyślnymi równaniami wspierającymi osobiste uprzedzenia. Pokaż mi co dostałeś. Jeśli chcesz, aby ci, którzy to „zrozumią”, postrzegali Twoją teorię/model jako coś więcej niż tylko inspirującą poezję, miej odwagę zrobić wielki pokaz, jak dobrze działa ona na zupełnie nowym zestawie danych… na oczach świadków !

Apel do przywódców

Nie traktuj poważnie żadnych „pomysłów” na temat danych, dopóki nie zostaną one przetestowane nowy dane. Nie masz ochoty wkładać wysiłku? Trzymaj się analiz, ale nie polegaj na tych pomysłach – są one zawodne i nie zostały przetestowane pod kątem wiarygodności. Co więcej, gdy organizacja dysponuje dużą ilością danych, nie ma przeszkód, aby separacja stała się podstawą nauki i utrzymywała ją na poziomie infrastruktury poprzez kontrolowanie dostępu do danych testowych na potrzeby statystyk. To świetny sposób, aby powstrzymać ludzi próbujących Cię oszukać!

Jeśli chcesz zobaczyć więcej przykładów szarlatanów knujących coś niedobrego - oto wspaniały wątek na Twitterze.

Wyniki

Kiedy danych jest zbyt mało do rozdzielenia, tylko szarlatan stara się ściśle podążać za inspiracją, odkrywając Amerykę retrospektywnie, matematycznie odkrywając na nowo zjawiska, o których już wiadomo, że występują w danych, i nazywając niespodziankę statystycznie istotną. To odróżnia ich od analityka o otwartym umyśle, który zajmuje się inspiracjami, i skrupulatnego statystyka, który przy przewidywaniu dostarcza dowodów.

Gdy danych jest dużo, wyrób sobie nawyk oddzielania danych, aby móc korzystać z tego, co najlepsze z obu światów! Pamiętaj, aby przeprowadzić analizy i statystyki osobno dla poszczególnych podzbiorów pierwotnego stosu danych.

  • Analitycy Oferuję inspirację i otwartość umysłu.
  • Statystyka zaoferować rygorystyczne testy.
  • Szarlatani oferują pokrętną perspektywę, która udaje analizę i statystyki.

Być może po przeczytaniu artykułu pomyślisz „czy jestem szarlatanem”? Jest okej. Są dwa sposoby, aby pozbyć się tej myśli: po pierwsze, spójrz wstecz, zobacz, czego dokonałeś, czy Twoja praca z danymi przyniosła praktyczne korzyści. A po drugie, nadal możesz pracować nad swoimi kwalifikacjami (które z pewnością nie będą zbędne), zwłaszcza, że ​​dajemy naszym studentom praktyczne umiejętności i wiedzę, które pozwolą im stać się prawdziwymi data science-fiction.

Jak rozpoznać szarlatana z Data Science?

Więcej kursów

Czytaj więcej

Źródło: www.habr.com

Dodaj komentarz