Як распазнаць шарлатана ад Data Science?

Як распазнаць шарлатана ад Data Science?
Магчыма, вы чулі пра аналітыкаў, спецыялістаў па машынным навучанні і штучным інтэлекце, але ці чулі вы пра тых, каму незаслужана пераплачваюць? Сустракайце шарлатана дадзеных! Гэтыя хітруны, якіх вабіць прыбытковая праца, ствараюць дрэнную рэпутацыю сапраўдным спецыялістам па апрацоўцы дадзеных. У матэрыяле разбіраемся, як выводзіць такіх людзей на чыстую ваду.

Шарлатаны дадзеных паўсюль

Шарлатаны дадзеных настолькі добра ўмеюць хавацца навідавоку, што вы можаце быць адным з іх, нават не ўсведамляючы гэтага. Хутчэй за ўсё ваша арганізацыя гадамі хавала гэтых хітруноў, але ёсць добрая навіна: іх лёгка ідэнтыфікаваць, калі вы ведаеце, што шукаць.
Першы папераджальны знак - неразуменне таго, што аналітыка і статыстыка - вельмі розныя дысцыпліны. Далей я растлумачу гэта.

Розныя дысцыпліны

Статыстыкі навучаны рабіць высновы аб тым, што выходзіць за рамкі іх дадзеных, аналітыкі навучаны вывучаць змест набору дадзеных. Іншымі словамі, аналітыкі робяць высновы аб тым, што змяшчаецца ў іх дадзеных, а статыстыкі робяць высновы аб тым, чаго ў дадзеных няма. Аналітыкі дапамагаюць задаваць добрыя пытанні (высоўваць гіпотэзы), а статыстыкі дапамагаюць атрымліваць добрыя адказы (правяраць гіпотэзы).

Ёсць таксама мудрагелістыя гібрыдныя ролі, калі чалавек спрабуе ўседзець на двух крэслах... Чаму б не? Асноўны прынцып навукі аб дадзеных: калі вы маеце справу з нявызначанасцю, нельга выкарыстоўваць адну і тую ж кропку дадзеных для гіпотэз і праверкі. Калі дадзеныя абмежаваныя, нявызначанасць прымушае выбіраць паміж статыстыкай ці аналітыкай. тлумачэнне тут.

Без статыстыкі вы затрымаецеся і не зможаце зразумець, ці вытрымлівае крытыку толькі што сфармуляванае меркаванне, а без аналізу вы рухаецеся ўсляпую, маючы мала шанцаў прыручыць невядомае. Гэта цяжкі выбар.

Выйсце шарлатана з гэтай калатнечы - ігнараваць яе, а затым прыкідвацца здзіўленым таму, што раптам выяўляецца. Логіка праверкі статыстычных гіпотэз зводзіцца да пытання: ці дастаткова дадзеныя здзіўляюць нас, каб змяніць наша меркаванне. Як мы можам быць здзіўлены дадзенымі, калі мы іх ужо бачылі?

Кожны раз, калі шарлатаны знаходзяць патэрн, яны натхняюцца, затым правяраюць тыя ж дадзеныя для таго ж патэрна, Каб апублікаваць вынік з легітымным p-значэннем ці двума, побач з іх тэорыяй. Тым самым яны хлусяць вам (а, магчыма, і сабе таксама). Такое p-значэнне не гуляе ролі, калі вы не прытрымліваецеся сваёй гіпотэзы да таго, як прагледзелі свае дадзеныя. Шарлатаны імітуюць дзеянні аналітыкаў і статыстыкаў без разумення прычын. У выніку ва ўсёй вобласці навукі аб дадзеных складаецца дрэнная рэпутацыя.

Сапраўдныя статыстыкі заўсёды робяць свае высновы

Дзякуючы амаль містычнай рэпутацыі спецыялістаў па статыстыцы, якія займаюцца строгімі развагамі, колькасць фэйкавай інфармацыі ў Data Science рэкордна высокая. Лёгка падмануць і не трапіцца, асабліва калі нічога не падазравалая ахвяра думае, што ўся справа ва ўраўненнях і дадзеных. Набор дадзеных - гэта набор дадзеных, праўда? Не. Мае значэнне як вы яго карыстаецеся.

На шчасце, вам патрэбна толькі адна падказка, каб злавіць шарлатанаў: яны адчыняюць Амерыку заднім лікам . Нанова адкрываючы з'явы, якія, як ім ужо вядома, прысутнічаюць у дадзеных.

У адрозненне ад шарлатанаў, добрыя аналітыкі - не маюць прадузятасці і разумеюць, што натхняльныя ідэі могуць мець шмат розных тлумачэнняў. У той жа час добрыя статыстыкі старанна вызначаюць свае высновы, перш чым яны іх зробяць.

Аналітыкі вызваленыя ад адказнасці… пакуль яны не выходзяць за межы сваіх дадзеных. Калі ў іх узнікае спакусу заявіць аб тым, чаго яны не бачылі, гэта зусім іншая праца. Ім варта "зняць абутак" аналітыка і "пераабуцца" ў абутак статыстыка. У рэшце рэшт, якой бы ні была афіцыйная назва пасады, не існуе правіла, згодна з якім вы не можаце вывучаць абедзве прафесіі, калі хочаце. Толькі не блытайце іх.

Калі вы добра разбіраецеся ў статыстыцы, гэта не значыць, што вы добра разбіраецеся ў аналітыцы, і наадварот. Калі нехта спрабуе сказаць вам адваротнае, варта насцярожыцца. Калі гэты чалавек паведамляе вам, што дазволена рабіць статыстычную выснову на дадзеных, якія вы ўжо вывучылі, гэта нагода насцярожыцца ўдвая.

Мудрагелістыя тлумачэнні

Назіраючы за шарлатанамі дадзеных у дзікай прыродзе, вы заўважыце, што яны любяць складаць фантастычныя гісторыі, каб "растлумачыць" назіраныя дадзеныя. Чым акадэмічней, тым лепш. Няважна, што гэтыя гісторыі падганяюцца заднім чыслом.

Калі шарлатаны так робяць - дазвольце мне не скупіцца на словы - яны хлусяць. Ніякая колькасць ураўненняў або прыгожыя паняцці не кампенсуе таго, што яны прапанавалі нулявое доказ сваіх версій. Не дзіўцеся таму, наколькі незвычайныя іх тлумачэнні.

Гэта тое ж самае, што прадэманстраваць свае «экстрасэнсорныя» здольнасці, спачатку зірнуўшы на карты ў руках, а затым прадказаць, што вы трымаеце… тое, што трымаеце. Гэта прадузятасць рэтраспектыўнага погляду, і прафесія дата-саенціста нафаршаваная гэтым па горла.

Як распазнаць шарлатана ад Data Science?

Аналітыкі кажуць: «Вы толькі што пайшлі з бубновай каралевы». Статыстыкі кажуць: «Я запісаў свае гіпотэзы на гэтым кавалачку паперы да таго, як мы пачалі. Давай пагуляем, паглядзім некаторыя дадзеныя і паглядзім, ці мае рацыю я». Шарлатаны кажуць: «Я ведаў, што вы збіраецеся пайсці гэтай бубновай каралевай, таму што…»

Падзел дадзеных - гэта хуткае вырашэнне праблемы, у якім мае патрэбу кожны.

Калі дадзеных не так шмат, даводзіцца выбіраць паміж статыстыкай і аналітыкай, але калі дадзеных з лішкам, ёсць цудоўная магчымасць без падману скарыстацца аналітыкай и статыстыкай. У вас ёсць ідэальная абарона ад шарлатанаў - гэты падзел дадзеных і, на мой погляд, гэта самая магутная ідэя ў Data Science.

Каб абараніць сябе ад шарлатанаў, усё, што вам трэба зрабіць - пераканацца, што вы захоўваеце некаторыя тэставыя дадзеныя па-за дасяжнасцю іх цікаўных вачэй, а затым ставіцца да ўсяго астатняга як да аналітыкі. Калі вы сутыкаецеся з тэорыяй, якую рызыкуеце прыняць, выкарыстоўвайце яе, каб ацаніць сітуацыю, а затым адкрыйце свае сакрэтныя тэставыя дадзеныя, каб праверыць, што тэорыя не глупства. Гэта ж так проста!

Як распазнаць шарлатана ад Data Science?
Пераканайцеся, што нікому не дазволена праглядаць тэставыя дадзеныя на этапе даследавання. Для гэтага прытрымвайцеся даследчых дадзеных. Тэставыя дадзеныя не павінны выкарыстоўвацца для аналізу.

Гэта вялікі крок наперад у параўнанні з тым, да чаго людзі прывыклі ў эпоху "малых дадзеных", калі вам трэба тлумачыць, адкуль вы ведаеце тое, што ведаеце, каб нарэшце пераканаць людзей, што вы сапраўды нешта ведаеце.

Ужывальны тыя ж правілы да ML/AI

Некаторых шарлатанаў, якія выдаюць сябе за экспертаў у вобласці ML/AI, таксама лёгка выявіць. Вы зловіце іх гэтак жа, як злавілі б любога іншага дрэннага інжынера: "рашэнні", якія яны спрабуюць пабудаваць, увесь час церпяць няўдачу. Ранні папераджальны знак - адсутнасць досведу працы са стандартнымі галіновымі мовамі і бібліятэкамі праграмавання.

Але як наконт людзей, якія ствараюць сістэмы, якія падаюцца працаздольнымі? Як даведацца, што адбываецца нешта падазронае? Ужываецца тое ж правіла! Шарлатан - злавесны персанаж, які паказвае вам, наколькі добра мадэль працавала… на тых жа дадзеных, якія яны выкарыстоўвалі для стварэння мадэлі.

Калі вы стварылі вар'яцка складаную сістэму машыннага навучання, як даведацца, наколькі яна добрая? Вы не даведаецеся, пакуль не пакажаце, што яна працуе з новымі дадзенымі, якіх раней не бачыла.

Калі вы бачылі дадзеныя да прагназавання - наўрад ці гэта прадказванне.

Калі ў вас дастаткова дадзеных для падзелу, вам не трэба спасылацца на прыгажосць вашых формул, каб апраўдаць праект (старая модная звычка, якую я бачу ўсюды, не толькі ў навуцы). Вы можаце сказаць: «Я ведаю, што гэта працуе, таму што магу ўзяць набор дадзеных, якога раней не бачыў, і дакладна прадказаць, што там адбудзецца… і маю рацыю. Зноў і зноў".

Праверка вашай мадэлі/тэорыі на новых дадзеных - лепшая аснова для даверу.

Я не трываю шарлатанаў дадзеных. Мне ўсё роўна, ці абапіраецца ваша меркаванне на розныя фішкі. Мяне не ўражвае прыгажосць тлумачэнняў. Пакажыце мне, што ваша тэорыя / мадэль працуе (і працягвае працаваць) у цэлым шэрагу новых дадзеных, якіх вы ніколі раней не бачылі. Гэта і ёсць сапраўдная праверка ўстойлівасці вашага меркавання.

Зварот да спецыялістаў у галіне Data Science

Калі вы хочаце, каб да вас сур'ёзна ставіліся ўсе, хто разумее гэты гумар, перастаньце хавацца за мудрагелістымі раўнаннямі, каб падтрымліваць асабістыя прадузятасці. Пакажыце, што ў вас ёсць. Калі хочаце, каб тыя, хто «зразумеў», разглядалі вашу тэорыю/мадэль як нешта большае, чым проста натхняльную паэзію, майце смеласць зладзіць грандыёзнае ўяўленне таго, наколькі добра яна працуе на зусім новым наборы дадзеных… пры сведках!

Зварот да кіраўнікоў

Адмаўляйцеся прымаць сур'ёзна любыя "ідэі" аб дадзеных, пакуль яны не правераны на новых дадзеных. Не хочацца прыкладаць намаганні? Прытрымвайцеся аналітыкі, але не спадзявайцеся на гэтыя ідэі - яны ненадзейныя і не былі правераны на надзейнасць. Акрамя таго, калі ў арганізацыі ёсць дадзеныя ў багацці, няма ніякага недахопу ў тым, каб зрабіць падзел асновай у навуцы і падтрымліваць яго на ўзроўні інфраструктуры, кантралюючы доступ да тэставых дадзеных для статыстыкі. Гэта выдатны спосаб спыніць спробы вас надурыць!

Калі вы хочаце ўбачыць больш прыкладаў шарлатанаў, якія намышляюць нешта нядобрае вось цудоўны трэд у Twitter.

Вынікі

Калі дадзеных занадта мала для падзелу, толькі шарлатан спрабуе строга прытрымлівацца натхненню, адкрываючы Амерыку рэтраспектыўна, матэматычна пераадкрываючы з'явы, пра якія ўжо вядома, што яны ёсць у дадзеных, і называючы здзіўленне статыстычна значным. Гэта адрознівае іх ад непрадузята аналітыка, які мае справу з натхненнем, і скурпулёзнага статыстыка, які прапануе доказы пры прагназаванні.

Калі дадзеных шмат, завядзіце звычку падзяляць дадзеныя, дык вы зможаце мець лепшае з абодвух сьветаў! Абавязкова рабіце аналітыку і статыстыку асобна па асобных падмноствам зыходнага нагрувашчвання дадзеных.

  • Аналітыкі прапануюць вам натхненне і шырыню поглядаў.
  • Статыстыкі прапануюць вам строгае тэсціраванне.
  • Шарлатаны прапануюць вам перакручаны рэтраспектыўны погляд, які прыкідваецца аналітыкай плюс статыстыкай.

Магчыма, пасля прачытання артыкула, у вас з'явіцца думка «а ці не шарлатан я»? Гэта нармальна. Прагнаць гэтую думку можна двума спосабамі: па-першае, азірнуцца, паглядзець, што вамі зроблена, ці прынесла ваша праца з дадзенымі практычную карысць. А па-другое, можна яшчэ папрацаваць над сваёй кваліфікацыяй (што ўжо сапраўды лішнім не будзе), тым больш сваім студэнтам мы даем практычныя навыкі і веды, якія дазваляюць ім стаць сапраўднымі дата-саенцістамі.

Як распазнаць шарлатана ад Data Science?

Яшчэ курсы

чытаць яшчэ

Крыніца: habr.com

Дадаць каментар