Data Scienceтен шарлатанды кантип таанууга болот?

Data Scienceтен шарлатанды кантип таанууга болот?
Сиз аналитиктер, машина үйрөнүү жана жасалма интеллект боюнча адистер жөнүндө уккандырсыз, бирок адилетсиз түрдө ашыкча төлөнүп жаткандар жөнүндө уктуңуз беле? Жолугушуу data charlatan! Кирешелүү жумуштарга азгырылган бул хакерлер чыныгы маалымат таануучуларга жаман ат берет. Материалда биз мындай адамдарды таза сууга кантип алып келүүнү түшүнөбүз.

Маалымат шарлатандар бардык жерде

Берилиштер шарлатандары көзгө көрүнбөгөн жерден жашырылганды жакшы билишет алардын бири боланы да сезбей туруп. Мүмкүн, сиздин уюм бул тымызын балдарды көп жылдардан бери багып келет, бирок жакшы жаңылык, эгер сиз эмнени издеш керек экенин билсеңиз, аларды аныктоо оңой.
Биринчи эскертүү белгиси - муну түшүнбөгөндүк аналитика жана статистика такыр башка дисциплиналар. Мен муну дагы түшүндүрөм.

Ар кандай дисциплиналар

Статистиктер алардын маалыматтарынын чегинен ашкан нерселер жөнүндө тыянак чыгарууга, аналитиктер маалымат топтомунун мазмунун изилдөөгө үйрөтүлөт. Башкача айтканда, аналитиктер өз маалыматтарында эмне бар, ал эми статистиктер маалыматтарда жок нерселер жөнүндө тыянак чыгарышат. Аналитиктер жакшы суроолорду берүүгө (гипотеза түзүүгө), ал эми статистиктер жакшы жооп алууга (гипотезаңызды текшерүү) жардам берет.

Адам эки отургучка отурууга аракет кылган кызыктай гибрид ролдору да бар... Эмне үчүн? Маалымат илиминин негизги принциби: эгер сиз белгисиздик менен күрөшүп жатсаңыз, колдоно албайсыз ошондой гипотеза жана тестирлөө үчүн маалымат чекити. Маалыматтар чектелүү болгондо, белгисиздик статистиканы же аналитиканы тандоого мажбурлайт. Түшүндүрүү бул жерде.

Статистика болбосо, сиз тыгылып каласыз жана сиз жаңы эле чыгарган чечимиңиздин туруштук берер-келбесин түшүнө албай каласыз, ал эми анализсиз сокур кыймылдайсыз, белгисиз нерсени колго алуу мүмкүнчүлүгү аз. Бул кыйын тандоо.

Шарлатандын бул башаламандыктан чыгуунун жолу - ага көңүл бурбай, анан күтүлбөгөн жерден пайда болгон нерсеге таң калгандай түр көрсөтүү. Статистикалык гипотезаларды сынап көрүүнүн логикасы маалыматтар бизди таң калтырып, акылыбызды өзгөртүү үчүн жетиштүүбү деген суроого келип чыгат. Эгер биз буга чейин эле көргөн болсок, маалыматтарга кантип таң кала алабыз?

Шарлатандар үлгү тапкан сайын, алар шыктанышат, анан текшеришет ошол эле маалыматтар үчүн ошол эле үлгү, алардын теориясынын жанында мыйзамдуу p-баалуу же эки натыйжаны жарыялоо. Ошентип, алар сага (жана, балким, өздөрүнө да) калп айтып жатышат. Эгер гипотезаңызга карманбасаңыз, бул p-мааниси маанилүү эмес үчүн маалыматыңызды кандай көргөнсүз. Шарлатандар себебин түшүнбөй туруп аналитиктердин жана статисттердин аракеттерин туурашат. Натыйжада, маалымат илиминин бардык чөйрөсү жаман репутацияга ээ болот.

Чыныгы статистикачылар ар дайым өз алдынча жыйынтык чыгарышат

Статисттердин катаал ой жүгүртүүсү үчүн дээрлик мистикалык репутациясынын аркасында, Data Science тармагындагы жалган маалыматтардын саны болуп көрбөгөндөй жогору. Айрыкча, бейкапар жабырлануучу мунун бардыгы теңдемелер жана маалыматтар жөнүндө деп ойлосо, алдап кетүү жана кармалбоо оңой. Берилиштер топтому бул маалымат топтому, туурабы? Жок. Аны кантип колдонсоңуз маанилүү.

Бактыга жараша, шарлатандарды кармоо үчүн сизге бир гана маалымат керек: алар "Американы артка ачып жатышат". Алар буга чейин эле маалыматтарда бар болгон кубулуштарды кайра ачуу менен.

Шарлатандардан айырмаланып, жакшы аналитиктер ачык-айрым жана шыктандыруучу идеялардын ар кандай түшүндүрмөлөрү болушу мүмкүн экенин түшүнүшөт. Ошол эле учурда, жакшы статистиктер тыянак чыгарардан мурун өз корутундусун аныкташат.

Аналитиктер жоопкерчиликтен бошотулат... эгерде алар өз маалыматтарынын чегинде калышса. Эгер алар көрбөгөн нерсени талап кылууга азгырылып жатса, бул башка жумуш. Аналитиктин бут кийимин чечип, статисттин бут кийимин кийиш керек. Кантсе да, расмий кызмат кандай болсо да, кааласаң эки кесипти тең окуй албайсың деген эреже жок. Жөн гана аларды чаташтырбаңыз.

Статистиканы жакшы билгениңиз сиздин аналитикада жакшы экениңизди билдирбейт жана тескерисинче. Эгер кимдир бирөө сага башкача айтууга аракет кылса, этият болушуң керек. Эгер бул адам сиз изилдеген маалыматтардан статистикалык тыянак чыгарууга болот деп айтса, бул эки эсе этият болууга негиз болуп саналат.

Кызык түшүндүрмөлөр

Шарлатандарды жапайы жаратылышта байкап жатканда, алар байкаган маалыматтарды "түшүндүрүү" үчүн фантастикалык окуяларды түзгөндү жакшы көрөрүн байкайсыз. Канчалык академиялык көп болсо, ошончолук жакшы. Бул окуялар артка кылчайып оңдолгону маанилүү эмес.

Шарлатандар муну кылганда - ачык айтайын - алар калп айтып жатышат. Эч кандай теңдеме же кооз концепциялар алардын теорияларынын нөлдүк далилин сунуштаган фактынын ордун толтура албайт. Алардын түшүндүрмөлөрү адаттан тыш экенине таң калбаңыз.

Бул адегенде колуңуздагы карталарды карап, анан кармаганыңызды... кармаганыңызды алдын ала айтуу менен "психикалык" жөндөмүңүздү көрсөтүү менен бирдей. Бул артка кайдыгерлик жана маалымат илими кесиби аны менен толтурулган.

Data Scienceтен шарлатанды кантип таанууга болот?

Талдоочулар: "Сиз жаңы эле Алмаз ханышасы менен жүрдүңүз" дешет. Статистиктер мындай дешет: «Биз баштаардан мурун мен гипотезамды ушул кагазга жаздым. Келгиле, ойноп, кээ бир маалыматтарды карап көрөлү, менин туура экенимди көрөлү." Шарлатандар: "Мен сенин Алмаз ханышасы болооруңду билчүмүн, анткени..." дешет.

Маалыматтарды бөлүшүү - бул баарына керек болгон тез оңдоо.

Маалыматтар көп болбогондо, статистика менен аналитиканы тандоо керек, бирок маалыматтар жетиштүү болгондо, аналитиканы алдабай колдонууга сонун мүмкүнчүлүк бар. и статистика. Сизде шарлатандардан кемчиликсиз коргонуу бар - маалыматтарды бөлүү жана менин оюмча, бул Data Scienceтеги эң күчтүү идея.

Шарлатандардан өзүңүздү коргоо үчүн, сизге керектүү болгон нерсе, кээ бир тесттик маалыматтарды алардын кызыккан көздөрүнө жетпеген жерде сактап, калганын аналитика катары кабыл алуу. Качан сиз кабыл алуу коркунучу бар теорияга туш болгондо, аны кырдаалга баа берүү үчүн колдонуңуз, анан теориянын маанисиз эмес экенин текшерүү үчүн жашыруун тест маалыматтарыңызды ачыңыз. Бул абдан жөнөкөй!

Data Scienceтен шарлатанды кантип таанууга болот?
Чалгындоо фазасында эч кимдин сыноо маалыматтарын көрүүгө уруксаты жок экенин текшериңиз. Бул үчүн, изилдөө маалыматтарына карманыңыз. Сыноо маалыматтары талдоо үчүн колдонулбашы керек.

Бул "кичинекей маалыматтар" доорундагы адамдар көнүп калган нерседен чоң кадам, анда сиз бир нерсени чындыгында билгениңизге адамдарды ынандыруу үчүн эмнени билгениңизди кантип түшүндүрүшүңүз керек.

Ошол эле эрежелерди ML/AI үчүн колдонуңуз

Өзүн ML/AI эксперттери катары көрсөткөн кээ бир шарлатандар да оңой эле байкалат. Сиз аларды башка жаман инженерди кармагандай эле кармайсыз: алар курууга аракет кылган "чечимдер" тынымсыз ишке ашпай калат. Эрте эскертүү белгиси - бул тармактык стандарттуу программалоо тилдери жана китепканалар менен тажрыйбанын жоктугу.

Бирок иштегендей көрүнгөн системаларды түзгөн адамдар жөнүндө эмне айтууга болот? Шектүү бир нерсе болуп жатканын кантип билесиз? Ошол эле эреже колдонулат! Шарлатан - бул модель канчалык жакшы иштегенин көрсөткөн жаман каарман... моделди түзүү үчүн колдонгон ошол эле маалыматтар боюнча.

Эгер сиз укмуштай татаал машина үйрөнүү системасын курган болсоңуз, анын канчалык жакшы экенин кайдан билесиз? Сиз ага мурда көрбөгөн жаңы маалыматтар менен иштегенин көрсөтмөйүнчө биле албайсыз.

Сиз болжолдоодон мурун маалыматтарды көргөндө - бул күмөн чейинайтып

Бөлүп алуу үчүн жетиштүү маалыматтарыңыз болгондо, долбоорду актоо үчүн формулаларыңыздын кооздугун келтирүүнүн кереги жок (мен илимде эле эмес, бардык жерде көргөн эски мода адаты). Сиз айта аласыз: "Мен муну билем, анткени мен буга чейин көрбөгөн маалыматтар топтомун алып, ал жерде эмне болорун алдын ала айта алам ... жана мен туура болот. Кайра-кайра".

Сиздин моделиңизди/теорияңызды жаңы маалыматтарга каршы сынап көрүү ишеним үчүн эң жакшы негиз болуп саналат.

Мен маалымат шарлатандарына чыдабайм. Сиздин пикириңиз ар кандай айла-амалдарга негизделгенби мага баары бир. Түшүндүрүүлөрдүн кооздугу мени таң калтырган жок. Мага сиздин теорияңыз/моделиңиз мурда эч качан көрбөгөн жаңы маалыматтардын бүтүндөй тобунда иштегенин (жана иштеп жатканын) көрсөтүңүз. Бул сиздин пикириңиздин күчтүүлүгүнүн чыныгы сыноосу.

Маалымат илими боюнча эксперттер менен байланышуу

Бул юморду түшүнгөн ар бир адам сизди олуттуу кабыл алгыңыз келсе, жеке көз караштарды колдоо үчүн кооз теңдемелердин артына жашынууну токтотуңуз. Сенде эмне бар экенин көрсөт. Эгер сиз аны "түшүп алгандар" сиздин теорияңызды/моделиңизди жөн эле шыктандыруучу поэзия катары көрүшүн кааласаңыз, анын такыр жаңы маалыматтар топтомунда канчалык жакшы иштээрин көрсөтүүгө кайраттуу болуңуз... күбөлөрдүн алдында. !

Жетекчилерге кайрылуу

Алар текшерилмейинче, маалыматтар жөнүндө кандайдыр бир "идеяларды" олуттуу кабыл алуудан баш тартыңыз жаңы маалыматтар. Аракет кылгыңыз келбей жатабы? Аналитиканы карманыңыз, бирок бул идеяларга ишенбеңиз — алар ишенимсиз жана ишенимдүүлүгү текшерилген эмес. Андан тышкары, уюмда көп маалыматтар болгондо, илимде бөлүнүүнү фундаменталдуу кылуунун жана статистика үчүн тесттик маалыматтарга жетүүнү көзөмөлдөө менен аны инфраструктуралык деңгээлде кармоонун эч кандай терс жагы жок. Бул сизди алдаган адамдарды токтотуунун эң сонун жолу!

Эгер сиз шарлатандардын жакшы эмес мисалдарын көргүңүз келсе - бул жерде Twitterде сонун тема бар.

натыйжалары

Бөлүп берүү үчүн өтө аз маалымат болгондо, бир шарлатан гана Американы ретроспективдүү ачып, маалыматтарда мурдатан белгилүү болгон кубулуштарды математикалык жактан кайра ачып, сюрпризди статистикалык жактан маанилүү деп атап, илхамды так аткарууга аракет кылат. Бул аларды илхам менен алектенген ачык-айрым аналитиктен жана божомолдоодо далилдерди сунуш кылган кылдат статисттен айырмалап турат.

Берилиштер көп болгондо, эки дүйнөнүн эң жакшысына ээ болуу үчүн, маалыматтарды бөлүүнү адатка айлантыңыз! Түпнуска маалымат топтомунун айрым бөлүмдөрү үчүн өз-өзүнчө аналитика жана статистика жүргүзүүнү унутпаңыз.

  • талдоочулар сизге шыктандыруу жана ачык пикирди сунуш кылат.
  • статистика сизге катуу сыноону сунуштайбыз.
  • Шарлатандар сизге аналитика плюс статистика болуп көрүнгөн бурмаланган арткы көрүнүштү сунуштайт.

Балким, макаланы окугандан кийин сизде "мен шарлатанмынбы" деген ой пайда болот? Бул Жакшы. Бул ойдон кутулуунун эки жолу бар: биринчиден, артка кылчайып караңыз, эмне кылганыңызды көрүңүз, сиздин маалыматтар менен ишиңиз практикалык пайда алып келдиби. Экинчиден, сиз дагы эле өз квалификацияңыз боюнча иштей аласыз (бул ашыкча болбойт), айрыкча биз студенттерибизге чыныгы маалымат таануучу болууга мүмкүндүк берген практикалык көндүмдөрдү жана билимдерди беребиз.

Data Scienceтен шарлатанды кантип таанууга болот?

Көбүрөөк курстар

Кененирээк маалымат

Source: www.habr.com

Комментарий кошуу