Data Science-dan charlatanni qanday aniqlash mumkin?

Data Science-dan charlatanni qanday aniqlash mumkin?
Siz tahlilchilar, mashinani o'rganish va sun'iy intellekt bo'yicha mutaxassislar haqida eshitgan bo'lishingiz mumkin, ammo nohaq ortiqcha maosh olganlar haqida eshitganmisiz? Tanishish ma'lumotlar charlatan! Daromadli ishlarga jalb qilingan bu xakerlar haqiqiy ma'lumotlar olimlariga yomon nom beradi. Materialda biz bunday odamlarni toza suvga qanday olib kelishni tushunamiz.

Data charlatanlar hamma joyda

Ma'lumotlar charlatanlari ko'rinadigan joyda yashirishni juda yaxshi bilishadi ulardan biri bo'lhatto buni sezmasdan. Tashkilotingiz bir necha yillardan buyon bu hiyla-nayrang yigitlarni qo'llab-quvvatlab kelmoqda, ammo yaxshi xabar shundaki, agar siz nimani qidirishni bilsangiz, ularni aniqlash oson.
Birinchi ogohlantirish belgisi - buni tushunmaslik analitika va statistika juda boshqacha fanlardir. Buni batafsilroq tushuntiraman.

Turli fanlar

Statistiklar o'z ma'lumotlaridan tashqariga chiqadigan narsalar to'g'risida xulosa chiqarishga, tahlilchilar esa ma'lumotlar to'plamining mazmunini o'rganishga o'rgatiladi. Boshqacha qilib aytganda, tahlilchilar o'zlarining ma'lumotlarida nima borligi haqida xulosa chiqaradilar va statistiklar ma'lumotlarda mavjud bo'lmagan narsalar haqida xulosa chiqaradilar. Tahlilchilar sizga yaxshi savollar berishga yordam beradi (gipotezalarni yaratish), statistiklar esa yaxshi javoblar olishga yordam beradi (gipotezalaringizni sinab ko'ring).

Inson ikkita stulga o'tirishga harakat qiladigan g'alati gibrid rollar ham bor ... Nima uchun? Ma'lumotlar fanining asosiy printsipi: agar siz noaniqlik bilan shug'ullansangiz, foydalana olmaysiz xuddi shu gipotezalar va testlar uchun ma'lumotlar nuqtasi. Ma'lumotlar cheklangan bo'lsa, noaniqlik statistika yoki tahlil o'rtasida tanlov qilishga majbur qiladi. Izoh shu yerda.

Statistik ma'lumotlarsiz siz tiqilib qolasiz va hozirgina ishlab chiqqan hukmingiz o'z kuchida yoki yo'qligini tushunolmaysiz va tahlilsiz ko'r-ko'rona harakat qilyapsiz, noma'lum narsalarni qo'lga olish imkoniyati kam. Bu qiyin tanlov.

Sharlatanning bu tartibsizlikdan chiqish yo'li - bunga e'tibor bermaslik va keyin to'satdan paydo bo'lgan narsadan hayratda qolgandek ko'rsatishdir. Statistik gipotezalarni sinab ko'rish mantig'i ma'lumotlar bizni fikrimizni o'zgartirish uchun etarlicha ajablantiradimi yoki yo'qmi degan savolga to'g'ri keladi. Agar biz allaqachon ko'rgan bo'lsak, ma'lumotlardan qanday hayratda qolishimiz mumkin?

Charlatanlar har doim naqsh topsa, ular ilhomlanib, keyin tekshiring bir xil ma'lumotlar uchun bir xil naqsh, natijani qonuniy p-qiymati yoki ikkita bilan nashr qilish, ularning nazariyasi yonida. Shunday qilib, ular sizga (va, ehtimol, o'zlariga ham) yolg'on gapirishadi. Agar siz gipotezaga sodiq qolmasangiz, bu p-qiymati muhim emas uchun ma'lumotlaringizni qanday ko'rgansiz. Sharlatanlar sabablarni tushunmasdan tahlilchilar va statistiklarning harakatlariga taqlid qilishadi. Natijada, ma'lumotlar fanining butun sohasi yomon obro'ga ega bo'ladi.

Haqiqiy statistiklar har doim o'z xulosalarini chiqaradilar

Statistiklarning qat'iy mulohazalari uchun deyarli mistik obro'si tufayli Data Sciencedagi soxta ma'lumotlarning miqdori eng yuqori darajaga yetdi. Aldash va qo‘lga tushmaslik oson, ayniqsa befarq jabrlanuvchi hamma narsani tenglamalar va ma’lumotlar bilan bog‘liq deb hisoblasa. Ma'lumotlar to'plami - bu ma'lumotlar to'plami, to'g'rimi? Yo'q. Siz uni qanday ishlatishingiz muhim.

Yaxshiyamki, charlatanlarni qo'lga olish uchun sizga faqat bitta maslahat kerak: ular "Amerikani orqaga qarab kashf qilmoqdalar". Ma'lumotlarda ular allaqachon bilgan hodisalarni qayta kashf qilish orqali.

Charlatanlardan farqli o'laroq, yaxshi tahlilchilar ochiq fikrli va ilhomlantiruvchi g'oyalar turli xil tushuntirishlarga ega bo'lishi mumkinligini tushunishadi. Shu bilan birga, yaxshi statistiklar o'z xulosalarini chiqarishdan oldin ularni diqqat bilan aniqlaydilar.

Tahlilchilar o'z ma'lumotlari doirasida qolsalar, javobgarlikdan ozod qilinadilar. Agar ular ko'rmagan narsalarini da'vo qilish vasvasasiga tushib qolishsa, bu butunlay boshqa ish. Analitikning tuflisini yechib, statistikning tuflisini kiyishi kerak. Axir, rasmiy lavozim qanday bo‘lishidan qat’i nazar, agar xohlasangiz, ikkala kasbni ham o‘rganolmaysiz, degan qoida yo‘q. Faqat ularni chalkashtirmang.

Statistikani yaxshi bilishingiz analitikada yaxshi ekanligingizni anglatmaydi va aksincha. Agar kimdir sizga boshqacha aytmoqchi bo'lsa, ehtiyot bo'lishingiz kerak. Agar bu odam sizga allaqachon o'rgangan ma'lumotlardan statistik xulosalar chiqarish mumkinligini aytsa, bu ikki baravar ehtiyot bo'lish uchun sababdir.

G'alati tushuntirishlar

Yovvoyi tabiatda ma'lumotlar sharlatanlarini kuzatayotganda, ular kuzatgan ma'lumotlarini "tushuntirish" uchun fantastik hikoyalar yaratishni yaxshi ko'rishlarini sezasiz. Qanchalik akademik bo'lsa, shuncha yaxshi. Bu hikoyalar orqaga qarab tuzatilgani muhim emas.

Sharlatanlar buni qilganda - ochiq aytsam - ular yolg'on gapirishadi. Hech qanday tenglamalar yoki ajoyib tushunchalar ularning nazariyalarining nol isbotini taklif qilganliklarini to'ldira olmaydi. Ularning tushuntirishlari qanchalik g'ayrioddiy ekanligiga hayron bo'lmang.

Bu birinchi navbatda qo'lingizdagi kartalarga qarab, so'ngra nima ushlab turganingizni ... nima ushlab turganingizni bashorat qilish orqali "ruhiy" qobiliyatingizni namoyish qilish bilan bir xil. Bu orqaga qarashdir va ma'lumotlar fanlari kasbi u bilan to'la.

Data Science-dan charlatanni qanday aniqlash mumkin?

Tahlilchilar: "Siz hozirgina olmoslar malikasi bilan borgansiz", deyishadi. Statistiklar shunday deyishadi: “Biz boshlashdan oldin men o'z farazlarimni shu qog'ozga yozdim. Keling, o'ynaymiz va ba'zi ma'lumotlarni ko'rib chiqamiz va men haq ekanligimni bilib olaylik." Charlatanlar: "Men siz Olmoslar malikasi bo'lishingizni bilardim, chunki ..."

Ma'lumot almashish - bu har kimga kerak bo'lgan tezkor tuzatish.

Ko'p ma'lumot bo'lmasa, siz statistika va analitika o'rtasida tanlov qilishingiz kerak, ammo etarli ma'lumotlar mavjud bo'lganda, tahlildan aldamasdan foydalanish uchun ajoyib imkoniyat mavjud. и statistika. Sizda charlatanlarga qarshi mukammal himoya bor - ma'lumotlarni ajratish va menimcha, bu Data Sciencedagi eng kuchli g'oya.

O'zingizni charlatanlardan himoya qilish uchun siz qilishingiz kerak bo'lgan yagona narsa, ba'zi test ma'lumotlarini ularning qiziquvchan ko'zlari eta olmaydigan joyda saqlashingizga ishonch hosil qiling va qolganlarini tahlil sifatida ko'ring. Qabul qilish xavfi ostida bo'lgan nazariyaga duch kelganingizda, vaziyatni baholash uchun undan foydalaning va keyin nazariya bema'ni emasligini tekshirish uchun maxfiy test ma'lumotlaringizni oshkor qiling. Bu juda oddiy!

Data Science-dan charlatanni qanday aniqlash mumkin?
Tadqiqot bosqichida hech kimga sinov ma'lumotlarini ko'rishga ruxsat berilmaganligiga ishonch hosil qiling. Buning uchun tadqiqot ma'lumotlariga yopishib oling. Sinov ma'lumotlarini tahlil qilish uchun ishlatmaslik kerak.

Bu "kichik ma'lumotlar" davrida odamlar o'rganib qolgan narsadan katta qadam bo'lib, odamlarni haqiqatan ham nimanidir bilishingizga ishontirish uchun nimani bilishingizni qanday tushuntirishingiz kerak.

ML/AI uchun bir xil qoidalarni qo'llang

ML/AI mutaxassislari sifatida namoyon bo'lgan ba'zi charlatanlarni aniqlash ham oson. Siz ularni boshqa har qanday yomon muhandisni ushlaganingizdek ushlaysiz: ular yaratishga urinayotgan “yechimlar” doimo muvaffaqiyatsizlikka uchraydi. Erta ogohlantirish belgisi sanoat standarti dasturlash tillari va kutubxonalari bilan tajriba etishmasligidir.

Lekin ishlayotgandek tuyuladigan tizimlarni yaratadigan odamlar haqida nima deyish mumkin? Shubhali narsa yuz berayotganini qanday bilasiz? Xuddi shu qoida amal qiladi! Charlatan - bu model qanchalik yaxshi ishlaganini ko'rsatadigan dahshatli qahramon ... modelni yaratishda foydalangan ma'lumotlarga asoslanadi.

Agar siz aql bovar qilmaydigan darajada murakkab mashinani o'rganish tizimini qurgan bo'lsangiz, uning qanchalik yaxshi ekanligini qaerdan bilasiz? Siz unga ilgari ko'rmagan yangi ma'lumotlar bilan ishlayotganini ko'rsatmaguningizcha bilmaysiz.

Prognoz qilishdan oldin ma'lumotlarni ko'rganingizda - bu dargumon oldinaytib

Ajratish uchun etarli ma'lumotlarga ega bo'lsangiz, loyihani asoslash uchun formulalaringizning go'zalligini keltirishingiz shart emas (men hamma joyda ko'rgan eski moda odatini, nafaqat fanda). Siz aytishingiz mumkin: "Men bu ishlayotganini bilaman, chunki men ilgari ko'rmagan ma'lumotlar to'plamini olib, u erda nima bo'lishini aniq taxmin qila olaman ... va men haq bo'laman. Yana va yana".

O'z modelingizni/nazariyangizni yangi ma'lumotlarga nisbatan sinab ko'rish ishonch uchun eng yaxshi asosdir.

Men ma'lumotlar charlatanlariga toqat qilmayman. Sizning fikringiz turli nayranglarga asoslanganmi, menga farqi yo'q. Tushuntirishlarning go'zalligi meni hayratda qoldirmadi. Sizning nazariyangiz/modelingiz ilgari hech qachon ko'rmagan yangi ma'lumotlar to'plamida ishlayotganini (va ishlashda davom etayotganini) menga ko'rsating. Bu sizning fikringiz kuchining haqiqiy sinovidir.

Ma'lumotlar fanlari bo'yicha mutaxassislar bilan bog'lanish

Agar bu hazilni tushunadigan har bir kishi sizni jiddiy qabul qilishni istasangiz, shaxsiy noto'g'ri qarashlarni qo'llab-quvvatlash uchun ajoyib tenglamalar orqasiga yashirinishni to'xtating. Menga nima borligini ko'rsating. Agar siz "o'rganganlar" sizning nazariyangizni/modelingizni shunchaki ilhomlantiruvchi she'riyat sifatida ko'rishlarini istasangiz, guvohlar oldida uning mutlaqo yangi ma'lumotlar to'plamida qanchalik yaxshi ishlashini ajoyib tarzda namoyish etishga jasoratli bo'ling. !

Rahbarlarga murojaat qilish

Sinovdan o'tmaguncha ma'lumotlarga oid har qanday "g'oyalar"ni jiddiy qabul qilishdan bosh torting novyx ma'lumotlar. Harakat qilishni xohlamaysizmi? Tahlillarga amal qiling, lekin bu g'oyalarga tayanmang - ular ishonchsiz va ishonchliligi tekshirilmagan. Bundan tashqari, agar tashkilotda ko'p ma'lumotlar mavjud bo'lsa, statistik ma'lumotlar uchun test ma'lumotlariga kirishni nazorat qilish orqali fanda ajratishni fundamental qilish va uni infratuzilma darajasida saqlashning salbiy tomoni yo'q. Bu sizni aldashga urinishlarini to'xtatishning ajoyib usuli!

Agar siz charlatanlarning ko'proq misollarini ko'rmoqchi bo'lsangiz - Twitterda ajoyib mavzu bor.

natijalar

Ajratish uchun juda kam ma'lumot bo'lsa, faqat bir charlatan Amerikani retrospektiv tarzda kashf qilish, ma'lumotlarda allaqachon ma'lum bo'lgan hodisalarni matematik tarzda qayta kashf qilish va kutilmagan hodisani statistik ahamiyatga ega deb atish orqali ilhomga qat'iy rioya qilishga harakat qiladi. Bu ularni ilhom bilan shug'ullanadigan ochiq fikrli tahlilchi va bashorat qilishda dalillarni taklif qiladigan sinchkov statistikdan ajratib turadi.

Ma'lumotlar juda ko'p bo'lsa, ikkala dunyoning eng yaxshisiga ega bo'lishingiz uchun ma'lumotlarni ajratishni odat qiling! Asl ma'lumotlar to'plamining alohida kichik to'plamlari uchun tahlil va statistikani alohida bajarishga ishonch hosil qiling.

  • Tahlilchilar sizga ilhom va ochiq fikrni taklif qiladi.
  • Statistlar sizga qattiq sinov taklif.
  • Charlatanlar Sizga analitik va statistik ma'lumotlarga o'xshab ko'rinadigan burilmagan tasavvurni taklif qiladi.

Ehtimol, maqolani o'qib bo'lgach, sizda "men charlatanmanmi?" degan fikr paydo bo'ladi. Bu odatiy. Ushbu fikrdan xalos bo'lishning ikkita usuli bor: birinchi navbatda, orqaga qarang, nima qilganingizni ko'ring, ma'lumotlar bilan ishlashingiz amaliy foyda keltirdimi yoki yo'qmi. Ikkinchidan, siz hali ham o'zingizning malakangiz ustida ishlashingiz mumkin (bu ortiqcha bo'lmaydi), ayniqsa biz o'quvchilarimizga haqiqiy ma'lumot olimi bo'lishlariga imkon beradigan amaliy ko'nikma va bilimlarni beramiz.

Data Science-dan charlatanni qanday aniqlash mumkin?

Ko'proq kurslar

Ko'proq o'qing

Manba: www.habr.com

a Izoh qo'shish