Мэдээллийн шинжлэх ухааны шарлатаныг хэрхэн таних вэ?

Мэдээллийн шинжлэх ухааны шарлатаныг хэрхэн таних вэ?
Та шинжээчид, машин сургалтын болон хиймэл оюун ухааны мэргэжилтнүүдийн талаар сонссон байж магадгүй, гэхдээ шударга бусаар илүү цалин авдаг хүмүүсийн талаар сонссон уу? Уулзана өгөгдлийн шарлатан! Ашигтай ажилд уруу татагдсан эдгээр хакерууд бодит мэдээлэл судлаачдад муу нэр өгч байна. Материалаас бид ийм хүмүүсийг цэвэр ус руу хэрхэн авчрахыг ойлгодог.

Дата шарлатанууд хаа сайгүй байдаг

Дата шарлатанууд нүдэнд харагдахуйц нуугдахдаа маш сайн тул та чадна тэдний нэг болооройөөрөө ч мэдэлгүй. Танай байгууллага эдгээр зальтай залуусыг олон жилийн турш хорьж байгаа байх, гэхдээ сайн мэдээ гэвэл та юу хайхаа мэддэг бол тэднийг тодорхойлоход хялбар байдаг.
Эхний анхааруулах тэмдэг бол үүнийг ойлгохгүй байх явдал юм аналитик ба статистик бол тэс өөр салбар юм. Би үүнийг цааш нь тайлбарлах болно.

Өөр өөр салбарууд

Статистикчдыг өгөгдлөөсөө давж гарсан зүйлийн талаар дүгнэлт гаргах, шинжээчдийг мэдээллийн багцын агуулгыг судлахад сургадаг. Өөрөөр хэлбэл, шинжээчид өөрсдийн өгөгдөлд юу байгаа талаар дүгнэлт гаргадаг, статистикчид мэдээлэлд байхгүй талаар дүгнэлт хийдэг. Шинжээчид танд сайн асуулт асуухад (таамаглал дэвшүүлэхэд), статистикчид сайн хариулт авахад (таамаглалыг шалгах) тусалдаг.

Хүн хоёр сандал дээр суух гэж оролддог хачирхалтай эрлийз дүрүүд ч бий... Яагаад болохгүй гэж? Өгөгдлийн шинжлэх ухааны үндсэн зарчим: Хэрэв та тодорхой бус байдалтай тулгарвал ашиглах боломжгүй адилхан таамаглал, туршилтын мэдээллийн цэг. Өгөгдөл хязгаарлагдмал үед тодорхойгүй байдал нь статистик эсвэл аналитикийн хооронд сонголт хийхэд хүргэдэг. Тайлбар энд.

Статистик тоо баримтгүй бол та гацаж, таны саяхан гаргасан шүүлт биелэх эсэхийг ойлгох чадваргүй, дүн шинжилгээ хийхгүйгээр сохроор хөдөлж, үл мэдэгдэх зүйлийг номхотгох магадлал багатай байх болно. Энэ бол хэцүү сонголт юм.

Шарлатан энэ эмх замбараагүй байдлаас гарах арга зам бол үүнийг үл тоомсорлож, гэнэт гарч ирсэн зүйлд гайхсан дүр эсгэх явдал юм. Статистикийн таамаглалыг шалгах логик нь бидний бодлыг өөрчлөхөд хангалттай мэдээлэл биднийг гайхшруулж байна уу гэсэн асуултаас үүдэлтэй. Хэрэв бид үүнийг аль хэдийн харсан бол бид үүнийг хэрхэн гайхшруулах вэ?

Шарлатанууд загвар олох болгондоо урам зориг авч, дараа нь шалга ижил өгөгдөл нь ижил загвар, үр дүнг өөрсдийн онолын хажууд хууль ёсны p-утга эсвэл хоёроор нийтлэх. Тиймээс тэд танд (магадгүй өөрсдөдөө) худал хэлж байна. Хэрэв та таамаглалдаа баригдахгүй бол энэ p-утга хамаагүй нь Та өөрийн өгөгдлийг хэрхэн үзсэн. Шарлатанууд шалтгааныг нь ойлгохгүйгээр шинжээч, статистикчдын үйлдлийг дуурайдаг. Үүний үр дүнд мэдээллийн шинжлэх ухааны салбар бүхэлдээ муу нэр хүндтэй болж байна.

Жинхэнэ статистикчид үргэлж өөрсдийн дүгнэлтийг гаргадаг

Статистикчдийн хатуу үндэслэл бүхий бараг ид шидийн нэр хүндийн ачаар Data Science дахь хуурамч мэдээллийн хэмжээ урьд өмнө байгаагүй өндөр түвшинд хүрчээ. Ялангуяа сэжиггүй хохирогч бүх зүйл тэгшитгэл, өгөгдөлтэй холбоотой гэж бодож байвал хуурч мэхлэх, баригдахгүй байх нь амархан байдаг. Датасет бол өгөгдлийн багц, тийм ээ? Үгүй Үүнийг хэрхэн ашиглах нь чухал.

Аз болоход, шарлатануудыг барихын тулд танд ганц л зүйл хэрэгтэй: тэд "Америкийг буцаан нээж байна". Өгөгдөлд байгаа тэдний аль хэдийн мэддэг үзэгдлийг дахин олж илрүүлэх замаар.

Шарлатануудаас ялгаатай нь сайн шинжээчид нээлттэй сэтгэлгээтэй бөгөөд урам зориг өгөх санаанууд нь олон янзын тайлбартай байдаг гэдгийг ойлгодог. Үүний зэрэгцээ сайн статистикчид дүгнэлтээ гаргахаасаа өмнө сайтар тодорхойлдог.

Шинжээчид өгөгдлийнхөө хүрээнд байх л юм бол хариуцлагаас чөлөөлөгдөнө. Хэрэв тэд хараагүй зүйлээ шаардах гэж уруу татагдах юм бол энэ нь огт өөр ажил юм. Тэд шинжээчийн гутлыг тайлж, статистикчийн гутлыг өмсөх ёстой. Эцсийн эцэст албан тушаалын нэр ямар ч хамаагүй, хэрэв хүсвэл хоёр мэргэжлээр суралцаж болохгүй гэсэн дүрэм байдаггүй. Зүгээр л тэднийг андуурч болохгүй.

Та статистикт сайн байна гэдэг нь аналитикт сайн гэсэн үг биш, харин эсрэгээрээ. Хэрэв хэн нэгэн танд өөрөөр хэлэхийг оролдвол та болгоомжтой байх хэрэгтэй. Хэрэв энэ хүн танд аль хэдийн судалсан мэдээллээс статистикийн дүгнэлт гаргах боломжтой гэж хэлсэн бол энэ нь давхар болгоомжлох шалтгаан болно.

Хачирхалтай тайлбарууд

Зэрлэг байгальд өгөгдлийн шарлатануудыг ажиглахдаа тэд ажигласан мэдээллээ "тайлбарлах" гайхалтай түүх зохиох дуртайг та анзаарах болно. Илүү их академик байх тусмаа сайн. Эдгээр түүхүүдийг эргэн харж тохируулсан нь хамаагүй.

Шарлатанууд үүнийг хийхдээ - би тодорхой хэлье - тэд худлаа ярьж байна. Ямар ч тэгшитгэл эсвэл гоёмсог ойлголтууд нь тэдний онолын нотлох баримтыг нотлохгүй. Тэдний тайлбар ямар ер бусын байгаад бүү гайх.

Энэ нь эхлээд гартаа байгаа хөзрүүдийг хараад, дараа нь барьж буй зүйлээ ... юу барьж байгаагаа урьдчилан таамаглах замаар "сэтгэцийн" чадвараа харуулахтай адил юм. Энэ бол урьдын таамаглал бөгөөд мэдээллийн шинжлэх ухааны мэргэжил үүгээр дүүрэн байдаг.

Мэдээллийн шинжлэх ухааны шарлатаныг хэрхэн таних вэ?

Шинжээчид: "Та саяхан Очир эрдэнийн хатан хаантай хамт явсан." Статистикчид “Бид эхлэхээсээ өмнө би энэ цаасан дээр таамаглалаа бичсэн. Тоглож, зарим өгөгдлийг харцгаая, миний зөв эсэхийг харцгаая." Шарлатанчууд: "Би чамайг Очир эрдэнийн хатан хаан болно гэдгийг мэдэж байсан, учир нь..."

Мэдээлэл хуваалцах нь хүн бүрт хэрэгтэй хурдан засвар юм.

Өгөгдөл багатай үед статистик болон аналитик хоёрын аль нэгийг нь сонгох хэрэгтэй, гэхдээ хангалттай мэдээлэл байгаа тохиолдолд аналитикийг хууран мэхлэлтгүйгээр ашиглах сайхан боломж бий. и статистик. Та шарлатануудаас хамгаалах төгс хамгаалалттай - өгөгдөл тусгаарлах ба миний бодлоор энэ бол Data Science дахь хамгийн хүчирхэг санаа юм.

Шарлатануудаас өөрийгөө хамгаалахын тулд тестийн зарим мэдээллийг тэдний нүднээс хол байлгаж, үлдсэнийг нь аналитик гэж үзэхэд л хангалттай. Хүлээн авах эрсдэлтэй гэсэн онолтой тулгарвал түүгээрээ нөхцөл байдлыг үнэлж, дараа нь онол нь дэмий зүйл биш гэдгийг шалгахын тулд нууц тестийн мэдээллээ ил болго. Энэ маш энгийн!

Мэдээллийн шинжлэх ухааны шарлатаныг хэрхэн таних вэ?
Хайгуулын үе шатанд туршилтын өгөгдлийг хэн ч харахыг хориглоно. Үүнийг хийхийн тулд судалгааны өгөгдөлд анхаарлаа хандуулаарай. Туршилтын өгөгдлийг шинжилгээнд ашиглаж болохгүй.

Энэ нь "жижиг өгөгдөл"-ийн эрин үед хүмүүсийн хэрэглэж байсан зүйлээс том алхам бөгөөд эцэст нь та ямар нэг зүйлийг үнэхээр мэддэг гэдэгтээ итгүүлэхийн тулд юу мэддэгээ хэрхэн тайлбарлах ёстой.

ML/AI-д ижил дүрмийг хэрэглэнэ

ML/AI-ийн мэргэжилтнүүдийн дүрд хувирсан зарим шарлатануудыг илрүүлэхэд хялбар байдаг. Та өөр ямар ч муу инженерийг барьж авдаг шигээ тэднийг барьж авах болно: тэдний бүтээх гэж оролддог "шийдлүүд" байнга бүтэлгүйтдэг. Эрт анхааруулах тэмдэг бол салбарын стандарт програмчлалын хэл, номын санг ашиглах туршлага дутмаг юм.

Гэхдээ ажиллаж байгаа юм шиг системийг бий болгодог хүмүүс яах вэ? Сэжигтэй зүйл болсныг яаж мэдэх вэ? Үүнтэй ижил дүрэм үйлчилнэ! Шарлатан бол загвар бүтээхдээ ашигласан ижил өгөгдөл дээр загвар хэр сайн ажиллаж байсныг харуулдаг харгис дүр юм.

Хэрэв та маш нарийн төвөгтэй машин сургалтын системийг бүтээсэн бол энэ нь хэр сайн болохыг яаж мэдэх вэ? Та түүнд урьд өмнө нь харж байгаагүй шинэ өгөгдөлтэй ажиллахыг харуулах хүртэл мэдэхгүй.

Урьдчилан таамаглахаас өмнө өгөгдлийг харсан бол энэ нь магадлал багатай юм өмнө ньхэлж байна

Салгах хангалттай өгөгдөлтэй бол төслийг зөвтгөхийн тулд томъёоныхоо гоо сайхныг дурдах шаардлагагүй (энэ нь зөвхөн шинжлэх ухаанд ч биш, би хаа сайгүй харагддаг хуучин загварын зуршил). Чи хэлж чадна: “Би өмнө нь харж байгаагүй өгөгдлийн багцыг аваад тэнд яг юу болохыг урьдчилан таамаглаж чаддаг учраас энэ нь ажиллаж байгааг мэдэж байна... мөн миний зөв байх болно. Дахин дахин".

Өөрийн загвар/онолыг шинэ өгөгдлийн эсрэг турших нь өөртөө итгэх хамгийн сайн үндэс суурь юм.

Би дата шарлатануудыг тэвчихгүй. Таны санал бодол янз бүрийн заль мэх дээр үндэслэсэн байх нь надад хамаагүй. Тайлбарын сайхан нь надад тийм ч их сэтгэгдэл төрүүлэхгүй байна. Таны онол/загвар урьд өмнө хэзээ ч харж байгаагүй олон тооны шинэ өгөгдөл дээр ажилладаг (мөн үргэлжлүүлэн ажиллаж байгааг) надад харуул. Энэ бол таны үзэл бодлын бат бөх байдлын жинхэнэ шалгуур юм.

Мэдээллийн шинжлэх ухааны мэргэжилтнүүдтэй холбоо барих

Хэрэв та энэ хошин шогийг ойлгодог бүх хүмүүст нухацтай хандахыг хүсч байвал хувийн хэвшмэл ойлголтыг дэмжихийн тулд гоёмсог тэгшитгэлийн ард нуугдахаа зогсоо. Өөрт байгаа зүйлээ надад харуулаач. Хэрэв та "үүнийг олж авсан" хүмүүс таны онол/загварыг зүгээр нэг урам зориг өгөх яруу найргаас илүү гэж үзэхийг хүсч байвал энэ нь цоо шинэ өгөгдөл дээр хэр сайн ажиллаж байгааг гэрчүүдийн өмнө харуулах зоригтой байгаарай. !

Удирдагчдад уриалах

Туршилтанд орох хүртэл өгөгдөлтэй холбоотой аливаа "санааг" ​​нухацтай авч үзэхээс татгалз шинэ өгөгдөл. Хүчин чармайлт гаргахыг хүсэхгүй байна уу? Аналитикийг дагаж мөрдөөрэй, гэхдээ эдгээр санаануудад бүү найд, тэдгээр нь найдваргүй бөгөөд найдвартай эсэхийг шалгаагүй болно. Түүгээр ч зогсохгүй аливаа байгууллага их хэмжээний өгөгдөлтэй бол статистикийн туршилтын өгөгдөлд хандах хандалтыг хянах замаар шинжлэх ухааны салангид суурь болгож, дэд бүтцийн түвшинд байлгахад сөрөг тал байхгүй. Энэ бол таныг хуурах гэж оролдож буй хүмүүсийг зогсоох гайхалтай арга юм!

Хэрэв та илүү сайн шарлатануудын жишээг харахыг хүсч байвал - Твиттерт нэгэн гайхалтай сэдэв байна.

Үр дүн

Хэтэрхий бага мэдээлэлтэй байхад зөвхөн шарлатан л Америкийг ретроспективээр нээж, өгөгдөлд аль хэдийн мэдэгдэж байсан үзэгдлүүдийг математикийн аргаар дахин нээж, гайхшралыг статистикийн ач холбогдолтой гэж нэрлэснээр урам зоригийг чанд мөрдөхийг хичээдэг. Энэ нь тэднийг урам зоригтой харьцдаг нээлттэй сэтгэлгээтэй шинжээч, таамаглал дэвшүүлэхдээ нотлох баримт санал болгодог нягт нямбай статистикчдаас ялгадаг.

Өгөгдөл ихтэй үед өгөгдлийг салгаж заншаарай, ингэснээр та хоёр ертөнцийн хамгийн сайн сайхныг авах болно! Анхны овоолгын өгөгдлийн дэд багцын хувьд аналитик болон статистикийг тусад нь хийхээ мартуузай.

  • Шинжээчид танд урам зориг, нээлттэй сэтгэлгээг санал болгож байна.
  • Статистик танд нарийн шалгалтыг санал болгож байна.
  • Шарлатанчууд аналитик болон статистик гэх мэт дүр эсгэсэн гажуудлыг танд санал болгож байна.

Магадгүй, нийтлэлийг уншсаны дараа танд "Би шарлатан мөн үү" гэсэн бодол төрж магадгүй юм. Энэ зүгээр. Энэ бодлоос ангижрах хоёр арга бий: эхлээд эргэж хар, юу хийснээ, өгөгдөлтэй хийсэн ажил тань бодит үр өгөөжөө өгсөн эсэхийг хар. Хоёрдугаарт, бид оюутнууддаа бодит мэдээлэл судлаач болох боломжийг олгодог практик ур чадвар, мэдлэгийг өгдөг тул та өөрийн ур чадвар дээр ажиллах боломжтой хэвээр байна (энэ нь илүүдэхгүй байх болно).

Мэдээллийн шинжлэх ухааны шарлатаныг хэрхэн таних вэ?

Илүү олон курс

Цааш унших

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх