Kepiye cara ngenali charlatan saka Ilmu Data?

Kepiye cara ngenali charlatan saka Ilmu Data?
Sampeyan bisa uga wis krungu saka analis, machine learning lan spesialis intelijen buatan, nanging sampeyan wis krungu bab wong-wong sing ora adil overpaid? ketemu data charlatan! Peretasan kasebut, sing ditarik dening pakaryan sing nguntungake, menehi jeneng ilmuwan data nyata sing ala. Ing materi kita ngerti carane nggawa wong kuwi kanggo resik banyu.

Data charlatans ana nang endi wae

Data charlatans apik banget ing ndhelikake ing ngarsane kosong sing bisa dadi salah sijinetanpa sadhar. Kemungkinan, organisasi sampeyan wis nahan wong licik iki sajrone pirang-pirang taun, nanging kabar apik yaiku gampang dingerteni yen sampeyan ngerti apa sing kudu digoleki.
Tandha peringatan pisanan yaiku kurang pangerten analytics lan statistik disiplin banget beda. Aku bakal nerangake iki luwih.

Disiplin sing beda-beda

Ahli statistik dilatih kanggo nggawe kesimpulan babagan apa sing ngluwihi data kasebut, analis dilatih kanggo mriksa isi set data. Ing tembung liya, analis nggawe kesimpulan babagan apa sing ana ing data, lan ahli statistik nggawe kesimpulan babagan apa sing ora ana ing data kasebut. Analis mbantu sampeyan takon pitakonan sing apik (nggawe hipotesis), lan ahli statistik mbantu sampeyan entuk jawaban sing apik (nyoba hipotesis sampeyan).

Ana uga peran hibrida aneh ing ngendi wong nyoba njagong ing kursi loro ... Apa ora? Prinsip dhasar ilmu data: yen sampeyan ngalami kahanan sing durung mesthi, sampeyan ora bisa nggunakake padha titik data kanggo hipotesis lan testing. Nalika data diwatesi, kahanan sing durung mesthi nggawe pilihan antarane statistik utawa analytics. Panjelasan kene.

Tanpa statistik, sampeyan bakal macet lan ora bisa ngerti apa paukuman sing lagi wae dirumusake, lan tanpa analisa, sampeyan obah kanthi wuta, kanthi sethithik kasempatan kanggo ngobati sing ora dingerteni. Iki minangka pilihan sing angel.

Cara sing ditindakake dening tukang sihir saka kekacoan iki yaiku ora nggatekake lan banjur pura-pura kaget karo kedadeyan sing dumadakan. Logika konco nguji hipotesis statistik teka menyang pitakonan apa data kaget cukup kanggo ngganti pikiran kita. Kepiye carane bisa kaget karo data yen kita wis ndeleng?

Nalika para penipu nemokake pola, dheweke entuk inspirasi, banjur priksa data padha kanggo pola padha, kanggo nerbitaké asil karo p-nilai sah utawa loro, jejere teori sing. Mangkono, dheweke ngapusi sampeyan (lan, bisa uga, uga kanggo awake dhewe). Nilai-p iki ora masalah yen sampeyan ora netepi hipotesis sampeyan kanggo carane sampeyan ndeleng data sampeyan. Charlatans niru tumindak para analis lan ahli statistik tanpa mangerteni alasane. Akibaté, kabeh bidang ilmu data entuk reputasi sing ala.

Ahli statistik sing sejati mesthi nggawe kesimpulan dhewe

Thanks kanggo reputasi statistik sing meh mistis amarga alasan sing ketat, jumlah informasi palsu ing Ilmu Data saya dhuwur. Gampang diapusi lan ora kejiret, luwih-luwih yen korban sing ora curiga nganggep kabeh babagan persamaan lan data. Dataset iku dataset, bener? Ora. Iku penting carane sampeyan nggunakake.

Untunge, sampeyan mung butuh siji pitunjuk kanggo nyekel para penipu: dheweke "nemokake Amerika kanthi retroaktif." Kanthi nemokake maneh fenomena sing wis dingerteni ana ing data kasebut.

Ora kaya charlatans, analis apik mbukak-minded lan ngerti sing gagasan inspirasi bisa duwe akeh panjelasan beda. Ing wektu sing padha, ahli statistik sing apik nemtokake kesimpulan kasebut kanthi teliti sadurunge nggawe.

Analis dibebasake saka tanggung jawab ... anggere padha tetep ing ruang lingkup data. Yen padha digodha kanggo pratelan soko padha ora weruh, iku kabèh proyek liyane. Dheweke kudu nyopot sepatu analis lan nganggo sepatu ahli statistik. Sawise kabeh, ora preduli apa jabatan resmi, ora ana aturan sing ujar manawa sampeyan ora bisa sinau loro profesi kasebut yen sampeyan pengin. Mung aja padha bingung.

Mung amarga sampeyan pinter ing statistik ora ateges sampeyan pinter ing analytics, lan kosok balene. Yen ana sing nyoba ngandhani yen ora, sampeyan kudu waspada. Yen wong iki ngandhani yen diidini nggawe kesimpulan statistik saka data sing wis sampeyan sinau, iki minangka alasan kanggo waspada.

Panjelasan aneh

Nalika mirsani charlatans data ing alam bébas, sampeyan bakal sok dong mirsani sing padha seneng nggawe crita Fantastic kanggo "nerangake" data padha mirsani. Sing luwih akademisi, luwih apik. Ora preduli yen crita-crita kasebut diatur ing mburi.

Nalika charlatans nindakake iki - supaya kula cetha - padha ngapusi. Ora ana persamaan utawa konsep sing apik sing bisa nggawe kasunyatan manawa dheweke menehi bukti nol kanggo teori kasebut. Aja gumun karo panjelasan sing ora biasa.

Iki padha karo nuduhake kabisan "psikis" kanthi ndeleng kertu ing tangan sampeyan, banjur prédhiksi apa sing sampeyan nyekel ... apa sing sampeyan nyekel. Iki minangka bias mburi, lan profesi ilmu data diisi nganti lengkap.

Kepiye cara ngenali charlatan saka Ilmu Data?

Analis ujar: "Sampeyan mung lunga karo Ratu Berlian." Para ahli statistik kandha, "Aku nulis hipotesis ing kertas iki sadurunge kita miwiti. Ayo muter-muter lan ndeleng sawetara data lan deleng yen aku bener." Charlatans ujar: "Aku ngerti sampeyan bakal dadi Ratu Berlian amarga ..."

Nuduhake data minangka solusi cepet sing dibutuhake saben wong.

Nalika ora akeh data, sampeyan kudu milih antarane statistik lan analytics, nanging yen ana data luwih saka cukup, ana kesempatan sing apik kanggo nggunakake analytics tanpa ngapusi. и statistika. Sampeyan duwe pertahanan sing sampurna marang charlatans - pamisahan data lan, miturut pendapatku, iki minangka ide sing paling kuat ing Ilmu Data.

Kanggo nglindhungi dhewe saka charlatans, sampeyan mung kudu nggawe manawa sampeyan nyimpen sawetara data tes supaya ora bisa digayuh, banjur nambani liyane minangka analytics. Yen sampeyan nemokake teori sing ana risiko nampa, gunakake kanggo ngevaluasi kahanan kasebut, banjur mbukak data tes rahasia kanggo mriksa manawa teori kasebut ora omong kosong. Gampang banget!

Kepiye cara ngenali charlatan saka Ilmu Data?
Priksa manawa ora ana sing diidini ndeleng data tes sajrone tahap eksplorasi. Kanggo nindakake iki, tetep data riset. Data tes ngirim ora digunakake kanggo analisis.

Iki minangka langkah gedhe saka apa sing digunakake wong ing jaman "data cilik", ing ngendi sampeyan kudu nerangake carane sampeyan ngerti apa sing sampeyan ngerti supaya pungkasane bisa ngyakinake wong yen sampeyan ngerti apa wae.

Aplikasi aturan sing padha kanggo ML / AI

Sawetara penipu sing dadi ahli ML/AI uga gampang ditemokake. Sampeyan bakal nyekel wong-wong mau kanthi cara sing padha karo insinyur ala liyane: "solusi" sing dicoba digawe terus gagal. Tandha peringatan awal yaiku kurang pengalaman karo basa pemrograman standar industri lan perpustakaan.

Nanging kepiye wong-wong sing nggawe sistem sing katon bisa digunakake? Kepiye sampeyan ngerti yen ana kedadeyan sing curiga? Aturan sing padha ditrapake! Charlatan minangka karakter jahat sing nuduhake sampeyan carane model kasebut bisa digunakake ... ing data sing padha digunakake kanggo nggawe model kasebut.

Yen sampeyan wis nggawe sistem pembelajaran mesin sing rumit banget, kepiye sampeyan ngerti kepiye? Sampeyan ora bakal ngerti nganti sampeyan nuduhake dheweke nggarap data anyar sing durung katon sadurunge.

Nalika sampeyan ndeleng data sadurunge prakiraan - ora mungkin sadurungengandhani

Yen sampeyan duwe data sing cukup kanggo misahake, sampeyan ora perlu nyebutake kaendahan rumus sampeyan kanggo mbenerake proyek kasebut (biasane fashion lawas sing dakdeleng ing endi wae, ora mung ing ilmu pengetahuan). Sampeyan bisa ngomong: "Aku ngerti kerjane amarga aku bisa njupuk set data sing durung dakdeleng sadurunge lan prédhiksi persis apa sing bakal kelakon ing kana ... lan aku bakal bener. Maneh lan maneh".

Nguji model/teori sampeyan nglawan data anyar minangka basis paling apik kanggo kapercayan.

Aku ora ngidinke data charlatans. Aku ora peduli yen pendapat sampeyan adhedhasar trik sing beda. Aku ora kesengsem karo kaendahan panjelasan. Tampilake yen teori / model sampeyan bisa digunakake (lan terus digunakake) ing pirang-pirang data anyar sing durung nate dideleng sadurunge. Iki minangka tes nyata babagan kekuwatan pendapat sampeyan.

Hubungi Pakar Ilmu Data

Yen sampeyan pengin dianggep serius dening saben wong sing ngerti humor iki, mandheg ndhelikake persamaan sing apik kanggo ndhukung bias pribadi. Tampilake apa sing sampeyan duwe. Yen sampeyan pengin wong-wong sing "njaluk" kanggo ndeleng teori / model sampeyan luwih saka mung puisi inspirasi, duwe wani kanggo sijine ing acara grand carane apik iku bisa ing pesawat rampung anyar saka data ... ing ngarepe saksi. !

Njaluk kanggo pemimpin

Nolak njupuk "gagasan" apa wae babagan data kasebut nganti dites anyar data. Ora aran kaya sijine ing gaweyan? Kelet karo analytics, nanging aja ngandelake ide kasebut - ora bisa dipercaya lan durung diuji linuwih. Kajaba iku, nalika organisasi duwe data sing akeh, ora ana kekurangan kanggo nggawe pemisahan dhasar ing ilmu pengetahuan lan njaga ing tingkat infrastruktur kanthi ngontrol akses kanggo nguji data kanggo statistik. Iki minangka cara sing apik kanggo mungkasi wong sing nyoba ngapusi sampeyan!

Yen sampeyan pengin ndeleng luwih akeh conto charlatans nganti ora apik - kene thread apik ing Twitter.

Hasil

Nalika ana data sethitik banget kanggo misahake, mung charlatan nyoba kanggo strictly tindakake inspirasi dening nemokake Amerika retrospectively, matématis rediscovering fénoména wis dikenal ing data, lan nelpon surprise statistik pinunjul. Iki mbedakake saka analis sing mbukak pikiran, sing ngurus inspirasi, lan ahli statistik sing tliti, sing menehi bukti nalika nggawe ramalan.

Yen ana akeh data, biyasane misahake data supaya sampeyan bisa entuk sing paling apik ing jagad iki! Priksa manawa sampeyan nindakake analytics lan statistik kanthi kapisah kanggo subset individu saka tumpukan data asli.

  • Analysts menehi inspirasi lan mbukak-mindedness.
  • Statistik nawakake tes sing ketat.
  • Charlatans nawakake sampeyan mburi bengkong sing nyamar dadi analytics plus statistik.

Mbok menawa, sawise maca artikel kasebut, sampeyan bakal mikir "apa aku tukang ngapusi"? Iki apik. Ana rong cara kanggo nyingkirake pamikiran iki: pisanan, deleng maneh, deleng apa sing wis sampeyan lakoni, apa karya sampeyan kanthi data wis entuk manfaat praktis. Lan kaping pindho, sampeyan isih bisa ngupayakake kualifikasi sampeyan (sing mesthi ora bakal ngluwihi), utamane amarga kita menehi siswa katrampilan lan kawruh praktis sing ngidini dheweke dadi ilmuwan data nyata.

Kepiye cara ngenali charlatan saka Ilmu Data?

Kursus liyane

Waca liyane

Source: www.habr.com

Add a comment