Bagaimana untuk mengenali penipu daripada Sains Data?

Bagaimana untuk mengenali penipu daripada Sains Data?
Anda mungkin pernah mendengar tentang penganalisis, pembelajaran mesin dan pakar kecerdasan buatan, tetapi pernahkah anda mendengar tentang mereka yang dibayar terlebih dahulu? jumpa penipu data! Penggodaman ini, dipikat oleh pekerjaan yang menguntungkan, memberikan nama buruk kepada saintis data sebenar. Dalam bahan kami memahami bagaimana untuk membawa orang seperti itu ke air bersih.

Penipu data ada di mana-mana

Penipu data sangat pandai bersembunyi di depan mata sehingga anda boleh menjadi salah seorang daripada merekatanpa disedari. Kemungkinan organisasi anda telah melindungi penipu ini selama bertahun-tahun, tetapi berita baiknya ialah mereka mudah dikenal pasti jika anda tahu perkara yang perlu dicari.
Tanda amaran pertama adalah tidak memahami apa analisis dan statistik adalah disiplin yang sangat berbeza. Saya akan menjelaskan perkara ini dengan lebih lanjut.

Pelbagai disiplin

Ahli statistik dilatih untuk membuat kesimpulan tentang perkara di luar data mereka, penganalisis dilatih untuk mengkaji kandungan set data. Dalam erti kata lain, penganalisis membuat kesimpulan tentang apa yang ada dalam data mereka, dan ahli statistik membuat kesimpulan tentang perkara yang tidak ada dalam data. Penganalisis membantu anda bertanya soalan yang baik (tekaan), dan statistik membantu anda mendapatkan jawapan yang baik (ujian hipotesis).

Terdapat juga peranan hibrid yang aneh di mana seseorang cuba duduk di atas dua kerusi... Mengapa tidak? Prinsip asas sains data: jika anda berhadapan dengan ketidakpastian, anda tidak boleh menggunakan sama titik data untuk hipotesis dan ujian. Apabila data terhad, ketidakpastian memaksa seseorang untuk memilih antara statistik atau analitis. Penjelasan di sini.

Tanpa statistik, anda akan terperangkap dan tidak dapat memahami sama ada penghakiman yang baru anda rumuskan sesuai dengan kritikan, dan tanpa analisis, anda bergerak secara membuta tuli, mempunyai sedikit peluang untuk menjinakkan perkara yang tidak diketahui. Ini adalah pilihan yang sukar.

Cara penipu untuk keluar dari kekacauan ini adalah dengan mengabaikannya dan kemudian berpura-pura terkejut dengan apa yang didedahkan secara tiba-tiba. Logik di sebalik menguji hipotesis statistik bermuara kepada bertanya sama ada data itu cukup mengejutkan kita untuk mengubah fikiran kita. Bagaimanakah kita boleh terkejut dengan data jika kita sudah melihatnya?

Setiap kali penipu menemui corak, mereka mendapat inspirasi, kemudian semak data yang sama untuk corak yang sama, untuk menerbitkan hasil dengan satu atau dua nilai p yang sah, bersebelahan dengan teori mereka. Oleh itu, mereka berbohong kepada anda (dan, mungkin, kepada diri mereka sendiri juga). Nilai-p ini tidak penting jika anda tidak berpegang pada hipotesis anda kepada cara anda melihat data anda. Penipu meniru tindakan penganalisis dan statistik tanpa memahami sebabnya. Akibatnya, seluruh bidang sains data mendapat rap yang buruk.

Ahli statistik yang benar sentiasa membuat kesimpulan mereka sendiri

Terima kasih kepada reputasi ahli statistik yang hampir mistik untuk alasan yang teliti, jumlah maklumat palsu dalam Sains Data berada pada tahap tertinggi sepanjang masa. Sangat mudah untuk menipu dan tidak ditangkap, terutamanya jika mangsa yang tidak mengesyaki menganggap ini semua tentang persamaan dan data. Set data ialah set data, bukan? Tidak. Ia penting bagaimana anda menggunakannya.

Nasib baik, anda hanya memerlukan satu petunjuk untuk menangkap penipu: mereka "menemui semula Amerika selepas fakta itu." Menemui semula fenomena yang mereka sedia maklum ada dalam data.

Tidak seperti penipu, penganalisis yang baik berfikiran terbuka dan memahami bahawa idea inspirasi boleh mempunyai banyak penjelasan yang berbeza. Pada masa yang sama, ahli statistik yang baik dengan teliti menentukan kesimpulan mereka sebelum mereka membuat kesimpulan.

Penganalisis dikecualikan daripada liabiliti... selagi mereka tidak melampaui data mereka. Jika mereka terdorong untuk menuntut sesuatu yang mereka tidak pernah lihat, itu adalah kerja yang berbeza. Mereka harus "menanggalkan kasut mereka" sebagai penganalisis dan "bertukar menjadi" kasut seorang ahli statistik. Lagipun, apa pun jawatan rasmi, tidak ada peraturan yang mengatakan anda tidak boleh mempelajari kedua-dua perdagangan jika anda mahu. Cuma jangan mengelirukan mereka.

Hanya kerana anda mahir dalam statistik tidak bermakna anda mahir dalam analisis, dan begitu juga sebaliknya. Jika seseorang cuba memberitahu anda sebaliknya, anda harus berjaga-jaga. Jika orang ini memberitahu anda bahawa anda dibenarkan membuat inferens statistik pada data yang telah anda pelajari, ini adalah sebab untuk berhati-hati.

Penjelasan Pelik

Apabila memerhati penipu data di alam liar, anda akan perasan bahawa mereka suka mencipta cerita fantastik untuk "menerangkan" data yang mereka perhatikan. Lebih banyak akademik, lebih baik. Tidak mengapa cerita-cerita ini diselaraskan di belakang.

Apabila penipu melakukan ini - izinkan saya bermurah hati dengan kata-kata - mereka berbohong. Tiada jumlah persamaan atau konsep yang indah menebus hakikat bahawa mereka menawarkan bukti sifar versi mereka. Jangan terkejut betapa luar biasa penjelasan mereka.

Ini adalah sama seperti menunjukkan kebolehan "psikik" anda dengan mula-mula melihat kad di tangan anda, dan kemudian meramalkan apa yang anda pegang ... apa yang anda pegang. Ini berat sebelah belakang, dan profesion saintis data dipenuhi dengannya.

Bagaimana untuk mengenali penipu daripada Sains Data?

Penganalisis berkata: "Anda baru sahaja pergi bersama Ratu Berlian." Ahli statistik berkata, "Saya menulis hipotesis saya pada sekeping kertas ini sebelum kita mula. Mari kita bermain-main dan melihat beberapa data dan lihat jika saya betul." Pendeta berkata: "Saya tahu anda akan menjadi Ratu Berlian ini kerana..."

Perkongsian data ialah penyelesaian pantas yang semua orang perlukan.

Apabila data tidak banyak, anda perlu memilih antara statistik dan analitik, tetapi apabila terdapat lebih daripada data yang mencukupi, terdapat peluang besar untuk menggunakan analitik tanpa menipu ΠΈ perangkaan. Anda mempunyai perlindungan yang sempurna terhadap penipu - ini adalah pengasingan data dan, pada pendapat saya, ini adalah idea yang paling berkuasa dalam Sains Data.

Untuk melindungi diri anda daripada penipu, anda hanya perlu memastikan anda menyimpan beberapa data ujian daripada mata mereka dan kemudian menganggap segala-galanya sebagai analitik. Apabila anda menemui teori yang anda berisiko menerima, gunakannya untuk menilai situasi dan kemudian mendedahkan data ujian rahsia anda untuk mengesahkan bahawa teori itu bukan omong kosong. Ia sangat mudah!

Bagaimana untuk mengenali penipu daripada Sains Data?
Pastikan tiada sesiapa dibenarkan melihat data ujian semasa fasa penerokaan. Untuk melakukan ini, berpegang pada data penyelidikan. Data ujian tidak boleh digunakan untuk analisis.

Ini merupakan satu langkah besar daripada kebiasaan orang ramai dalam era "data kecil", di mana anda perlu menerangkan cara anda mengetahui perkara yang anda ketahui untuk akhirnya meyakinkan orang ramai bahawa anda benar-benar mengetahui sesuatu.

Gunakan peraturan yang sama pada ML/AI

Sesetengah penipu yang menyamar sebagai pakar ML/AI juga mudah dikesan. Anda akan menangkap mereka dengan cara yang sama seperti anda akan menangkap mana-mana jurutera buruk yang lain: "penyelesaian" yang mereka cuba bina sentiasa gagal. Tanda amaran awal ialah kekurangan pengalaman dengan bahasa standard industri dan perpustakaan pengaturcaraan.

Tetapi bagaimana pula dengan orang membina sistem yang nampaknya berfungsi? Bagaimana anda tahu jika sesuatu yang mencurigakan sedang berlaku? Peraturan yang sama berlaku! The Charlatan ialah watak jahat yang menunjukkan kepada anda prestasi model itu… pada data yang sama yang mereka gunakan untuk mencipta model.

Jika anda telah membina sistem pembelajaran mesin yang sangat kompleks, bagaimana anda tahu betapa bagusnya sistem tersebut? Anda tidak akan tahu sehingga anda menunjukkan dia bekerja dengan data baharu yang tidak pernah dilihatnya sebelum ini.

Apabila anda melihat data sebelum meramalkan, tidak mungkin begitu sebelum inimemberitahu

Apabila anda mempunyai data yang mencukupi untuk dipecahkan, anda tidak perlu menggunakan keindahan formula anda untuk mewajarkan projek (tabiat bergaya lama yang saya lihat di mana-mana, bukan hanya dalam sains). Awak boleh cakap: β€œSaya tahu ia berfungsi kerana saya boleh mengambil set data yang saya tidak pernah lihat sebelum ini dan meramalkan dengan tepat apa yang akan berlaku di sana… dan saya akan betul. Lagi dan lagi".

Menguji model/teori anda terhadap data baharu adalah asas terbaik untuk kepercayaan.

Saya tidak bertolak ansur dengan penipu data. Saya tidak kisah jika pendapat anda berdasarkan cip yang berbeza. Saya tidak kagum dengan keindahan penjelasan. Tunjukkan kepada saya bahawa teori/model anda berfungsi (dan terus berfungsi) pada julat data baharu yang tidak pernah anda lihat sebelum ini. Ini adalah ujian sebenar kekuatan pendapat anda.

Menghubungi Saintis Data

Jika anda ingin dipandang serius oleh sesiapa yang memahami jenaka ini, berhenti bersembunyi di sebalik persamaan mewah untuk mengekalkan kecenderungan peribadi anda. Tunjukkan apa yang anda ada. Jika anda mahu mereka yang "mendapatnya" melihat teori/model anda sebagai lebih daripada sekadar puisi inspirasi, beranikan diri untuk mempamerkan prestasi hebatnya pada set data serba baharu... di hadapan saksi!

Rayuan kepada pemimpin

Enggan mengambil serius apa-apa "idea" tentang data sehingga data itu diuji baru data. Tidak mahu berusaha? Berpegang pada analitik, tetapi jangan bergantung pada idea ini - idea ini tidak boleh dipercayai dan belum diuji untuk kebolehpercayaan. Selain itu, apabila organisasi mempunyai data yang banyak, tidak ada kelemahan untuk menjadikan pemisahan sebagai asas sains dan mengekalkannya di peringkat infrastruktur dengan mengawal akses untuk menguji data untuk statistik. Ini adalah cara yang bagus untuk menghentikan percubaan untuk menipu anda!

Jika anda ingin melihat lebih banyak contoh penipu merancang sesuatu yang buruk - ini adalah benang twitter yang hebat.

Keputusan

Apabila data terlalu kecil untuk dipisahkan, hanya penipu yang cuba mengikuti ilham dengan ketat, menemui Amerika secara retrospektif, menemui semula fenomena matematik yang telah diketahui dalam data, dan memanggil kejutan secara statistik. Ini membezakan mereka daripada penganalisis berfikiran terbuka yang berurusan dengan inspirasi dan ahli statistik yang teliti menawarkan bukti semasa membuat ramalan.

Apabila terdapat banyak data, biasakan berkongsi data supaya anda boleh mendapatkan yang terbaik dari kedua-dua dunia! Pastikan anda melakukan analitis dan statistik secara berasingan untuk subset berasingan bagi longgokan data asal.

  • Penganalisis menawarkan anda inspirasi dan pemikiran terbuka.
  • Perangkaan menawarkan anda ujian yang ketat.
  • penipu menawarkan kepada anda pandangan yang berbelit yang berpura-pura sebagai analitik serta statistik.

Mungkin, selepas membaca artikel itu, anda akan terfikir "adakah saya seorang penipu"? Ini baik. Terdapat dua cara untuk menyingkirkan pemikiran ini: pertama, lihat ke belakang, lihat apa yang telah anda lakukan, sama ada kerja anda dengan data telah membawa faedah praktikal. Dan kedua, anda masih boleh mengusahakan kelayakan anda (yang pastinya tidak akan berlebihan), terutamanya kerana kami memberikan pelajar kami kemahiran dan pengetahuan praktikal yang membolehkan mereka menjadi saintis data sebenar.

Bagaimana untuk mengenali penipu daripada Sains Data?

Lebih banyak kursus

Baca lagi

Sumber: www.habr.com

Tambah komen