Bagaimana cara mengenali penipu dari Ilmu Data?

Bagaimana cara mengenali penipu dari Ilmu Data?
Anda mungkin pernah mendengar tentang analis, pembelajaran mesin, dan spesialis kecerdasan buatan, namun pernahkah Anda mendengar tentang mereka yang dibayar terlalu tinggi secara tidak adil? Bertemu penipu data! Peretasan ini, yang dipicu oleh pekerjaan yang menguntungkan, memberikan nama buruk bagi para ilmuwan data nyata. Dalam materi kami memahami bagaimana membawa orang-orang tersebut ke air bersih.

Penipu data ada dimana-mana

Penipu data sangat pandai bersembunyi di depan mata sehingga Anda bisa menjadi salah satu dari merekatanpa menyadarinya. Kemungkinannya adalah, organisasi Anda telah menyembunyikan orang-orang licik ini selama bertahun-tahun, namun kabar baiknya adalah mereka mudah diidentifikasi jika Anda tahu apa yang harus dicari.
Tanda peringatan pertama adalah kurangnya pemahaman akan hal itu analitik dan statistik adalah disiplin ilmu yang sangat berbeda. Saya akan menjelaskan hal ini lebih lanjut.

Disiplin ilmu yang berbeda

Ahli statistik dilatih untuk menarik kesimpulan tentang hal-hal di luar datanya, sedangkan analis dilatih untuk memeriksa konten kumpulan data. Dengan kata lain, analis menarik kesimpulan tentang apa yang ada dalam datanya, dan ahli statistik menarik kesimpulan tentang apa yang tidak ada dalam datanya. Analis membantu Anda mengajukan pertanyaan yang bagus (membuat hipotesis), dan ahli statistik membantu Anda mendapatkan jawaban yang baik (menguji hipotesis Anda).

Ada juga peran hibrida yang aneh di mana seseorang mencoba duduk di dua kursi... Kenapa tidak? Prinsip dasar ilmu data: jika Anda menghadapi ketidakpastian, Anda tidak dapat menggunakannya sama titik data untuk hipotesis dan pengujian. Ketika data terbatas, ketidakpastian memaksa kita untuk memilih antara statistik atau analitik. Penjelasan di sini.

Tanpa statistik, Anda akan terjebak dan tidak dapat memahami apakah penilaian yang baru saja Anda rumuskan dapat bertahan, dan tanpa analisis, Anda bergerak secara membabi buta, dan kecil kemungkinannya untuk menjinakkan hal-hal yang tidak diketahui. Ini adalah pilihan yang sulit.

Jalan keluar si penipu dari kekacauan ini adalah dengan mengabaikannya lalu berpura-pura terkejut dengan apa yang tiba-tiba muncul. Logika di balik pengujian hipotesis statistik bermuara pada pertanyaan apakah data tersebut cukup mengejutkan sehingga dapat mengubah pikiran kita. Bagaimana kita bisa terkejut dengan data jika kita sudah melihatnya?

Setiap kali penipu menemukan suatu pola, mereka mendapatkan inspirasi, lalu memeriksanya data yang sama untuk pola yang sama, untuk mempublikasikan hasilnya dengan satu atau dua nilai p yang sah, di samping teori mereka. Jadi, mereka berbohong kepada Anda (dan, mungkin, juga kepada diri mereka sendiri). Nilai p ini tidak menjadi masalah jika Anda tidak berpegang pada hipotesis Anda untuk bagaimana Anda melihat data Anda. Penipu meniru tindakan para analis dan ahli statistik tanpa memahami alasannya. Akibatnya, seluruh bidang ilmu data mendapat reputasi buruk.

Ahli statistik sejati selalu menarik kesimpulannya sendiri

Berkat reputasi para ahli statistik atas penalaran mereka yang cermat, jumlah informasi palsu dalam Ilmu Data berada pada titik tertinggi sepanjang masa. Sangat mudah untuk menipu dan tidak ketahuan, terutama jika korban yang tidak menaruh curiga menganggap ini semua tentang persamaan dan data. Kumpulan data adalah kumpulan data, bukan? TIDAK. Penting bagaimana Anda menggunakannya.

Untungnya, Anda hanya memerlukan satu petunjuk untuk menangkap para penipu: mereka "menemukan Amerika secara surut". Dengan menemukan kembali fenomena yang mereka ketahui ada dalam data.

Tidak seperti penipu, analis yang baik berpikiran terbuka dan memahami bahwa ide-ide inspiratif dapat memiliki banyak penjelasan berbeda. Pada saat yang sama, ahli statistik yang baik dengan cermat menentukan kesimpulannya sebelum membuat kesimpulan.

Analis dibebaskan dari tanggung jawab... selama mereka tetap berada dalam cakupan datanya. Jika mereka tergoda untuk mengklaim sesuatu yang tidak mereka lihat, itu adalah pekerjaan lain. Mereka harus melepaskan posisi analis dan mengenakan posisi ahli statistik. Lagi pula, apa pun jabatan resminya, tidak ada aturan yang mengatakan Anda tidak bisa mempelajari kedua profesi tersebut jika Anda mau. Hanya saja, jangan membingungkan mereka.

Hanya karena Anda ahli dalam statistik bukan berarti Anda ahli dalam analisis, dan sebaliknya. Jika seseorang mencoba memberi tahu Anda sebaliknya, Anda harus waspada. Jika orang ini memberi tahu Anda bahwa menarik kesimpulan statistik dari data yang telah Anda pelajari diperbolehkan, ini adalah alasan untuk waspada ganda.

Penjelasan yang aneh

Saat mengamati data penipu di alam liar, Anda akan melihat bahwa mereka suka mengarang cerita fantastis untuk “menjelaskan” data yang mereka amati. Semakin akademis, semakin baik. Tidak masalah jika cerita-cerita ini disesuaikan jika dipikir-pikir.

Ketika penipu melakukan ini - biar saya perjelas - mereka berbohong. Tidak ada persamaan atau konsep mewah yang dapat menggantikan fakta bahwa mereka tidak memberikan bukti apa pun terhadap teori mereka. Jangan kaget dengan betapa tidak lazimnya penjelasan mereka.

Ini sama dengan menunjukkan kemampuan "psikis" Anda dengan terlebih dahulu melihat kartu di tangan Anda dan kemudian memprediksi apa yang Anda pegang...apa yang Anda pegang. Ini adalah bias melihat ke belakang, dan profesi ilmu data dipenuhi dengan bias tersebut.

Bagaimana cara mengenali penipu dari Ilmu Data?

Para analis berkata: “Anda baru saja memilih Ratu Berlian.” Para ahli statistik mengatakan, “Saya menuliskan hipotesis saya pada selembar kertas ini sebelum kita mulai. Mari kita bermain-main dan melihat beberapa data dan melihat apakah saya benar." Penipu berkata: “Saya tahu kamu akan menjadi Ratu Berlian karena...”

Berbagi data adalah solusi cepat yang dibutuhkan semua orang.

Ketika tidak banyak data, Anda harus memilih antara statistik dan analitik, tetapi ketika data lebih dari cukup, ada peluang besar untuk menggunakan analitik tanpa penipuan. и statistik. Anda memiliki pertahanan sempurna terhadap penipu - pemisahan data dan, menurut pendapat saya, ini adalah ide paling kuat dalam Ilmu Data.

Untuk melindungi diri Anda dari penipu, yang perlu Anda lakukan hanyalah memastikan Anda menyimpan beberapa data pengujian dari jangkauan mata-mata mereka, dan kemudian memperlakukan sisanya sebagai analisis. Saat Anda menemukan teori yang berisiko Anda terima, gunakan teori tersebut untuk mengevaluasi situasinya, lalu ungkapkan data pengujian rahasia Anda untuk memastikan bahwa teori tersebut bukanlah omong kosong. Ini sangat mudah!

Bagaimana cara mengenali penipu dari Ilmu Data?
Pastikan tidak ada seorang pun yang diizinkan melihat data pengujian selama tahap eksplorasi. Untuk melakukan ini, patuhi data penelitian. Data uji tidak boleh digunakan untuk analisis.

Ini adalah langkah maju yang besar dari apa yang biasa dilakukan orang-orang di era "data kecil", di mana Anda harus menjelaskan bagaimana Anda mengetahui apa yang Anda ketahui untuk akhirnya meyakinkan orang bahwa Anda benar-benar mengetahui sesuatu.

Terapkan aturan yang sama untuk ML/AI

Beberapa penipu yang menyamar sebagai pakar ML/AI juga mudah dikenali. Anda akan menangkap mereka dengan cara yang sama seperti Anda menangkap insinyur jahat lainnya: "solusi" yang mereka coba buat terus-menerus gagal. Tanda peringatan dini adalah kurangnya pengalaman dengan bahasa pemrograman dan perpustakaan standar industri.

Namun bagaimana dengan orang-orang yang menciptakan sistem yang tampaknya berhasil? Bagaimana Anda tahu jika ada sesuatu yang mencurigakan sedang terjadi? Aturan yang sama juga berlaku! Charlatan adalah karakter jahat yang menunjukkan seberapa baik model bekerja...pada data yang sama yang mereka gunakan untuk membuat model.

Jika Anda telah membangun sistem pembelajaran mesin yang sangat rumit, bagaimana Anda tahu seberapa bagus sistem tersebut? Anda tidak akan mengetahuinya sampai Anda menunjukkan dia sedang mengerjakan data baru yang belum pernah dia lihat sebelumnya.

Ketika Anda melihat data sebelum memperkirakan - kemungkinannya kecil sebelumnyapemberitaan

Ketika Anda memiliki cukup data untuk dipisahkan, Anda tidak perlu mengutip keindahan rumus Anda untuk membenarkan proyek tersebut (kebiasaan kuno yang saya lihat di mana-mana, tidak hanya dalam sains). Anda dapat mengatakan: “Saya tahu ini berhasil karena saya dapat mengambil kumpulan data yang belum pernah saya lihat sebelumnya dan memprediksi dengan tepat apa yang akan terjadi di sana... dan saya akan benar. Lagi dan lagi".

Menguji model/teori Anda terhadap data baru adalah dasar kepercayaan terbaik.

Saya tidak mentolerir penipu data. Saya tidak peduli jika pendapat Anda didasarkan pada trik yang berbeda. Saya tidak terkesan dengan keindahan penjelasannya. Tunjukkan pada saya bahwa teori/model Anda berhasil (dan terus bekerja) pada sejumlah besar data baru yang belum pernah Anda lihat sebelumnya. Inilah ujian sesungguhnya terhadap kekuatan opini Anda.

Menghubungi Pakar Ilmu Data

Jika Anda ingin dianggap serius oleh semua orang yang memahami humor ini, berhentilah bersembunyi di balik persamaan mewah untuk mendukung bias pribadi. Tunjukkan padaku apa yang kamu punya. Jika Anda ingin mereka yang "mengerti" memandang teori/model Anda lebih dari sekadar puisi inspiratif, beranikan diri untuk menunjukkan seberapa baik teori/model tersebut bekerja pada kumpulan data yang benar-benar baru... di depan para saksi !

Himbauan kepada para pemimpin

Menolak untuk menganggap serius "gagasan" apa pun tentang data sampai ide tersebut diuji baru data. Tidak ingin berusaha? Tetaplah menggunakan analisis, namun jangan bergantung pada ide-ide ini—ide-ide tersebut tidak dapat diandalkan dan belum teruji keandalannya. Selain itu, ketika suatu organisasi memiliki data yang berlimpah, tidak ada salahnya menjadikan pemisahan sebagai hal yang mendasar dalam sains dan mempertahankannya pada tingkat infrastruktur dengan mengendalikan akses terhadap data pengujian untuk statistik. Ini adalah cara yang bagus untuk menghentikan orang yang mencoba membodohi Anda!

Jika Anda ingin melihat lebih banyak contoh penipu yang berbuat jahat - inilah thread yang bagus di Twitter.

Hasil

Ketika data yang ada terlalu sedikit untuk dipisahkan, hanya seorang penipu yang mencoba mengikuti inspirasi secara ketat dengan menemukan Amerika secara retrospektif, secara matematis menemukan kembali fenomena yang sudah diketahui ada dalam data, dan menyebut kejutan itu signifikan secara statistik. Hal ini membedakan mereka dari analis yang berpikiran terbuka, yang berurusan dengan inspirasi, dan ahli statistik yang teliti, yang memberikan bukti ketika membuat prediksi.

Jika ada banyak data, biasakan memisahkan data sehingga Anda bisa mendapatkan yang terbaik dari keduanya! Pastikan untuk melakukan analisis dan statistik secara terpisah untuk masing-masing subkumpulan tumpukan data asli.

  • Analis menawarkan Anda inspirasi dan keterbukaan pikiran.
  • Statistik menawarkan pengujian yang ketat.
  • penipu menawarkan Anda tinjauan ke belakang yang berpura-pura menjadi analitik plus statistik.

Mungkin setelah membaca artikel tersebut Anda akan berpikir “apakah saya penipu”? Ini baik-baik saja. Ada dua cara untuk menghilangkan pemikiran ini: pertama, lihat ke belakang, lihat apa yang telah Anda lakukan, apakah pekerjaan Anda dengan data membawa manfaat praktis. Dan kedua, Anda masih dapat meningkatkan kualifikasi Anda (yang tentunya tidak akan berlebihan), terutama karena kami memberikan siswa kami keterampilan dan pengetahuan praktis yang memungkinkan mereka menjadi data scientist yang sesungguhnya.

Bagaimana cara mengenali penipu dari Ilmu Data?

Lebih banyak kursus

Baca lebih lajut

Sumber: www.habr.com

Tambah komentar