Veri Biliminden bir şarlatan nasıl tanınır?

Veri Biliminden bir şarlatan nasıl tanınır?
Analistler, makine öğrenimi ve yapay zeka uzmanlarını duymuş olabilirsiniz ama haksız yere fazla ücret alan kişileri duydunuz mu? Tanışmak veri şarlatanı! Kazançlı işlerin cazibesine kapılan bu hack'ler, gerçek veri bilimcilerine kötü bir isim veriyor. Materyalde bu tür insanları temiz suya nasıl ulaştıracağımızı anlıyoruz.

Veri şarlatanları her yerde

Veri şarlatanları göz önünde saklanma konusunda o kadar iyidirler ki onlardan biri olfarkına bile varmadan. Muhtemelen organizasyonunuz bu sinsi adamları yıllardır barındırıyor, ancak iyi haber şu ki, eğer ne arayacağınızı biliyorsanız bunları tespit etmek kolaydır.
İlk uyarı işareti bunu anlama eksikliğidir. analitik ve istatistik çok farklı disiplinlerdir. Bunu daha ayrıntılı olarak açıklayacağım.

Farklı disiplinler

İstatistikçiler, verilerinin ötesine geçen şeyler hakkında sonuçlar çıkarmak için eğitilir, analistler ise bir veri kümesinin içeriğini incelemek için eğitilir. Başka bir deyişle, analistler verilerinde ne olduğuna dair sonuçlar çıkarırken, istatistikçiler de verilerde ne olmadığına dair sonuçlar çıkarıyor. Analistler iyi sorular sormanıza (hipotezler oluşturmanıza) ve istatistikçiler iyi yanıtlar almanıza (hipotezlerinizi test etmenize) yardımcı olur.

İnsanın iki sandalyeye oturmaya çalıştığı tuhaf melez roller de var... Neden olmasın? Veri biliminin temel ilkesi: belirsizlikle uğraşıyorsanız kullanamazsınız aynısı hipotezler ve testler için veri noktası. Veriler sınırlı olduğunda belirsizlik, istatistik veya analitik arasında seçim yapmaya zorlar. açıklama burada.

İstatistikler olmadan takılıp kalırsınız ve az önce formüle ettiğiniz yargının geçerli olup olmadığını anlayamayacaksınız ve analiz olmadan körü körüne hareket edersiniz ve bilinmeyeni ehlileştirme şansınız çok azdır. Bu zor bir seçim.

Şarlatanın bu karmaşadan kurtulmanın yolu, bunu görmezden gelmek ve sonra aniden ortaya çıkan şeye şaşırmış gibi davranmaktır. İstatistiksel hipotezleri test etmenin ardındaki mantık, verilerin bizi fikrimizi değiştirecek kadar şaşırtıp şaşırtmadığı sorusuna dayanır. Zaten görmüş olduğumuz veriler bizi nasıl şaşırtabilir?

Şarlatanlar bir kalıp bulduklarında ilham alırlar ve sonra kontrol ederler. aynı veriler için aynı desen, sonucu teorilerinin yanında meşru bir veya iki p değeriyle yayınlamak. Bu nedenle size (ve belki de kendilerine de) yalan söylüyorlar. Hipotezinize bağlı kalmazsanız bu p değerinin bir önemi yoktur karşı verilerinizi nasıl görüntülediğiniz. Şarlatanlar, analistlerin ve istatistikçilerin eylemlerini, nedenini anlamadan taklit ederler. Sonuç olarak, veri biliminin tüm alanı kötü bir üne kavuşuyor.

Gerçek istatistikçiler her zaman kendi sonuçlarını çıkarırlar

İstatistikçilerin titiz muhakeme konusundaki neredeyse mistik şöhreti sayesinde, Veri Bilimindeki sahte bilgi miktarı tüm zamanların en yüksek seviyesinde. Kandırmak ve yakalanmamak kolaydır, özellikle de şüphelenmeyen kurban her şeyin denklemler ve verilerle ilgili olduğunu düşünüyorsa. Veri kümesi bir veri kümesidir, değil mi? HAYIR. Nasıl kullandığın önemli.

Şans eseri, şarlatanları yakalamak için tek bir ipucuna ihtiyacınız var: "Amerika'yı geriye dönük olarak keşfediyorlar." Verilerde mevcut olduğunu zaten bildikleri olguları yeniden keşfederek.

İyi analistler, şarlatanların aksine açık fikirlidir ve ilham verici fikirlerin birçok farklı açıklaması olabileceğinin bilincindedirler. Aynı zamanda iyi istatistikçiler, sonuçlarını çıkarmadan önce dikkatlice tanımlarlar.

Analistler, verilerinin kapsamı dahilinde kaldıkları sürece sorumluluktan muaftırlar. Görmedikleri bir şeyi iddia etmeye kalkışırlarsa bu tamamen başka bir iştir. Analistin ayakkabılarını çıkarıp istatistikçinin ayakkabısını giymeliler. Sonuçta resmi iş unvanı ne olursa olsun, isterseniz her iki mesleği de okuyamazsınız diye bir kural yok. Sadece onları karıştırmayın.

İstatistiklerde iyi olmanız, analitikte de iyi olduğunuz anlamına gelmez ve bunun tersi de geçerlidir. Birisi size aksini söylemeye çalışırsa dikkatli olmalısınız. Bu kişi size daha önce incelediğiniz verilerden istatistiksel sonuçlar çıkarmanın caiz olduğunu söylerse, bu iki kat dikkatli olmanız için bir nedendir.

Tuhaf açıklamalar

Veri şarlatanlarını vahşi doğada gözlemlerken, gözlemledikleri verileri "açıklamak" için fantastik hikayeler uydurmayı sevdiklerini fark edeceksiniz. Ne kadar akademik olursa o kadar iyi. Bu hikayelerin geriye dönüp bakıldığında düzeltilmiş olması önemli değil.

Şarlatanlar bunu yaptıklarında -açıkça söyleyeyim- yalan söylüyorlar. Hiçbir denklem veya süslü kavram, teorilerinin sıfır kanıtını sundukları gerçeğini telafi edemez. Açıklamalarının ne kadar sıra dışı olduğuna şaşırmayın.

Bu, önce elinizdeki kartlara bakarak ve sonra ne tuttuğunuzu tahmin ederek "psişik" yeteneklerinizi göstermenizle aynı şeydir. Bu geriye dönük bir önyargıdır ve veri bilimi mesleği ağzına kadar bununla doludur.

Veri Biliminden bir şarlatan nasıl tanınır?

Analistler şöyle diyor: "Az önce Elmas Kraliçesi ile gittin." İstatistikçiler şöyle diyor: “Başlamadan önce hipotezlerimi bu kağıda yazdım. Hadi biraz oynayalım, bazı verilere bakalım ve haklı olup olmadığımı görelim." Şarlatanlar şöyle der: "Senin Elmasların Kraliçesi olacağını biliyordum çünkü..."

Veri paylaşımı herkesin ihtiyaç duyduğu hızlı çözümdür.

Çok fazla veri olmadığında istatistik ve analitik arasında seçim yapmanız gerekir, ancak gereğinden fazla veri olduğunda analitiği aldatmadan kullanmak için harika bir fırsat ortaya çıkar и İstatistik. Şarlatanlara karşı mükemmel bir savunmanız var; veri ayırma ve bana göre bu, Veri Bilimindeki en güçlü fikir.

Kendinizi şarlatanlardan korumak için yapmanız gereken tek şey, bazı test verilerini meraklı gözlerden uzak tuttuğunuzdan emin olmak ve geri kalanını analiz olarak ele almaktır. Kabul etme riskiyle karşı karşıya olduğunuz bir teoriyle karşılaştığınızda, durumu değerlendirmek için onu kullanın ve ardından teorinin saçmalık olmadığını kontrol etmek için gizli test verilerinizi açıklayın. Çok basit!

Veri Biliminden bir şarlatan nasıl tanınır?
Keşif aşamasında hiç kimsenin test verilerini görmesine izin verilmediğinden emin olun. Bunu yapmak için araştırma verilerine bağlı kalın. Test verileri analiz için kullanılmamalıdır.

Bu, insanları gerçekten bir şeyler bildiğinize ikna etmek için bildiklerinizi nasıl bildiğinizi açıklamanız gereken "küçük veri" çağında insanların alışık olduklarından büyük bir adımdır.

Aynı kuralları ML/AI'ye uygulayın

Makine öğrenimi/yapay zeka uzmanı gibi davranan bazı şarlatanları fark etmek de kolaydır. Onları, herhangi bir kötü mühendisi yakaladığınız gibi yakalarsınız: İnşa etmeye çalıştıkları "çözümler" sürekli başarısız olur. Erken uyarı işareti, endüstri standardı programlama dilleri ve kitaplıklarıyla ilgili deneyim eksikliğidir.

Peki ya çalışıyor gibi görünen sistemler yaratan insanlar? Şüpheli bir şeyin olup olmadığını nasıl anlarsınız? Aynı kural geçerlidir! Şarlatan, modeli oluşturmak için kullandıkları veriler üzerinde modelin ne kadar iyi çalıştığını size gösteren kötü niyetli bir karakterdir.

Son derece karmaşık bir makine öğrenimi sistemi kurduysanız, bunun ne kadar iyi olduğunu nereden biliyorsunuz? Ona daha önce görmediği yeni verilerle çalıştığını gösterene kadar bilemezsiniz.

Tahmin yapmadan önce verileri gördüğünüzde bu pek olası değil öncesöylüyorum

Ayırmak için yeterli veriye sahip olduğunuzda, projenizi haklı çıkarmak için formüllerinizin güzelliğinden bahsetmenize gerek kalmaz (sadece bilimde değil, her yerde gördüğüm eski moda bir alışkanlık). Söyleyebilirsin: "Bunun işe yaradığını biliyorum çünkü daha önce görmediğim bir veri setini alıp orada ne olacağını tam olarak tahmin edebiliyorum... ve haklı olacağım. Tekrar ve tekrar".

Modelinizi/teorinizi yeni verilerle test etmek güven için en iyi temeldir.

Veri şarlatanlarına tahammülüm yok. Fikrinizin farklı hilelere dayanması umurumda değil. Açıklamaların güzelliğinden etkilenmedim. Bana teorinizin/modelinizin daha önce hiç görmediğiniz bir sürü yeni veri üzerinde çalıştığını (ve çalışmaya devam ettiğini) gösterin. Bu, fikrinizin gücünün gerçek testidir.

Veri Bilimi Uzmanlarıyla İletişime Geçme

Bu mizahı anlayan herkes tarafından ciddiye alınmak istiyorsanız, kişisel önyargılarınızı desteklemek için süslü denklemlerin arkasına saklanmayı bırakın. Bana neye sahip olduğunu göster. Teorinizi/modelinizi "anlayanların" ilham verici bir şiirden daha fazlası olarak görmesini istiyorsanız, tanıkların önünde tamamen yeni bir veri seti üzerinde ne kadar iyi çalıştığını gösteren büyük bir gösteri yapma cesaretini gösterin. !

Liderlere çağrı

Test edilene kadar verilerle ilgili herhangi bir "fikri" ciddiye almayı reddedin yeni veri. Çaba harcamak istemiyor musun? Analitiklere sadık kalın, ancak bu fikirlere güvenmeyin; bunlar güvenilmezdir ve güvenilirlik açısından test edilmemiştir. Üstelik bir kuruluşta bol miktarda veri olduğunda, bilimde ayrımı temel hale getirmenin ve istatistik için test verilerine erişimi kontrol ederek bunu altyapı düzeyinde sürdürmenin hiçbir dezavantajı yoktur. Bu, insanların sizi kandırmaya çalışmasını engellemenin harika bir yoludur!

İyi olmayan şarlatanların daha fazla örneğini görmek istiyorsanız - İşte Twitter'da harika bir konu.

sonuçlar

Ayırılacak çok az veri olduğunda, yalnızca bir şarlatan Amerika'yı geriye dönük olarak keşfederek, verilerde zaten olduğu bilinen olguları matematiksel olarak yeniden keşfederek ve sürprizi istatistiksel olarak anlamlı olarak nitelendirerek ilhamı sıkı bir şekilde takip etmeye çalışır. Bu onları ilhamla ilgilenen açık fikirli analistlerden ve tahminlerde bulunurken kanıt sunan titiz istatistikçilerden ayırır.

Çok fazla veri olduğunda, her iki dünyanın da en iyisine sahip olabilmek için verileri ayırma alışkanlığını edinin! Orijinal veri yığınının ayrı ayrı alt kümeleri için analiz ve istatistikleri ayrı ayrı yaptığınızdan emin olun.

  • analistler Size ilham ve açık fikirlilik sunuyoruz.
  • İstatistik Size sıkı testler sunuyoruz.
  • Şarlatanlar size analitik artı istatistik gibi görünen çarpık bir geçmişe bakış sunuyor.

Belki makaleyi okuduktan sonra “Ben bir şarlatan mıyım” diye düşüneceksiniz? Bu iyi. Bu düşünceden kurtulmanın iki yolu var: Öncelikle geriye dönüp bakın, ne yaptığınıza, verilerle yaptığınız çalışmanın pratik fayda sağlayıp sağlamadığına bakın. İkincisi, özellikle öğrencilerimize gerçek veri bilimci olmalarını sağlayacak pratik beceriler ve bilgiler verdiğimiz için, nitelikleriniz üzerinde çalışmaya devam edebilirsiniz (ki bu kesinlikle gereksiz olmayacaktır).

Veri Biliminden bir şarlatan nasıl tanınır?

Daha fazla kurs

Devamını oku

Kaynak: habr.com

Yorum ekle