Eşitlik hipotezini ne zaman test etmeliyiz?

Eşitlik hipotezini ne zaman test etmeliyiz?
Stitch Fix ekibinin bir makalesi, pazarlama ve ürün A/B testlerinde eşdeğerlik denemeleri yaklaşımının kullanılmasını öneriyor. Bu yaklaşım, testlerle ölçülemeyen faydaları olan yeni bir çözümü test ettiğimizde gerçekten geçerlidir.

En basit örnek maliyetlerin düşürülmesidir. Örneğin, ilk dersin atanması sürecini otomatikleştiriyoruz ancak uçtan uca dönüşümü önemli ölçüde azaltmak istemiyoruz. Veya bir kullanıcı segmentine yönelik değişiklikleri test ederken diğer segmentlere yönelik dönüşümlerin çok fazla düşmediğinden emin oluruz (birkaç hipotezi test ederken değişiklikleri unutmayın).

Doğru eşdeğerlik marjının seçilmesi, test tasarımı aşamasında ek zorluklar yaratır. Δ'nın nasıl seçileceği sorusu makalede pek iyi ele alınmıyor. Görünüşe göre bu seçim klinik araştırmalarda da tamamen şeffaf değil. Gözden Aşağılık derecesine ilişkin tıbbi yayınlar, yayınların yalnızca yarısının sınır seçimini haklı çıkardığını ve çoğu zaman bu gerekçelerin belirsiz veya ayrıntılı olmadığını bildirmektedir.

Her durumda, bu yaklaşım ilginç görünüyor çünkü... Gerekli numune boyutunu azaltarak test hızını ve dolayısıyla karar verme hızını artırabilir. — Daria Mukhina, Skyeng mobil uygulamasının ürün analisti.

Stitch Fix ekibi farklı şeyleri test etmeyi seviyor. Tüm teknoloji topluluğu prensipte test yapmayı sever. Sitenin hangi sürümü daha fazla kullanıcı çekiyor - A mı yoksa B mi? Tavsiye modelinin A versiyonu B versiyonundan daha fazla para kazandırıyor mu? Hipotezleri test etmek için neredeyse her zaman temel istatistik dersindeki en basit yaklaşımı kullanırız:

Eşitlik hipotezini ne zaman test etmeliyiz?

Bu terimi nadiren kullanmamıza rağmen, bu test şekline "üstünlük hipotezi testi" denir. Bu yaklaşımla iki seçenek arasında hiçbir fark olmadığını varsayıyoruz. Bu fikre sadık kalıyoruz ve yalnızca veriler bunu yapacak kadar ikna ediciyse, yani seçeneklerden birinin (A veya B) diğerinden daha iyi olduğunu gösteriyorsa bu fikirden vazgeçiyoruz.

Üstünlük hipotezinin test edilmesi çeşitli problemler için uygundur. Bir öneri modelinin B versiyonunu yalnızca halihazırda kullanımda olan A versiyonundan açıkça daha iyiyse yayınlıyoruz, ancak bazı durumlarda bu yaklaşım o kadar da işe yaramıyor. Birkaç örneğe bakalım.

1) Üçüncü taraf bir hizmet kullanıyoruzsahte banka kartlarının belirlenmesine yardımcı olur. Maliyeti çok daha düşük olan başka bir hizmet bulduk. Şu anda kullandığımız hizmet kadar ucuz bir hizmet işe yararsa onu seçeceğiz. Kullandığınız hizmetten daha iyi olması gerekmez.

2) Veri kaynağından vazgeçmek istiyoruz A'yı veri kaynağı B ile değiştirin. B'nin çok kötü sonuçlar üretmesi durumunda A'yı terk etmeyi erteleyebiliriz ancak A'yı kullanmaya devam etmek mümkün değildir.

3) Modelleme yaklaşımından uzaklaşmak istiyoruzA'dan B'ye yaklaşımı, B'den daha iyi sonuçlar beklediğimiz için değil, bize daha fazla operasyonel esneklik sağladığı için. B'nin daha kötü olacağına inanmamız için hiçbir neden yok, ancak durum böyleyse geçişi yapmayacağız.

4) Birkaç niteliksel değişiklik yaptık web sitesi tasarımına (sürüm B) dahil ediyoruz ve bu sürümün A sürümünden daha üstün olduğuna inanıyoruz. Dönüşümde veya bir web sitesini genellikle değerlendirirken kullandığımız temel performans göstergelerinden herhangi birinde değişiklik beklemiyoruz. Ancak ölçülemeyen veya teknolojimizin ölçmeye yeterli olmadığı parametrelerde fayda olduğuna inanıyoruz.

Tüm bu durumlarda üstünlük araştırması en uygun çözüm değildir. Ancak bu gibi durumlarda çoğu uzman bunu varsayılan olarak kullanır. Etkinin boyutunu doğru bir şekilde belirlemek için deneyi dikkatle yürütüyoruz. A ve B versiyonlarının çok benzer şekilde çalıştığı doğru olsaydı, sıfır hipotezini reddetmeme ihtimalimiz vardı. A ve B'nin temelde aynı performansı gösterdiği sonucuna varabilir miyiz? HAYIR! Sıfır hipotezinin reddedilmemesi ile sıfır hipotezinin kabul edilmesi aynı şey değildir.

Örneklem büyüklüğü hesaplamaları (elbette siz de yapmışsınızdır) tipik olarak Tip I hata için (çoğunlukla alfa olarak adlandırılan boş hipotezi reddetmeme olasılığı), Tip II hataya (reddetmeme olasılığı) göre daha katı sınırlarla yapılır. sıfır hipotezinin yanlış olması koşuluyla sıfır hipotezi, genellikle beta olarak adlandırılır). Alfa için tipik değer 0,05 iken beta için tipik değer 0,20'dir ve bu da 0,80'lik istatistiksel güce karşılık gelir. Bu da güç hesaplamalarımızda belirlediğimiz miktarın gerçek etkisini %20 oranında kaçırabilme ihtimalimiz olduğu anlamına gelir ki bu da oldukça ciddi bir bilgi açığıdır. Örnek olarak aşağıdaki hipotezleri ele alalım:

Eşitlik hipotezini ne zaman test etmeliyiz?

H0: Sırt çantam odamda DEĞİL (3)
H1: Sırt çantam odamda (4)

Eğer odamı arar ve sırt çantamı bulursam, harika, sıfır hipotezini reddedebilirim. Ancak odanın etrafına bakarsam ve sırt çantamı bulamazsam (Şekil 1), ne gibi bir sonuç çıkarmalıyım? Orada olmadığından emin miyim? Yeterince dikkatli baktım mı? Ya odanın yalnızca %80'ini ararsam? Sırt çantasının kesinlikle odada olmadığı sonucuna varmak aceleci bir karar olacaktır. "Sıfır hipotezini kabul edemememize" şaşmamalı.
Eşitlik hipotezini ne zaman test etmeliyiz?
Aradığımız bölge
Sırt çantasını bulamadık; sıfır hipotezini kabul etmeli miyiz?

Şekil 1: Bir odanın %80'ini aramak, kabaca %80 güçte arama yapmakla aynıdır. Odanın %80'ini aradığınızda sırt çantanızı bulamazsanız orada olmadığı sonucuna varabilir misiniz?

Peki bir veri bilimci bu durumda ne yapmalıdır? Çalışmanın gücünü büyük ölçüde artırabilirsiniz, ancak o zaman çok daha büyük bir örneklem boyutuna ihtiyacınız olacak ve sonuç yine de tatmin edici olmayacaktır.

Neyse ki bu tür problemler klinik araştırma dünyasında uzun süredir araştırılıyor. B ilacı A ilacından daha ucuzdur; B İlacının A İlacından daha az yan etkiye neden olması bekleniyor; B ilacının taşınması daha kolaydır çünkü soğutulması gerekmez, ancak A ilacının soğutulması gerekir. Aşağı olmama hipotezini test edelim. Bu, B versiyonunun A versiyonu kadar iyi olduğunu göstermek içindir; en azından önceden tanımlanmış bir aşağılık olmama marjı (Δ) dahilinde. Bu limitin nasıl belirleneceği hakkında biraz sonra konuşacağız. Ancak şimdilik bunun pratikte anlamlı olan en küçük fark olduğunu varsayalım (klinik araştırmalar bağlamında buna genellikle klinik anlamlılık denir).

Aşağı olmama hipotezleri her şeyi alt üst eder:

Eşitlik hipotezini ne zaman test etmeliyiz?

Şimdi hiçbir fark olmadığını varsaymak yerine B versiyonunun A versiyonundan daha kötü olduğunu varsayacağız ve durumun böyle olmadığını gösterene kadar bu varsayıma sadık kalacağız. Bu tam da tek taraflı hipotez testini kullanmanın mantıklı olduğu an! Uygulamada bu, bir güven aralığı oluşturularak ve aralığın gerçekte Δ'dan büyük olup olmadığı belirlenerek yapılabilir (Şekil 2).
Eşitlik hipotezini ne zaman test etmeliyiz?

Δ'yı seçin

Doğru Δ nasıl seçilir? Δ seçim süreci istatistiksel gerekçelendirmeyi ve maddi değerlendirmeyi içerir. Klinik araştırma dünyasında, deltanın klinik olarak anlamlı en küçük farkı (pratikte fark yaratacak olanı) temsil etmesi gerektiğini belirten düzenleyici kurallar vardır. İşte kendinizi test etmeniz için Avrupa yönergelerinden bir alıntı: “Eğer fark doğru seçilmişse, tamamen –∆ ile 0… arasında yer alan bir güven aralığı yine de aşağı olmadığını göstermek için yeterlidir. Eğer bu sonuç kabul edilebilir görünmüyorsa ∆ doğru seçilmemiş demektir.”

Delta, gerçek kontrole (plasebo/tedavi yok) göre A versiyonunun etki büyüklüğünü kesinlikle aşmamalıdır, çünkü bu bize B versiyonunun gerçek kontrolden daha kötü olduğunu söylerken aynı zamanda “aşağılık olmadığını” göstermemize neden olur. .” A sürümünün tanıtıldığı sırada sürüm 0 ile değiştirildiğini veya özelliğin hiç mevcut olmadığını varsayalım (bkz. Şekil 3).

Üstünlük hipotezinin test edilmesinin sonuçlarına dayanarak, etki büyüklüğü E ortaya çıktı (yani, muhtemelen μ^A−μ^0=E). Artık A bizim yeni standardımızdır ve B'nin A kadar iyi olduğundan emin olmak istiyoruz. μB−μA≤−Δ (sıfır hipotezi) yazmanın başka bir yolu da μB≤μA−Δ'dır. Do'nun E'ye eşit veya E'den büyük olduğunu varsayarsak, μB ≤ μA−E ≤ plasebo olur. Şimdi μB için tahminimizin μA−E'yi tamamen aştığını görüyoruz, bu da boş hipotezi tamamen reddediyor ve B'nin A kadar iyi olduğu sonucuna varmamızı sağlıyor, ancak aynı zamanda μB ≤ μ plasebo olabilir, bu da durumda, neye ihtiyacımız var? (Figür 3).

Eşitlik hipotezini ne zaman test etmeliyiz?
Şekil 3. Eşitlik marjını seçmenin risklerinin gösterilmesi. Eğer kesme çok yüksekse, B'nin A'dan daha aşağı olmadığı ancak aynı zamanda plasebodan da ayırt edilemez olduğu sonucuna varılabilir. Plasebodan (A) açıkça daha etkili olan bir ilacı, plasebo kadar etkili bir ilaçla değiştirmeyeceğiz.

α seçimi

Şimdi α seçimine geçelim. α = 0,05 standart değerini kullanabilirsiniz ancak bu tamamen adil değildir. Örneğin, çevrimiçi bir şey satın aldığınızda ve birleştirilmemeleri gerekmesine rağmen aynı anda birden fazla indirim kodu kullandığınızda, geliştirici bir hata yaptı ve siz bundan paçayı sıyırdınız. Kurallara göre α değeri, üstünlük hipotezini test ederken kullanılan α değerinin yarısına eşit olmalıdır, yani 0,05/2 = 0,025.

Örnek boyut

Örneklem büyüklüğü nasıl tahmin edilir? A ve B arasındaki gerçek ortalama farkın 0 olduğuna inanıyorsanız, örneklem büyüklüğü hesaplaması, üstünlük hipotezini test ederken yapılan hesaplamayla aynıdır; tek fark, etki büyüklüğünü, aşağıdakileri kullanmanız koşuluyla, aşağılık olmama marjı ile değiştirmenizdir: αdüşük olmayan verimlilik = 1/2αüstünlük (αaşağı olmama=1/2αüstünlük). B seçeneğinin A seçeneğinden biraz daha kötü olabileceğine inanmak için nedenleriniz varsa ancak bunun Δ değerinden daha kötü olmadığını kanıtlamak istiyorsanız, o zaman şanslısınız! Bu aslında örneklem büyüklüğünüzü azaltır çünkü eğer gerçekten eşit olmaktan ziyade biraz daha kötü olduğunu düşünüyorsanız B'nin A'dan daha kötü olduğunu göstermek daha kolaydır.

Çözümlü örnek

Diyelim ki, 0,1 puanlık müşteri memnuniyeti ölçeğinde A versiyonundan en fazla 5 puan daha kötü olması koşuluyla B versiyonuna geçmek istiyorsunuz... Bu soruna üstünlük hipotezini kullanarak yaklaşalım.

Üstünlük hipotezini test etmek için örneklem büyüklüğünü şu şekilde hesaplayacağız:

Eşitlik hipotezini ne zaman test etmeliyiz?

Yani, grubunuzda 2103 gözlem varsa, 90 veya daha büyük bir etki büyüklüğü bulacağınızdan %0,10 emin olabilirsiniz. Ancak 0,10 sizin için çok yüksekse üstünlük hipotezini test etmeye değmeyebilir. Güvenli tarafta olmak için çalışmayı 0,05 gibi daha küçük bir etki büyüklüğü için yürütmeye karar verebilirsiniz. Bu durumda 8407 gözleme ihtiyacınız olacak, yani örneklem neredeyse 4 kat artacak. Peki ya orijinal örneklem büyüklüğümüze sadık kalsak ve pozitif bir sonuç aldığımızda güvende olmamız için gücü 0,99'a çıkarsak? Bu durumda, bir grup için n, 3676 olacaktır; bu zaten daha iyidir, ancak örneklem boyutunu %50'den fazla artırır. Sonuç olarak, sıfır hipotezini hâlâ çürütemeyeceğiz ve sorumuza bir cevap alamayacağız.

Bunun yerine aşağılık hipotezini test etsek ne olur?

Eşitlik hipotezini ne zaman test etmeliyiz?

Örneklem büyüklüğü, payda hariç aynı formül kullanılarak hesaplanacaktır.
Üstünlük hipotezini test etmek için kullanılan formülün farklılıkları aşağıdaki gibidir:

— Z1−α/2, Z1−α ile değiştirilir, ancak her şeyi kurallara göre yaparsanız, α = 0,05'i α = 0,025 ile değiştirirsiniz, yani aynı sayıdır (1,96)

— (μB−μA) paydada görünür

— θ (etki büyüklüğü), Δ (eşitlik marjı) ile değiştirilir

µB = µA olduğunu varsayarsak, o zaman (μB − µA) = 0 olur ve aşağılık olmama marjı için örnek boyutu hesaplaması, üstünlüğü 0,1 etki büyüklüğü için hesapladığımızda elde edeceğimiz sonuçtur, harika! Farklı hipotezlerle ve farklı sonuçlara yaklaşımla aynı büyüklükte bir çalışma yapabilir ve gerçekten cevaplamak istediğimiz sorunun cevabını almış oluruz.

Şimdi diyelim ki aslında µB = µA olduğunu düşünmüyoruz ve
µB'nin biraz daha kötü olduğunu düşünüyoruz, belki 0,01 birim kadar. Bu, paydamızı artırıyor ve grup başına örnek boyutunu 1737'ye düşürüyor.

B sürümü aslında A sürümünden daha iyiyse ne olur? B'nin A'dan Δ'dan daha kötü olduğu yönündeki sıfır hipotezini reddediyoruz ve B'nin, eğer daha kötüyse, A'dan Δ kadar daha kötü olmadığını ve daha iyi olabileceğini öne süren alternatif hipotezi kabul ediyoruz. Bu sonucu işlevler arası bir sunuma koymayı deneyin ve ne olacağını görün (ciddi olarak deneyin). İleriye dönük bir durumda hiç kimse "en fazla Δ daha kötü ve belki daha iyi" ile yetinmek istemez.

Bu durumda çok kısaca “seçeneklerden birinin diğerinden üstün ya da aşağı olduğu hipotezinin test edilmesi” olarak adlandırılan bir çalışma yapabiliriz. İki grup hipotez kullanır:

İlk set (aşağılık hipotezinin test edilmesiyle aynı):

Eşitlik hipotezini ne zaman test etmeliyiz?

İkinci set (üstünlük hipotezini test ederken olduğu gibi):

Eşitlik hipotezini ne zaman test etmeliyiz?

İkinci hipotezi ancak birincisi reddedilirse test ederiz. Sıralı olarak test ederken genel Tip I hata oranını (α) koruruz. Uygulamada bu, ortalamalar arasındaki fark için %95'lik bir güven aralığı oluşturularak ve tüm aralığın -Δ'dan büyük olup olmadığını belirlemek için yapılan testlerle başarılabilir. Eğer aralık -Δ'yı geçmezse boş değeri reddedip duramayız. Eğer aralığın tamamı gerçekten −Δ'dan büyükse, devam edeceğiz ve aralığın 0 içerip içermediğini göreceğiz.

Bahsetmediğimiz başka bir araştırma türü daha var: eşdeğerlik çalışmaları.

Bu tür çalışmaların yerini, daha aşağı olmama çalışmaları alabilir veya bunun tersi de yapılabilir, ancak aslında aralarında önemli bir fark vardır. Eşitlik denemesi B seçeneğinin en az A kadar iyi olduğunu göstermeyi amaçlar. Eşdeğerlik denemesi B seçeneğinin en az A kadar iyi olduğunu göstermeyi amaçlar. A seçeneği B kadar iyidir ve bu daha zordur. Esasen, ortalamalar arasındaki fark için tüm güven aralığının -Δ ile Δ arasında olup olmadığını belirlemeye çalışıyoruz. Bu tür çalışmalar daha büyük örneklem büyüklüğü gerektirir ve daha az sıklıkla yapılır. Dolayısıyla bir dahaki sefere asıl amacınızın yeni versiyonun daha kötü olmadığından emin olmak olduğu bir çalışma yürüttüğünüzde, "sıfır hipotezini reddetmedeki başarısızlıkla" yetinmeyin. Gerçekten önemli bir hipotezi test etmek istiyorsanız farklı seçenekleri göz önünde bulundurun.

Kaynak: habr.com

Yorum ekle