Kapan kita harus menguji hipotesis noninferioritas?

Kapan kita harus menguji hipotesis noninferioritas?
Sebuah artikel dari tim Stitch Fix menyarankan penggunaan pendekatan uji coba non-inferioritas dalam pemasaran dan pengujian A/B produk. Pendekatan ini benar-benar berlaku ketika kita menguji solusi baru yang memiliki manfaat yang tidak diukur dengan pengujian.

Contoh paling sederhana adalah pengurangan biaya. Misalnya, kami mengotomatiskan proses penetapan pelajaran pertama, namun kami tidak ingin mengurangi konversi end-to-end secara signifikan. Atau kami menguji perubahan yang ditujukan untuk satu segmen pengguna, sambil memastikan bahwa konversi untuk segmen lain tidak turun banyak (saat menguji beberapa hipotesis, jangan lupakan amandemennya).

Memilih margin non-inferioritas yang benar menambah tantangan tambahan selama fase desain pengujian. Pertanyaan tentang bagaimana memilih Δ tidak dibahas dengan baik dalam artikel ini. Tampaknya pilihan ini juga tidak sepenuhnya transparan dalam uji klinis. Tinjau publikasi medis tentang non-inferioritas melaporkan bahwa hanya setengah dari publikasi yang membenarkan pilihan batasan tersebut, dan seringkali pembenaran ini bersifat ambigu atau tidak rinci.

Bagaimanapun, pendekatan ini tampaknya menarik karena... dengan mengurangi ukuran sampel yang diperlukan, hal ini dapat meningkatkan kecepatan pengujian, dan oleh karena itu, kecepatan pengambilan keputusan. — Daria Mukhina, analis produk untuk aplikasi seluler Skyeng.

Tim Stitch Fix suka menguji berbagai hal. Pada prinsipnya, seluruh komunitas teknologi suka menjalankan pengujian. Versi situs mana yang menarik lebih banyak pengguna - A atau B? Apakah model rekomendasi versi A menghasilkan lebih banyak uang daripada versi B? Untuk menguji hipotesis, kami hampir selalu menggunakan pendekatan paling sederhana dari kursus statistik dasar:

Kapan kita harus menguji hipotesis noninferioritas?

Meskipun kita jarang menggunakan istilah ini, bentuk pengujian ini disebut “pengujian hipotesis superioritas”. Dengan pendekatan ini, kami berasumsi bahwa tidak ada perbedaan antara kedua opsi tersebut. Kami tetap berpegang pada gagasan ini dan hanya mengabaikannya jika datanya cukup meyakinkan untuk melakukan hal tersebut—yaitu, hal ini menunjukkan bahwa salah satu opsi (A atau B) lebih baik daripada opsi lainnya.

Menguji hipotesis keunggulan cocok untuk berbagai masalah. Kami hanya merilis model rekomendasi versi B jika model tersebut jelas lebih baik daripada versi A yang sudah digunakan. Namun dalam beberapa kasus, pendekatan ini tidak berfungsi dengan baik. Mari kita lihat beberapa contoh.

1) Kami menggunakan layanan pihak ketiga, yang membantu mengidentifikasi kartu bank palsu. Kami menemukan layanan lain yang biayanya jauh lebih murah. Jika layanan yang lebih murah berfungsi sebaik yang kami gunakan saat ini, kami akan memilihnya. Tidak harus lebih baik dari layanan yang Anda gunakan.

2) Kami ingin meninggalkan sumber data A dan menggantinya dengan sumber data B. Kita dapat menunda meninggalkan A jika B memberikan hasil yang sangat buruk, namun tidak mungkin untuk terus menggunakan A.

3) Kami ingin beralih dari pendekatan pemodelanPendekatan A ke B bukan karena kita mengharapkan hasil yang lebih baik dari B, namun karena pendekatan ini memberi kita fleksibilitas operasional yang lebih besar. Kami tidak mempunyai alasan untuk percaya bahwa B akan menjadi lebih buruk, namun kami tidak akan melakukan transisi jika hal ini terjadi.

4) Kami telah melakukan beberapa perubahan kualitatif ke dalam desain situs web (versi B) dan percaya bahwa versi ini lebih unggul dari versi A. Kami tidak mengharapkan perubahan dalam konversi atau indikator kinerja utama apa pun yang biasanya kami gunakan untuk mengevaluasi situs web. Namun kami percaya bahwa ada manfaat dalam parameter yang tidak dapat diukur atau teknologi kami tidak cukup untuk mengukurnya.

Dalam semua kasus ini, penelitian superioritas bukanlah solusi yang paling tepat. Tetapi sebagian besar ahli dalam situasi seperti itu menggunakannya secara default. Kami melakukan percobaan dengan hati-hati untuk menentukan ukuran efek dengan benar. Jika benar bahwa versi A dan B bekerja dengan cara yang sangat mirip, ada kemungkinan kita gagal menolak hipotesis nol. Apakah kita menyimpulkan bahwa kinerja A dan B pada dasarnya sama? TIDAK! Kegagalan menolak hipotesis nol dan penerimaan hipotesis nol bukanlah hal yang sama.

Penghitungan ukuran sampel (yang tentu saja telah Anda lakukan) umumnya dilakukan dengan batas yang lebih ketat untuk kesalahan Tipe I (kemungkinan gagal menolak hipotesis nol, yang sering disebut alfa) dibandingkan kesalahan Tipe II (kemungkinan gagal menolak hipotesis nol, yang sering disebut alfa) menolak hipotesis nol, dengan syarat hipotesis nol itu salah, sering disebut beta). Nilai tipikal untuk alfa adalah 0,05, sedangkan nilai tipikal untuk beta adalah 0,20, sesuai dengan kekuatan statistik sebesar 0,80. Ini berarti ada kemungkinan 20% bahwa kita akan kehilangan pengaruh sebenarnya dari kuantitas yang telah kita tentukan dalam perhitungan daya kita, dan itu adalah kesenjangan informasi yang cukup serius. Sebagai contoh, mari kita perhatikan hipotesis berikut:

Kapan kita harus menguji hipotesis noninferioritas?

H0: ranselku TIDAK ada di kamarku (3)
H1: ranselku ada di kamarku (4)

Jika saya menggeledah kamar saya dan menemukan ransel saya, bagus, saya dapat menolak hipotesis nol. Tetapi jika saya melihat sekeliling ruangan dan tidak menemukan ransel saya (Gambar 1), kesimpulan apa yang harus saya ambil? Apakah saya yakin itu tidak ada di sana? Apakah saya sudah berusaha cukup keras? Bagaimana jika saya hanya mencari 80% ruangan? Menyimpulkan bahwa ransel sudah pasti tidak ada di dalam kamar akan menjadi keputusan yang terburu-buru. Tidak heran kita tidak bisa "menerima hipotesis nol".
Kapan kita harus menguji hipotesis noninferioritas?
Daerah yang kami cari
Kami tidak menemukan ranselnya - haruskah kami menerima hipotesis nol?

Gambar 1: Mencari 80% ruangan kira-kira sama dengan mencari dengan daya 80%. Jika Anda tidak menemukan ransel setelah mencari 80% ruangan, dapatkah Anda menyimpulkan bahwa ransel itu tidak ada?

Jadi, apa yang harus dilakukan data scientist dalam situasi ini? Anda dapat meningkatkan kekuatan penelitian secara signifikan, namun Anda memerlukan ukuran sampel yang jauh lebih besar dan hasilnya tetap tidak memuaskan.

Untungnya, permasalahan seperti itu telah lama dipelajari dalam dunia penelitian klinis. Obat B lebih murah dibandingkan obat A; Obat B diperkirakan menimbulkan efek samping yang lebih sedikit dibandingkan Obat A; obat B lebih mudah diangkut karena tidak perlu didinginkan, tetapi obat A perlu. Mari kita uji hipotesis non-inferioritas. Hal ini untuk menunjukkan bahwa versi B sama baiknya dengan versi A—setidaknya dalam batas noninferioritas yang telah ditentukan sebelumnya, Δ. Kami akan berbicara lebih banyak tentang cara menetapkan batas ini nanti. Namun untuk saat ini mari kita asumsikan bahwa ini adalah perbedaan terkecil yang bermakna secara praktis (dalam konteks uji klinis, hal ini biasanya disebut signifikansi klinis).

Hipotesis non-inferioritas membalikkan segalanya:

Kapan kita harus menguji hipotesis noninferioritas?

Sekarang, alih-alih berasumsi bahwa tidak ada perbedaan, kita akan berasumsi bahwa versi B lebih buruk daripada versi A, dan kita akan tetap berpegang pada asumsi ini sampai kita menunjukkan bahwa kenyataannya tidak demikian. Inilah saat yang tepat untuk menggunakan pengujian hipotesis satu sisi! Dalam praktiknya, hal ini dapat dilakukan dengan membuat interval kepercayaan dan menentukan apakah interval tersebut sebenarnya lebih besar dari Δ (Gambar 2).
Kapan kita harus menguji hipotesis noninferioritas?

Pilih Δ

Bagaimana cara memilih Δ yang tepat? Proses seleksi Δ mencakup justifikasi statistik dan evaluasi substantif. Dalam dunia penelitian klinis, terdapat pedoman peraturan yang menyatakan bahwa delta harus mewakili perbedaan terkecil yang signifikan secara klinis—yang akan membuat perbedaan dalam praktik. Berikut kutipan dari pedoman Eropa untuk menguji diri Anda sendiri: “Jika perbedaan telah dipilih dengan benar, interval kepercayaan yang seluruhnya terletak antara –∆ dan 0… masih cukup untuk menunjukkan non-inferioritas. Jika hasil ini tampaknya tidak dapat diterima, berarti ∆ tidak dipilih dengan tepat.”

Delta tidak boleh melebihi ukuran efek versi A dibandingkan dengan kontrol sebenarnya (plasebo/tanpa pengobatan), karena hal ini membuat kita mengatakan bahwa versi B lebih buruk daripada kontrol sebenarnya, sekaligus menunjukkan “non-inferioritas”. .” Misalkan ketika versi A diperkenalkan, digantikan oleh versi 0 atau fitur tersebut tidak ada sama sekali (lihat Gambar 3).

Berdasarkan hasil pengujian hipotesis superioritas, ukuran efek E terungkap (yaitu, mungkin μ^A−μ^0=E). Sekarang A adalah standar baru kita, dan kita ingin memastikan bahwa B sama baiknya dengan A. Cara lain untuk menulis μB−μA≤−Δ (hipotesis nol) adalah μB≤μA−Δ. Jika kita berasumsi bahwa do sama dengan atau lebih besar dari E, maka μB ≤ μA−E ≤ plasebo. Sekarang kita melihat bahwa perkiraan kami untuk μB sepenuhnya melebihi μA−E, yang dengan demikian sepenuhnya menolak hipotesis nol dan memungkinkan kami untuk menyimpulkan bahwa B sama baiknya dengan A, tetapi pada saat yang sama μB mungkin ≤ μ plasebo, yang bukan merupakan kasusnya, apa yang kita perlukan. (Gambar 3).

Kapan kita harus menguji hipotesis noninferioritas?
Gambar 3. Demonstrasi risiko dalam memilih margin noninferioritas. Jika batasnya terlalu tinggi, dapat disimpulkan bahwa B tidak lebih rendah dari A, namun pada saat yang sama tidak dapat dibedakan dari plasebo. Kami tidak akan menukar obat yang jelas lebih efektif dibandingkan plasebo (A) dengan obat yang sama efektifnya dengan plasebo.

Pilihan α

Mari kita beralih ke memilih α. Anda dapat menggunakan nilai standar α = 0,05, tetapi ini tidak sepenuhnya adil. Misalnya, ketika Anda membeli sesuatu secara online dan menggunakan beberapa kode diskon sekaligus, meskipun kode tersebut tidak boleh digabungkan - pengembang baru saja melakukan kesalahan, dan Anda lolos begitu saja. Sesuai aturan, nilai α harus sama dengan setengah nilai α yang digunakan saat menguji hipotesis superioritas, yaitu 0,05 / 2 = 0,025.

Ukuran sampel

Bagaimana cara memperkirakan ukuran sampel? Jika Anda yakin bahwa perbedaan rata-rata sebenarnya antara A dan B adalah 0, maka penghitungan ukuran sampel sama seperti saat menguji hipotesis superioritas, kecuali Anda mengganti ukuran efek dengan margin noninferioritas, asalkan Anda menggunakan αefisiensi non-inferior = 1/2αsuperioritas (αnon-inferioritas=1/2αsuperioritas). Jika Anda mempunyai alasan untuk meyakini bahwa opsi B mungkin sedikit lebih buruk daripada opsi A, namun Anda ingin membuktikan bahwa opsi tersebut lebih buruk tidak lebih dari Δ, maka Anda beruntung! Hal ini sebenarnya mengurangi ukuran sampel Anda karena lebih mudah untuk menunjukkan bahwa B lebih buruk daripada A jika Anda benar-benar menganggapnya sedikit lebih buruk daripada sama.

Contoh dengan solusi

Katakanlah Anda ingin meningkatkan ke versi B, asalkan tidak lebih dari 0,1 poin lebih buruk daripada versi A pada skala kepuasan pelanggan 5 poin... Mari kita dekati masalah ini menggunakan hipotesis superioritas.

Untuk menguji hipotesis superioritas, kami akan menghitung ukuran sampel sebagai berikut:

Kapan kita harus menguji hipotesis noninferioritas?

Artinya, jika Anda memiliki 2103 observasi dalam grup Anda, Anda dapat yakin 90% bahwa Anda akan menemukan ukuran efek 0,10 atau lebih besar. Namun jika 0,10 terlalu tinggi bagi Anda, mungkin tidak ada gunanya menguji hipotesis superioritas. Untuk amannya, Anda mungkin memutuskan untuk menjalankan studi untuk ukuran efek yang lebih kecil, seperti 0,05. Dalam hal ini, diperlukan 8407 observasi, artinya sampel akan meningkat hampir 4 kali lipat. Namun bagaimana jika kita tetap menggunakan ukuran sampel asli, namun meningkatkan kekuatannya menjadi 0,99 sehingga kita akan aman jika mendapatkan hasil yang positif? Dalam hal ini, n untuk satu kelompok akan menjadi 3676, yang mana sudah lebih baik, namun meningkatkan ukuran sampel lebih dari 50%. Dan akibatnya, kita tetap tidak dapat menyangkal hipotesis nol, dan kita tidak akan menerima jawaban atas pertanyaan kita.

Bagaimana jika kita menguji hipotesis noninferioritas?

Kapan kita harus menguji hipotesis noninferioritas?

Besar sampel akan dihitung menggunakan rumus yang sama kecuali penyebutnya.
Perbedaan rumus yang digunakan untuk menguji hipotesis keunggulan adalah sebagai berikut:

— Z1−α/2 diganti dengan Z1−α, tetapi jika Anda melakukan semuanya sesuai aturan, Anda mengganti α = 0,05 dengan α = 0,025, yaitu bilangan yang sama (1,96)

— (μB−μA) muncul di penyebut

— θ (ukuran efek) digantikan oleh Δ (margin non-inferioritas)

Jika kita asumsikan bahwa µB = µA, maka (µB − µA) = 0 dan perhitungan ukuran sampel untuk margin noninferioritas adalah apa yang akan kita dapatkan jika kita menghitung superioritas untuk ukuran efek 0,1, bagus! Kita bisa melakukan penelitian dengan ukuran yang sama dengan hipotesis yang berbeda dan pendekatan kesimpulan yang berbeda, dan kita akan mendapatkan jawaban atas pertanyaan yang sebenarnya ingin kita jawab.

Sekarang misalkan kita tidak berpikir bahwa µB = µA dan
Menurut kami, µB sedikit lebih buruk, mungkin sebesar 0,01 unit. Hal ini meningkatkan penyebut kami, mengurangi ukuran sampel per kelompok menjadi 1737.

Apa jadinya jika versi B ternyata lebih baik dari versi A? Kami menolak hipotesis nol bahwa B lebih buruk daripada A sebesar Δ dan menerima hipotesis alternatif bahwa B, jika lebih buruk, tidak lebih buruk dari A sebesar Δ dan mungkin lebih baik. Coba masukkan kesimpulan ini ke dalam presentasi lintas fungsi dan lihat apa yang terjadi (serius, cobalah). Dalam situasi berwawasan ke depan, tidak ada seorang pun yang mau menerima “tidak lebih dari Δ lebih buruk dan mungkin lebih baik.”

Dalam hal ini, kita dapat melakukan penelitian, yang secara singkat disebut “menguji hipotesis bahwa salah satu pilihan lebih unggul atau lebih rendah daripada yang lain.” Ini menggunakan dua set hipotesis:

Set pertama (sama dengan menguji hipotesis non-inferioritas):

Kapan kita harus menguji hipotesis noninferioritas?

Set kedua (sama seperti saat menguji hipotesis superioritas):

Kapan kita harus menguji hipotesis noninferioritas?

Kami menguji hipotesis kedua hanya jika hipotesis pertama ditolak. Saat menguji secara berurutan, kami mempertahankan tingkat kesalahan Tipe I secara keseluruhan (α). Dalam praktiknya, hal ini dapat dicapai dengan membuat interval kepercayaan 95% untuk perbedaan antara rata-rata dan pengujian untuk menentukan apakah keseluruhan interval lebih besar dari -Δ. Jika intervalnya tidak melebihi -Δ, kita tidak dapat menolak nilai nol dan berhenti. Jika seluruh interval memang lebih besar dari −Δ, kita akan melanjutkan dan melihat apakah interval tersebut berisi 0.

Ada jenis penelitian lain yang belum kita bahas – studi kesetaraan.

Jenis studi ini dapat digantikan dengan studi noninferioritas dan sebaliknya, namun sebenarnya memiliki perbedaan penting. Uji coba noninferioritas bertujuan untuk menunjukkan bahwa opsi B setidaknya sama baiknya dengan A. Uji coba kesetaraan bertujuan untuk menunjukkan bahwa opsi B setidaknya sama baiknya dengan A. Opsi A sama baiknya dengan B, mana yang lebih sulit. Pada dasarnya, kami mencoba untuk menentukan apakah seluruh interval kepercayaan untuk perbedaan rata-rata terletak antara −Δ dan Δ. Penelitian semacam ini memerlukan ukuran sampel yang lebih besar dan dilakukan lebih jarang. Jadi, lain kali Anda melakukan penelitian yang tujuan utamanya adalah memastikan bahwa versi barunya tidak lebih buruk, jangan puas dengan "kegagalan menolak hipotesis nol". Jika Anda ingin menguji hipotesis yang sangat penting, pertimbangkan opsi yang berbeda.

Sumber: www.habr.com

Tambah komentar