چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟
مقاله‌ای از تیم Stitch Fix استفاده از روش آزمایش‌های غیر حقارت را در بازاریابی و تست‌های A/B محصول پیشنهاد می‌کند. این رویکرد واقعاً زمانی اعمال می شود که ما در حال آزمایش راه حل جدیدی هستیم که مزایایی دارد که با آزمایش اندازه گیری نمی شوند.

ساده ترین مثال کاهش هزینه است. به عنوان مثال، ما فرآیند اختصاص اولین درس را خودکار می کنیم، اما نمی خواهیم تبدیل پایان به انتها را به میزان قابل توجهی کاهش دهیم. یا تغییراتی را آزمایش می‌کنیم که هدفشان یک بخش از کاربران است، در حالی که مطمئن می‌شویم که تبدیل‌ها برای بخش‌های دیگر زیاد کاهش پیدا نمی‌کند (هنگام آزمایش چندین فرضیه، اصلاحات را فراموش نکنید).

انتخاب حاشیه درست غیر حقارت، چالش‌های بیشتری را در مرحله طراحی آزمایشی اضافه می‌کند. سوال نحوه انتخاب Δ به خوبی در مقاله پوشش داده نشده است. به نظر می رسد این انتخاب در کارآزمایی های بالینی نیز کاملاً شفاف نیست. مرور نشریات پزشکی در مورد عدم حقارت گزارش می دهند که تنها نیمی از نشریات انتخاب مرز را توجیه می کنند و اغلب این توجیهات مبهم هستند یا جزئیات ندارند.

در هر صورت این رویکرد جالب به نظر می رسد زیرا ... با کاهش حجم نمونه مورد نیاز می توان سرعت تست و در نتیجه سرعت تصمیم گیری را افزایش داد. - داریا موخینا، تحلیلگر محصول برای اپلیکیشن موبایل Skyeng.

تیم Stitch Fix عاشق آزمایش چیزهای مختلف است. کل جامعه فناوری عاشق اجرای آزمایشات در اصل است. کدام نسخه از سایت کاربران بیشتری را جذب می کند - A یا B؟ آیا نسخه A مدل پیشنهادی درآمد بیشتری نسبت به نسخه B دارد؟ برای آزمایش فرضیه‌ها، تقریباً همیشه از ساده‌ترین رویکرد درس آمار پایه استفاده می‌کنیم:

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

اگرچه ما به ندرت از این اصطلاح استفاده می کنیم، اما به این شکل از آزمون «آزمایش فرضیه برتری» می گویند. با این رویکرد، فرض می کنیم که هیچ تفاوتی بین این دو گزینه وجود ندارد. ما به این ایده پایبند هستیم و آن را تنها در صورتی رها می کنیم که داده ها به اندازه کافی قانع کننده برای انجام این کار باشد - یعنی نشان می دهد که یکی از گزینه ها (A یا B) بهتر از دیگری است.

آزمون فرضیه برتری برای مسائل مختلف مناسب است. ما فقط نسخه B از یک مدل توصیه را در صورتی منتشر می کنیم که به وضوح بهتر از نسخه A باشد که در حال حاضر استفاده می شود. اما در برخی موارد، این روش به خوبی کار نمی کند. بیایید به چند نمونه نگاه کنیم.

1) ما از خدمات شخص ثالث استفاده می کنیم، که به شناسایی کارت های بانکی تقلبی کمک می کند. ما یک سرویس دیگر پیدا کردیم که هزینه بسیار کمتری دارد. اگر سرویس ارزان‌تری مانند سرویسی که در حال حاضر استفاده می‌کنیم کار کند، آن را انتخاب می‌کنیم. لازم نیست بهتر از سرویسی باشد که از آن استفاده می کنید.

2) ما می خواهیم منبع داده را رها کنیم A و جایگزینی آن با منبع داده B. اگر B نتایج بسیار بدی ایجاد کند، می‌توانیم A را کنار بگذاریم، اما ادامه استفاده از A ممکن نیست.

3) مایلیم از رویکرد مدلسازی حرکت کنیمرویکرد A به B به این دلیل نیست که ما از B انتظار نتایج بهتری داریم، بلکه به این دلیل که انعطاف عملیاتی بیشتری به ما می دهد. ما هیچ دلیلی نداریم که باور کنیم B بدتر خواهد بود، اما اگر اینطور باشد، انتقال را انجام نخواهیم داد.

4) ما چندین تغییر کیفی ایجاد کرده ایم در طراحی وب سایت (نسخه B) و معتقد باشید که این نسخه نسبت به نسخه A برتر است. ما انتظار تغییر در تبدیل یا هیچ یک از شاخص های کلیدی عملکرد را نداریم که معمولاً یک وب سایت را ارزیابی می کنیم. اما ما معتقدیم که مزایایی در پارامترها وجود دارد که یا غیرقابل اندازه گیری هستند یا فناوری ما برای اندازه گیری کافی نیست.

در تمام این موارد، تحقیق برتری مناسب ترین راه حل نیست. اما اکثر متخصصان در چنین شرایطی به طور پیش فرض از آن استفاده می کنند. ما آزمایش را با دقت انجام می دهیم تا اندازه اثر را به درستی تعیین کنیم. اگر درست بود که نسخه‌های A و B به روش‌های بسیار مشابهی کار می‌کنند، این احتمال وجود دارد که در رد فرضیه صفر شکست بخوریم. آیا نتیجه می گیریم که A و B اساساً یکسان عمل می کنند؟ نه! عدم رد فرضیه صفر و پذیرش فرضیه صفر یکی نیستند.

محاسبات اندازه نمونه (که البته شما انجام داده اید) معمولاً با محدودیت های سخت تری برای خطای نوع I (احتمال عدم موفقیت در رد فرضیه صفر، که اغلب آلفا نامیده می شود) نسبت به خطای نوع II (احتمال رد نشدن) انجام می شود. فرضیه صفر، با توجه به شرایطی که فرضیه صفر نادرست است، که اغلب بتا نامیده می شود). مقدار معمولی برای آلفا 0,05 است، در حالی که مقدار معمولی برای بتا 0,20 است که مربوط به توان آماری 0,80 است. این به این معنی است که احتمال 20٪ وجود دارد که اثر واقعی کمیتی را که در محاسبات قدرت خود مشخص کرده‌ایم از دست بدهیم و این یک شکاف نسبتاً جدی در اطلاعات است. به عنوان مثال، فرضیه های زیر را در نظر می گیریم:

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

H0: کوله پشتی من در اتاق من نیست (3)
H1: کوله پشتی من در اتاق من است (4)

اگر اتاقم را جستجو کردم و کوله پشتی ام را پیدا کردم، عالی است، می توانم فرضیه صفر را رد کنم. اما اگر به اطراف اتاق نگاه کردم و نتوانستم کوله پشتی خود را پیدا کنم (شکل 1)، چه نتیجه ای باید بگیرم؟ مطمئنم اونجا نیست؟ آیا به اندازه کافی سخت نگاه کردم؟ اگر فقط 80 درصد اتاق را جستجو کنم چه می شود؟ نتیجه گیری اینکه کوله پشتی قطعاً در اتاق نیست، تصمیمی عجولانه خواهد بود. جای تعجب نیست که ما نمی توانیم "فرضیه صفر" را بپذیریم.
چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟
منطقه ای که جستجو کردیم
ما کوله پشتی را پیدا نکردیم - آیا باید فرضیه صفر را بپذیریم؟

شکل 1: جست و جو در 80 درصد یک اتاق تقریباً مشابه جست و جو با توان 80 درصد است. اگر پس از جستجوی 80 درصد از اتاق، کوله پشتی را پیدا نکردید، می توانید به این نتیجه برسید که آنجا نیست؟

بنابراین یک دانشمند داده در این شرایط چه باید بکند؟ شما می توانید قدرت مطالعه را تا حد زیادی افزایش دهید، اما پس از آن به حجم نمونه بسیار بزرگتری نیاز خواهید داشت و نتیجه همچنان رضایت بخش نخواهد بود.

خوشبختانه چنین مشکلاتی مدتهاست در دنیای تحقیقات بالینی مورد مطالعه قرار گرفته است. داروی B ارزانتر از داروی A است. انتظار می رود که داروی B عوارض جانبی کمتری نسبت به داروی A ایجاد کند. حمل و نقل داروی B آسان تر است زیرا نیازی به نگهداری در یخچال ندارد، اما داروی A نیازی به نگهداری دارد. بیایید فرضیه عدم حقارت را آزمایش کنیم. این برای نشان دادن این است که نسخه B به خوبی نسخه A است - حداقل در یک حاشیه غیرحقوری از پیش تعریف شده، Δ. در مورد نحوه تنظیم این حد کمی بعد بیشتر صحبت خواهیم کرد. اما در حال حاضر اجازه دهید فرض کنیم که این کوچکترین تفاوتی است که عملاً معنادار است (در زمینه آزمایشات بالینی، معمولاً به آن اهمیت بالینی می گویند).

فرضیه های عدم حقارت همه چیز را به هم می زند:

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

حال، به جای اینکه فرض کنیم تفاوتی وجود ندارد، فرض می کنیم که نسخه B بدتر از نسخه A است، و تا زمانی که ثابت کنیم که اینطور نیست، به این فرض پایبند خواهیم بود. این دقیقا همان لحظه ای است که استفاده از آزمون فرضیه یک طرفه منطقی است! در عمل، این کار را می توان با ایجاد یک فاصله اطمینان و تعیین اینکه آیا این فاصله واقعاً بزرگتر از Δ است انجام می شود (شکل 2).
چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

Δ را انتخاب کنید

چگونه Δ مناسب را انتخاب کنیم؟ فرآیند انتخاب Δ شامل توجیه آماری و ارزیابی اساسی است. در دنیای تحقیقات بالینی، دستورالعمل های نظارتی وجود دارد که دیکته می کند که دلتا باید کوچکترین تفاوت بالینی مهم را نشان دهد - تفاوتی که در عمل تفاوت ایجاد می کند. در اینجا یک نقل قول از دستورالعمل های اروپایی برای آزمایش خود آورده شده است: «اگر تفاوت به درستی انتخاب شده باشد، فاصله اطمینانی که کاملاً بین –∆ و 0 قرار دارد... برای نشان دادن عدم حقارت کافی است. اگر این نتیجه قابل قبول به نظر نمی رسد، به این معنی است که ∆ به درستی انتخاب نشده است.

دلتا به طور قطع نباید از اندازه اثر نسخه A نسبت به کنترل واقعی (دارونما/بدون درمان) تجاوز کند، زیرا این باعث می شود که بگوییم نسخه B بدتر از کنترل واقعی است و در عین حال "عدم حقارت" را نشان می دهد. " بیایید فرض کنیم زمانی که نسخه A معرفی شد، با نسخه 0 جایگزین شد یا این ویژگی اصلا وجود نداشت (شکل 3 را ببینید).

بر اساس نتایج آزمون فرضیه برتری، اندازه اثر E آشکار شد (یعنی احتمالا μ^A−μ^0=E). اکنون A استاندارد جدید ما است و می‌خواهیم مطمئن شویم که B به خوبی A است. روش دیگر برای نوشتن μB−μA≤−Δ (فرضیه صفر) μB≤μA−Δ است. اگر فرض کنیم که do برابر یا بزرگتر از E است، میکروب ≤ μA−E ≤ دارونما. اکنون می بینیم که تخمین ما برای μB کاملاً از μA-E فراتر می رود، که در نتیجه فرضیه صفر را کاملاً رد می کند و به ما امکان می دهد نتیجه بگیریم که B به خوبی A است، اما در همان زمان μB ممکن است ≤ μ پلاسبو باشد، که این نیست. مورد چه چیزی نیاز داریم (شکل 3).

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟
شکل 3. نشان دادن خطرات انتخاب یک حاشیه غیر حقارت. اگر برش خیلی زیاد باشد، می توان نتیجه گرفت که B نسبت به A پایین تر نیست، اما در عین حال از دارونما قابل تشخیص نیست. ما دارویی را که به وضوح مؤثرتر از دارونما (A) است با دارویی که به اندازه دارونما مؤثر است مبادله نمی کنیم.

انتخاب α

بیایید به انتخاب α برویم. می توانید از مقدار استاندارد α = 0,05 استفاده کنید، اما این کاملاً منصفانه نیست. مثلاً وقتی چیزی را آنلاین می‌خرید و از چندین کد تخفیف به طور همزمان استفاده می‌کنید، اگرچه نباید آنها را با هم ترکیب کرد - توسعه‌دهنده فقط اشتباه کرد و شما از پس آن برآمدید. طبق قوانین، مقدار α باید برابر با نصف مقدار α باشد که هنگام آزمایش فرضیه برتری استفاده می شود، یعنی 0,05 / 2 = 0,025.

اندازهی نمونه

چگونه می توان حجم نمونه را تخمین زد؟ اگر فکر می کنید که تفاوت میانگین واقعی بین A و B 0 است، محاسبه حجم نمونه مشابه با آزمایش فرضیه برتری است، با این تفاوت که اندازه اثر را با حاشیه غیرفرقی جایگزین می کنید، مشروط بر اینکه از آن استفاده کنید. راندمان αغیر پایین = 1/2α برتری (αnon-finiority=1/2αsuperiority). اگر دلیلی برای این باور دارید که گزینه B ممکن است کمی بدتر از گزینه A باشد، اما می خواهید ثابت کنید که بدتر از Δ است، پس شانس دارید! این در واقع حجم نمونه شما را کاهش می‌دهد، زیرا اگر فکر می‌کنید که کمی بدتر از A است، نشان دادن بدتر بودن B از A آسان‌تر است.

مثال با محلول

فرض کنید می خواهید به نسخه B ارتقا دهید، مشروط بر اینکه در مقیاس رضایت مشتری 0,1 درجه ای بیش از 5 امتیاز بدتر از نسخه A نباشد... بیایید با استفاده از فرضیه برتری به این مشکل بپردازیم.

برای آزمون فرضیه برتری، حجم نمونه را به صورت زیر محاسبه می کنیم:

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

یعنی اگر 2103 مشاهده در گروه خود داشته باشید، می توانید 90% مطمئن باشید که اندازه افکت 0,10 یا بزرگتر را خواهید یافت. اما اگر 0,10 برای شما خیلی زیاد است، ممکن است ارزش آزمایش فرضیه برتری را نداشته باشد. برای ایمن بودن، ممکن است تصمیم بگیرید که مطالعه را برای اندازه اثر کوچکتر، مانند 0,05 اجرا کنید. در این صورت به 8407 مشاهده نیاز خواهید داشت، یعنی نمونه تقریبا 4 برابر می شود. اما اگر به اندازه نمونه اصلی خود پایبند بودیم، اما توان را به 0,99 افزایش دادیم تا اگر نتیجه مثبت گرفتیم، ایمن باشیم؟ در این حالت، n برای یک گروه 3676 خواهد بود که در حال حاضر بهتر است، اما حجم نمونه را بیش از 50٪ افزایش می دهد. و در نتیجه، ما هنوز به سادگی نمی توانیم فرضیه صفر را رد کنیم و پاسخی برای سوال خود دریافت نخواهیم کرد.

اگر به جای آن فرضیه عدم حقارت را آزمایش کنیم چه می شود؟

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

حجم نمونه با استفاده از همان فرمول به جز مخرج محاسبه خواهد شد.
تفاوت های فرمول مورد استفاده برای آزمون فرضیه برتری به شرح زیر است:

- Z1−α/2 با Z1−α جایگزین می‌شود، اما اگر همه چیز را طبق قوانین انجام دهید، α = 0,05 را با α = 0,025 جایگزین می‌کنید، یعنی همان عدد (1,96) است.

- (μB−μA) در مخرج ظاهر می شود

- θ (اندازه اثر) با Δ (حاشیه عدم حقارت) جایگزین می شود.

اگر فرض کنیم µB = µA، آنگاه (µB - µA) = 0 و محاسبه اندازه نمونه برای حاشیه غیرفرقی دقیقاً همان چیزی است که اگر برتری را برای اندازه اثر 0,1 محاسبه کنیم، عالی است! ما می‌توانیم با فرضیه‌های مختلف و رویکردی متفاوت به نتیجه‌گیری، مطالعه‌ای با اندازه یکسان انجام دهیم و به سؤالی که واقعاً می‌خواهیم به آن پاسخ دهیم، پاسخ خواهیم داد.

حال فرض کنید که ما واقعاً فکر نمی کنیم که µB = µA و
ما فکر می کنیم که μB کمی بدتر است، شاید 0,01 واحد. این مخرج ما را افزایش می دهد و حجم نمونه در هر گروه را به 1737 کاهش می دهد.

اگر نسخه B واقعا بهتر از نسخه A باشد چه اتفاقی می افتد؟ ما فرض صفر را که B بدتر از A بیشتر از Δ است را رد می کنیم و فرضیه جایگزین را می پذیریم که B، اگر بدتر باشد، بدتر از A نیست و ممکن است بهتر باشد. سعی کنید این نتیجه گیری را در یک ارائه متقابل کارکردی قرار دهید و ببینید چه اتفاقی می افتد (به طور جدی، آن را امتحان کنید). در یک موقعیت آینده‌نگر، هیچ‌کس نمی‌خواهد به «بیش از Δ بدتر و شاید بهتر» بسنده کند.

در این صورت می‌توانیم مطالعه‌ای انجام دهیم که به طور خلاصه به آن «آزمایش فرضیه برتر یا پایین‌تر بودن یکی از گزینه‌ها نسبت به دیگری» می‌گویند. از دو مجموعه فرضیه استفاده می کند:

مجموعه اول (همانند آزمایش فرضیه عدم حقارت):

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

مجموعه دوم (همانند هنگام آزمایش فرضیه برتری):

چه زمانی باید فرضیه عدم حقارت را آزمایش کنیم؟

فرضیه دوم را فقط در صورت رد فرضیه اول آزمایش می کنیم. هنگام آزمایش متوالی، میزان خطای کلی نوع I (α) را حفظ می کنیم. در عمل، این را می توان با ایجاد یک فاصله اطمینان 95٪ برای تفاوت بین میانگین ها و آزمایش برای تعیین اینکه آیا کل بازه بزرگتر از -Δ است به دست آورد. اگر بازه از -Δ تجاوز نکند، نمی‌توانیم مقدار صفر را رد کرده و متوقف کنیم. اگر کل بازه واقعاً بزرگتر از -Δ باشد، ادامه می دهیم و می بینیم که آیا بازه حاوی 0 است یا خیر.

نوع دیگری از تحقیقات وجود دارد که ما در مورد آن بحث نکرده ایم - مطالعات هم ارزی.

این نوع مطالعات را می توان با مطالعات غیر حقارت جایگزین کرد و بالعکس، اما در واقع تفاوت مهمی با هم دارند. هدف یک کارآزمایی عدم حقارت نشان دادن این است که گزینه B حداقل به خوبی A است. یک کارآزمایی هم ارزی نشان می دهد که گزینه B حداقل به خوبی A است. گزینه A به خوبی B است که دشوارتر است. اساساً، ما در تلاشیم تا تعیین کنیم که آیا کل فاصله اطمینان برای تفاوت میانگین ها بین -Δ و Δ قرار دارد یا خیر. چنین مطالعاتی به حجم نمونه بزرگتری نیاز دارد و کمتر انجام می شود. بنابراین دفعه بعد که مطالعه ای را انجام دادید که هدف اصلی شما این است که مطمئن شوید نسخه جدید بدتر نیست، به "شکست در رد فرضیه صفر" بسنده نکنید. اگر می خواهید یک فرضیه واقعا مهم را آزمایش کنید، گزینه های مختلف را در نظر بگیرید.

منبع: www.habr.com

اضافه کردن نظر