متى يجب أن نختبر فرضية عدم الدونية؟

متى يجب أن نختبر فرضية عدم الدونية؟
يقترح مقال من فريق Stitch Fix استخدام منهج تجارب عدم الدونية في التسويق واختبارات A/B للمنتج. ينطبق هذا النهج حقًا عندما نختبر حلاً جديدًا له فوائد لا تقاس بالاختبارات.

أبسط مثال هو خفض التكاليف. على سبيل المثال، نقوم بأتمتة عملية تعيين الدرس الأول، ولكننا لا نريد تقليل التحويل الشامل بشكل كبير. أو نختبر التغييرات التي تستهدف شريحة واحدة من المستخدمين، مع التأكد من أن التحويلات للشرائح الأخرى لا تنخفض كثيرًا (عند اختبار عدة فرضيات، لا تنس التعديلات).

يضيف تحديد هامش عدم النقص الصحيح تحديات إضافية أثناء مرحلة تصميم الاختبار. لم يتم تناول مسألة كيفية اختيار Δ بشكل جيد في المقالة. ويبدو أن هذا الاختيار ليس شفافًا تمامًا في التجارب السريرية أيضًا. مراجعة تشير المنشورات الطبية حول عدم الدونية إلى أن نصف المنشورات فقط تبرر اختيار الحدود، وغالباً ما تكون هذه المبررات غامضة أو غير مفصلة.

على أية حال، يبدو هذا النهج مثيرًا للاهتمام لأنه... ومن خلال تقليل حجم العينة المطلوبة، يمكن زيادة سرعة الاختبار، وبالتالي سرعة اتخاذ القرار. — داريا موخينا، محللة منتجات لتطبيق Skyeng للهاتف المحمول.

يحب فريق Stitch Fix اختبار أشياء مختلفة. يحب مجتمع التكنولوجيا بأكمله إجراء الاختبارات من حيث المبدأ. ما هو إصدار الموقع الذي يجذب المزيد من المستخدمين - أ أم ب؟ هل يجني الإصدار (أ) من نموذج التوصية أموالاً أكثر من الإصدار (ب)؟ لاختبار الفرضيات، نستخدم دائمًا أبسط نهج من دورة الإحصاء الأساسية:

متى يجب أن نختبر فرضية عدم الدونية؟

على الرغم من أننا نادرًا ما نستخدم هذا المصطلح، إلا أن هذا النوع من الاختبار يسمى "اختبار فرضية التفوق". وبهذا النهج، نفترض أنه لا يوجد فرق بين الخيارين. نحن نتمسك بهذه الفكرة ولا نتخلى عنها إلا إذا كانت البيانات مقنعة بما يكفي للقيام بذلك - أي أنها توضح أن أحد الخيارين (أ أو ب) أفضل من الآخر.

اختبار فرضية التفوق مناسب لمجموعة متنوعة من المشاكل. نحن لا نصدر الإصدار (ب) من نموذج التوصية إلا إذا كان أفضل بشكل واضح من الإصدار (أ) المستخدم بالفعل. ولكن في بعض الحالات، لا يعمل هذا النهج بشكل جيد. دعونا نلقي نظرة على بعض الأمثلة.

1) نستخدم خدمة طرف ثالثمما يساعد على التعرف على البطاقات المصرفية المزيفة. لقد وجدنا خدمة أخرى تكلف أقل بكثير. إذا كانت الخدمة الأرخص تعمل بنفس الجودة التي نستخدمها حاليًا، فسوف نختارها. ليس من الضروري أن تكون أفضل من الخدمة التي تستخدمها.

2) نريد التخلي عن مصدر البيانات A واستبداله بمصدر البيانات B. يمكننا تأخير التخلي عن A إذا أدى B إلى نتائج سيئة للغاية، لكن من غير الممكن الاستمرار في استخدام A.

3) نود أن ننتقل من نهج النمذجةإن النهج الذي يتبعه "أ" إلى "ب" ليس لأننا نتوقع نتائج أفضل من "ب"، ولكن لأنه يمنحنا قدرًا أكبر من المرونة التشغيلية. وليس لدينا من الأسباب ما يجعلنا نعتقد أن الوضع (ب) سيكون أسوأ، ولكننا لن نقوم بالتحول إذا كان هذا هو الحال.

4) لقد أجرينا العديد من التغييرات النوعية في تصميم موقع الويب (الإصدار ب) ونعتقد أن هذا الإصدار أفضل من الإصدار أ. ولا نتوقع تغييرات في التحويل أو أي من مؤشرات الأداء الرئيسية التي نقوم عادةً بتقييم موقع الويب من خلالها. لكننا نعتقد أن هناك فوائد في المعلمات التي إما أنها غير قابلة للقياس أو أن التكنولوجيا لدينا ليست كافية للقياس.

وفي كل هذه الحالات، فإن بحث التفوق ليس هو الحل الأنسب. لكن معظم المتخصصين في مثل هذه المواقف يستخدمونه بشكل افتراضي. نجري التجربة بعناية لتحديد حجم التأثير بشكل صحيح. إذا كان صحيحًا أن الإصدارين A وB يعملان بطرق متشابهة جدًا، فهناك احتمال أن نفشل في رفض فرضية العدم. هل نستنتج أن A وB يؤديان نفس الأداء بشكل أساسي؟ لا! الفشل في رفض الفرضية الصفرية وقبول الفرضية الصفرية ليسا نفس الشيء.

عادةً ما يتم إجراء حسابات حجم العينة (التي قمت بها بالطبع) بحدود أكثر صرامة للخطأ من النوع الأول (احتمال الفشل في رفض فرضية العدم، والتي تسمى غالبًا ألفا) مقارنة بالخطأ من النوع الثاني (احتمال الفشل في الرفض الفرضية الصفرية، بشرط أن تكون الفرضية الصفرية خاطئة، وتسمى غالبًا بيتا). القيمة النموذجية لألفا هي 0,05، في حين أن القيمة النموذجية لبيتا هي 0,20، أي ما يعادل قوة إحصائية قدرها 0,80. وهذا يعني أن هناك احتمالًا بنسبة 20% بأننا سنفقد التأثير الحقيقي للكمية التي حددناها في حساباتنا للطاقة، وهذه فجوة خطيرة إلى حد ما في المعلومات. على سبيل المثال، دعونا ننظر في الفرضيات التالية:

متى يجب أن نختبر فرضية عدم الدونية؟

H0: حقيبتي ليست في غرفتي (3)
H1: حقيبتي موجودة في غرفتي (4)

إذا قمت بتفتيش غرفتي وعثرت على حقيبتي، فهذا رائع، يمكنني أن أرفض فرضية العدم. لكن إذا نظرت حولي في الغرفة ولم أتمكن من العثور على حقيبتي (الشكل 1)، ما هو الاستنتاج الذي يجب أن أتوصل إليه؟ هل أنا متأكد من أنه ليس هناك؟ هل نظرت بجدية كافية؟ ماذا لو قمت بتفتيش 80% فقط من الغرفة؟ إن الاستنتاج بأن حقيبة الظهر ليست بالتأكيد في الغرفة سيكون قرارًا متسرعًا. لا عجب أننا لا نستطيع "قبول فرضية العدم".
متى يجب أن نختبر فرضية عدم الدونية؟
المنطقة التي بحثنا فيها
لم نعثر على حقيبة الظهر - هل يجب أن نقبل فرضية العدم؟

الشكل 1: البحث في 80% من الغرفة يماثل تقريبًا البحث بنسبة 80% من الطاقة. إذا لم تجد حقيبة الظهر بعد البحث في 80% من الغرفة، هل يمكنك استنتاج أنها غير موجودة؟

إذن ما الذي يجب على عالم البيانات فعله في هذه الحالة؟ يمكنك زيادة قوة الدراسة بشكل كبير، ولكنك ستحتاج بعد ذلك إلى حجم عينة أكبر بكثير وستظل النتيجة غير مرضية.

ولحسن الحظ، فقد تمت دراسة مثل هذه المشاكل منذ فترة طويلة في عالم البحوث السريرية. الدواء B أرخص من الدواء A؛ من المتوقع أن يسبب الدواء B آثارًا جانبية أقل من الدواء A؛ الدواء B أسهل في النقل لأنه لا يحتاج إلى التبريد، لكن الدواء A يحتاج إلى ذلك. دعونا نختبر فرضية عدم الدونية. هذا لإظهار أن الإصدار B جيد تمامًا مثل الإصدار A - على الأقل ضمن هامش عدم الدونية المحدد مسبقًا، Δ. سنتحدث أكثر عن كيفية تعيين هذا الحد بعد قليل. لكن لنفترض الآن أن هذا هو أصغر اختلاف له معنى عمليًا (في سياق التجارب السريرية، يُسمى هذا عادةً بالأهمية السريرية).

فرضيات عدم الدونية تقلب كل شيء رأسًا على عقب:

متى يجب أن نختبر فرضية عدم الدونية؟

الآن، بدلًا من افتراض عدم وجود فرق، سنفترض أن الإصدار B أسوأ من الإصدار A، وسنتمسك بهذا الافتراض حتى نثبت أن الأمر ليس كذلك. هذه هي اللحظة التي يكون فيها من المنطقي استخدام اختبار الفرضيات من جانب واحد! ومن الناحية العملية، يمكن القيام بذلك عن طريق إنشاء فاصل ثقة وتحديد ما إذا كان الفاصل الزمني أكبر بالفعل من Δ (الشكل 2).
متى يجب أن نختبر فرضية عدم الدونية؟

حدد Δ

كيفية اختيار الحق Δ؟ تتضمن عملية الاختيار تبريرًا إحصائيًا وتقييمًا موضوعيًا. في عالم الأبحاث السريرية، هناك مبادئ توجيهية تنظيمية تنص على أن الدلتا يجب أن تمثل أصغر فرق مهم سريريًا - وهو الفرق الذي سيحدث فرقًا في الممارسة. إليك اقتباس من الإرشادات الأوروبية لتختبر نفسك به: "إذا تم اختيار الفرق بشكل صحيح، فإن فاصل الثقة الذي يقع بالكامل بين -∆ و0... يظل كافيًا لإثبات عدم الدونية. إذا كانت هذه النتيجة لا تبدو مقبولة، فهذا يعني أنه لم يتم اختيار ∆ بشكل مناسب.

يجب ألا تتجاوز الدلتا بالتأكيد حجم تأثير الإصدار A بالنسبة للتحكم الحقيقي (الدواء الوهمي/عدم العلاج)، لأن هذا يقودنا إلى القول بأن الإصدار B أسوأ من التحكم الحقيقي، بينما يظهر في نفس الوقت "عدم الدونية" ". لنفترض أنه عندما تم تقديم الإصدار A، تم استبداله بالإصدار 0 أو أن الميزة لم تكن موجودة على الإطلاق (انظر الشكل 3).

بناءً على نتائج اختبار فرضية التفوق، تم الكشف عن حجم التأثير E (أي، من المفترض μ^A−μ^0=E). الآن A هو معيارنا الجديد، ونريد التأكد من أن B جيد مثل A. هناك طريقة أخرى لكتابة μB−μA≥−Δ (فرضية العدم) وهي μB≥μA−Δ. إذا افترضنا أن do يساوي أو أكبر من E، فإن μB ≥ μA−E ≥ الدواء الوهمي. نرى الآن أن تقديرنا لـ μB يتجاوز تمامًا μA−E، مما يرفض فرضية العدم تمامًا ويسمح لنا باستنتاج أن B جيد مثل A، ولكن في نفس الوقت قد يكون μB علاجًا وهميًا ≥ μ، وهو ليس العلاج الوهمي. حالة.ماذا نحتاج. (الشكل 3).

متى يجب أن نختبر فرضية عدم الدونية؟
الشكل 3. توضيح مخاطر اختيار هامش عدم النقص. إذا كان الحد الفاصل مرتفعًا جدًا، فيمكن استنتاج أن B ليس أقل شأنًا من A، ولكن في نفس الوقت لا يمكن تمييزه عن الدواء الوهمي. ولن نستبدل دواءً من الواضح أنه أكثر فعالية من العلاج الوهمي (أ) بدواء لا يقل فعالية عن العلاج الوهمي.

اختيار ألف

دعنا ننتقل إلى اختيار α. يمكنك استخدام القيمة القياسية α = 0,05، لكن هذا ليس عادلاً تمامًا. مثل، على سبيل المثال، عند شراء شيء ما عبر الإنترنت واستخدام العديد من رموز الخصم في وقت واحد، على الرغم من أنه لا ينبغي دمجها - فقد ارتكب المطور خطأً للتو، وقد أفلتت من العقاب. ووفقا للقواعد، يجب أن تكون قيمة α مساوية لنصف قيمة α المستخدمة عند اختبار فرضية التفوق، أي 0,05 / 2 = 0,025.

حجم العينة

كيفية تقدير حجم العينة؟ إذا كنت تعتقد أن فرق المتوسط ​​الحقيقي بين A وB هو 0، فإن حساب حجم العينة هو نفسه عند اختبار فرضية التفوق، باستثناء أنك تستبدل حجم التأثير بهامش عدم الدونية، بشرط أن تستخدم αالكفاءة غير الأدنى = 1/2αالتفوق (α عدم الدونية = 1/2α التفوق). إذا كان لديك سبب للاعتقاد بأن الخيار B قد يكون أسوأ قليلاً من الخيار A، ولكنك تريد إثبات أنه أسوأ بما لا يزيد عن Δ، فأنت محظوظ! يؤدي هذا في الواقع إلى تقليل حجم عينتك لأنه من الأسهل إثبات أن B أسوأ من A إذا كنت تعتقد بالفعل أنه أسوأ قليلاً وليس متساويًا.

مثال مع الحل

لنفترض أنك تريد الترقية إلى الإصدار B، بشرط ألا يكون أسوأ من الإصدار A بأكثر من 0,1 نقطة على مقياس رضا العملاء المكون من 5 نقاط. دعنا نتعامل مع هذه المشكلة باستخدام فرضية التفوق.

ولاختبار فرضية التفوق تم حساب حجم العينة كما يلي:

متى يجب أن نختبر فرضية عدم الدونية؟

أي أنه إذا كان لديك 2103 ملاحظة في مجموعتك، فيمكنك أن تكون واثقًا بنسبة 90% من أنك ستجد حجم تأثير يبلغ 0,10 أو أكبر. ولكن إذا كان 0,10 مرتفعًا جدًا بالنسبة لك، فقد لا يكون من المفيد اختبار فرضية التفوق. لكي تكون في الجانب الآمن، قد تقرر إجراء الدراسة بحجم تأثير أصغر، مثل 0,05. في هذه الحالة، ستحتاج إلى 8407 ملاحظة، أي أن العينة ستزيد 4 مرات تقريبًا. ولكن ماذا لو تمسكنا بحجم العينة الأصلي، ولكننا قمنا بزيادة القدرة إلى 0,99 حتى نكون آمنين إذا حصلنا على نتيجة إيجابية؟ في هذه الحالة، سيكون n لمجموعة واحدة 3676، وهو أفضل بالفعل، ولكنه يزيد من حجم العينة بأكثر من 50٪. ونتيجة لذلك، ما زلنا ببساطة غير قادرين على دحض فرضية العدم، ولن نتلقى إجابة على سؤالنا.

ماذا لو اختبرنا فرضية عدم الدونية بدلاً من ذلك؟

متى يجب أن نختبر فرضية عدم الدونية؟

سيتم حساب حجم العينة باستخدام نفس الصيغة باستثناء المقام.
الاختلافات عن الصيغة المستخدمة لاختبار فرضية التفوق هي كما يلي:

— تم استبدال Z1−α/2 بـ Z1−α، ولكن إذا فعلت كل شيء وفقًا للقواعد، فإنك تستبدل α = 0,05 بـ α = 0,025، أي أنه نفس الرقم (1,96)

— (μB−μA) يظهر في المقام

— تم استبدال θ (حجم التأثير) بـ Δ (هامش عدم الدونية)

إذا افترضنا أن μB = μA، إذن (μB − μA) = 0 وحساب حجم العينة لهامش عدم الدونية هو بالضبط ما سنحصل عليه إذا حسبنا التفوق لحجم تأثير قدره 0,1، عظيم! يمكننا إجراء دراسة بنفس الحجم مع فرضيات مختلفة ومنهج مختلف للاستنتاجات، وسنحصل على إجابة السؤال الذي نريد الإجابة عليه حقًا.

لنفترض الآن أننا لا نعتقد في الواقع أن μB = μA و
نعتقد أن μB أسوأ قليلاً، ربما بمقدار 0,01 وحدة. يؤدي هذا إلى زيادة المقام، مما يقلل حجم العينة لكل مجموعة إلى 1737.

ماذا يحدث إذا كان الإصدار B أفضل بالفعل من الإصدار A؟ نحن نرفض الفرضية الصفرية القائلة بأن B أسوأ من A بأكثر من Δ ونقبل الفرضية البديلة القائلة بأن B، إذا كان أسوأ، ليس أسوأ من A بمقدار Δ وقد يكون أفضل. حاول وضع هذا الاستنتاج في عرض تقديمي متعدد الوظائف وشاهد ما سيحدث (جربه بجدية). وفي الوضع المستقبلي، لا أحد يرغب في القبول بما لا يزيد عن Δ الأسوأ وربما الأفضل.

في هذه الحالة يمكننا إجراء دراسة تسمى باختصار شديد “اختبار الفرضية القائلة بأن أحد الخيارات متفوق أو أدنى من الآخر”. ويستخدم مجموعتين من الفرضيات:

المجموعة الأولى (مثل اختبار فرضية عدم النقص):

متى يجب أن نختبر فرضية عدم الدونية؟

المجموعة الثانية (كما هو الحال عند اختبار فرضية التفوق):

متى يجب أن نختبر فرضية عدم الدونية؟

ونختبر الفرضية الثانية فقط في حالة رفض الفرضية الأولى. عند الاختبار بشكل تسلسلي، نحافظ على معدل الخطأ الإجمالي من النوع الأول (α). ومن الناحية العملية، يمكن تحقيق ذلك عن طريق إنشاء فاصل ثقة بنسبة 95% للفرق بين الوسائل والاختبار لتحديد ما إذا كان الفاصل الزمني بأكمله أكبر من -Δ. إذا لم يتجاوز الفاصل الزمني -Δ، فلا يمكننا رفض القيمة الخالية والتوقف. إذا كان الفاصل الزمني بأكمله أكبر بالفعل من −Δ، فسنستمر ونرى ما إذا كان الفاصل الزمني يحتوي على 0.

هناك نوع آخر من الأبحاث لم نناقشه وهو دراسات التكافؤ.

يمكن استبدال هذه الأنواع من الدراسات بدراسات عدم الدونية والعكس، لكن في الواقع هناك فرق مهم. تهدف تجربة عدم الدونية إلى إظهار أن الخيار B جيد على الأقل مثل A. تهدف تجربة التكافؤ إلى إظهار أن الخيار B جيد على الأقل مثل A. الخيار A جيد مثل B، وهو أكثر صعوبة. في الأساس، نحن نحاول تحديد ما إذا كان فاصل الثقة الكامل للفرق في المتوسطات يقع بين −Δ و Δ. تتطلب مثل هذه الدراسات حجم عينة أكبر ويتم إجراؤها بشكل أقل تكرارًا. لذا، في المرة القادمة التي تجري فيها دراسة يكون هدفك الرئيسي فيها هو التأكد من أن الإصدار الجديد ليس أسوأ، لا تقبل بـ "الفشل في رفض فرضية العدم". إذا كنت تريد اختبار فرضية مهمة حقًا، ففكر في خيارات مختلفة.

المصدر: www.habr.com

إضافة تعليق