🥇 کله د بې کفایتۍ فرضیه ازموینه ارزښت لري؟

د سټیچ فکس ټیم یوه مقاله وړاندیز کوي چې د بازارموندنې او محصول A/B ازموینو کې د غیر ټیټوالي آزموینې طریقې کارول. دا تګلاره واقعیا پلي کیږي کله چې موږ د نوي حل ازموینه کوو چې ګټې لري چې د ازموینو لخوا نه اندازه کیږي.

ترټولو ساده مثال د لګښت کمول دي. د مثال په توګه، موږ د لومړي درس د ټاکلو پروسه اتومات کوو، مګر موږ نه غواړو د پام وړ له پای څخه تر پایه تبادله کم کړو. یا موږ هغه بدلونونه ازموینه کوو چې هدف یې د کاروونکو یوې برخې وي، پداسې حال کې چې ډاډ ترلاسه کړئ چې د نورو برخو لپاره تبادلې ډیر نه راځي (کله چې د څو فرضیو ازموینه وکړئ، د تعدیلاتو په اړه مه هېروئ).

د سم غیر کموالی حاشیه غوره کول د ازموینې ډیزاین مرحله کې اضافي ننګونې زیاتوي. د Δ غوره کولو څرنګوالي پوښتنه په مقاله کې خورا ښه پوښل شوې نه ده. داسې ښکاري چې دا انتخاب په کلینیکي آزموینو کې هم په بشپړ ډول شفاف نه دی. عمومي کتنه طبي خپرونې د بې کفایتۍ په اړه راپور ورکوي چې یوازې نیمایي خپرونې د حدود انتخاب توجیه کوي، او ډیری وختونه دا توجیه مبهم وي یا تفصیلي ندي.

په هرصورت، دا طریقه په زړه پورې ښکاري ځکه چې ... د اړتیا وړ نمونې اندازې کمولو سره، دا کولی شي د ازموینې سرعت زیات کړي، او له همدې امله د پریکړې کولو سرعت. — داریا مخینه، د سکاینګ موبایل اپلیکیشن لپاره د محصول شنونکی.

د سټیچ فکس ټیم د مختلف شیانو ازموینې سره مینه لري. د ټیکنالوژۍ ټوله ټولنه په اصولو کې ازموینې پرمخ وړل خوښوي. د سایټ کوم نسخه ډیر کاروونکي جذبوي - A یا B؟ ایا د سپارښتنې ماډل A نسخه د B نسخه څخه ډیرې پیسې ګټي؟ د فرضیو ازمایښت لپاره، موږ تقریبا تل د لومړني احصایې کورس څخه ساده طریقه کاروو:

که څه هم موږ په ندرت سره اصطلاح کاروو، د ازموینې دا بڼه د "لوړتیا فرضیه ازموینې" په نوم یادېږي. د دې طریقې سره، موږ فرض کوو چې د دوو اختیارونو ترمنځ هیڅ توپیر نشته. موږ د دې مفکورې سره ودرېږو او یوازې هغه یې پریږدو که چیرې معلومات د دې کولو لپاره کافي مجبور وي — دا دا په ګوته کوي چې یو انتخاب (A یا B) له بل څخه غوره دی.

د غوره والي فرضیه ازموینه د مختلفو ستونزو لپاره مناسبه ده. موږ یوازې د سپارښتنې ماډل B نسخه خپروو که چیرې دا د نسخې A څخه په څرګنده توګه غوره وي چې دمخه کارول کیږي. مګر په ځینو مواردو کې، دا طریقه دومره ښه کار نه کوي. راځئ چې یو څو مثالونه وګورو.

1) موږ د دریمې ډلې خدمت کاروو، کوم چې د جعلي بانک کارتونو پیژندلو کې مرسته کوي. موږ یو بل خدمت وموند چې د پام وړ کم لګښت لري. که یو ارزانه خدمت د هغه په څیر کار کوي چې موږ یې اوس کاروو، موږ به یې غوره کړو. دا باید د هغه خدمت څخه غوره نه وي چې تاسو یې کاروئ.

2) موږ غواړو د معلوماتو سرچینه پریږدو A او د معلوماتو سرچینې B سره یې ځای په ځای کړئ. موږ کولی شو د A پریښودلو کې ځنډ وکړو که چیرې B خورا بدې پایلې رامینځته کړي، مګر د A کارولو ته دوام ورکول ممکن ندي.

3) موږ غواړو د ماډلینګ طریقې څخه حرکت وکړود A څخه د B چلند له دې امله نه چې موږ د B څخه د غوره پایلو تمه لرو، مګر دا چې دا موږ ته د عملیاتي انعطاف وړتیا راکوي. موږ هیڅ دلیل نلرو چې باور وکړو چې B به بدتر وي، مګر موږ به لیږد ونه کړو که دا قضیه وي.

4) موږ څو کیفیتي بدلونونه کړي دي د ویب پاڼې ډیزاین (ب نسخه) کې او په دې باور یاست چې دا نسخه د A نسخې څخه غوره ده. موږ د بدلون یا د فعالیت کوم مهم شاخصونو کې د بدلون تمه نه کوو چې موږ یې په عمومي توګه د ویب پاڼې ارزونه کوو. مګر موږ باور لرو چې په پیرامیټونو کې ګټې شتون لري چې یا د اندازې وړ ندي یا زموږ ټیکنالوژي د اندازه کولو لپاره کافي ندي.

په دې ټولو قضیو کې، غوره څیړنه ترټولو مناسب حل نه دی. مګر په داسې شرایطو کې ډیری متخصصین دا په ډیفالټ کاروي. موږ تجربه په احتیاط سره ترسره کوو ترڅو د اغیز اندازه په سمه توګه وټاکو. که دا ریښتیا وي چې د A او B نسخې په ورته ډول کار کوي، یو چانس شتون لري چې موږ به د نیمګړتیا فرضیه ردولو کې پاتې راشي. ایا موږ نتیجه اخلو چې A او B اساسا ورته کار کوي؟ نه! د باطل فرضیې په ردولو کې پاتې راتلل او د باطل فرضیې منل یو شی نه دي.

د نمونې د اندازې محاسبه (کوم چې، البته، تاسو ترسره کړې ده) په عمومي ډول د ډول I تېروتنې لپاره د سختو حدودو سره ترسره کیږي (د ناکام فرضیې په ردولو کې د ناکامۍ احتمال، چې ډیری وختونه الفا ویل کیږي) د دویم ډول غلطۍ په پرتله (د رد کولو د ناکامۍ احتمال) null hypothesis، په دې شرط چې د null hypothesis غلط وي، اکثرا د بیټا په نوم یادیږي). د الفا لپاره عادي ارزښت 0,05 دی، پداسې حال کې چې د بیټا لپاره عادي ارزښت 0,20 دی، د 0,80 احصایوي ځواک سره مطابقت لري. دا پدې مانا ده چې د 20٪ چانس شتون لري چې موږ به د هغه مقدار ریښتیني اغیز له لاسه ورکړو چې موږ د بریښنا په محاسبه کې مشخص کړی دی، او دا په معلوماتو کې خورا جدي تشه ده. د مثال په توګه، راځئ چې لاندې فرضیې په پام کې ونیسو:

H0: زما کڅوړه زما په خونه کې نه ده (3)
H1: زما کڅوړه زما په خونه کې ده (4)

که ما خپله کوټه وپلټله او زما کڅوړه یې وموندله، عالي، زه کولی شم د ناپاک فرضیه رد کړم. مګر که ما د کوټې شاوخوا وګورم او خپل کڅوړه ونه موندلم (شکل 1)، زه باید کومه پایله راوړم؟ ایا زه ډاډه یم چې دا شتون نلري؟ ایا زه په کافي اندازه سخت ښکارم؟ که زه یوازې د کوټې 80٪ پلټنه وکړم؟ دې پایلې ته رسیدل چې کڅوړه یقینا په خونه کې نه وي د ګړندي پریکړه به وي. د حیرانتیا خبره نده چې موږ نشو کولی "نیم فرضیه ومنو."

هغه سیمه چې موږ یې پلټل
موږ کڅوړه ونه موندله - ایا موږ باید د نیمګړتیا فرضیه ومنو؟

شکل 1: د یوې کوټې 80٪ پلټنه تقریبا د 80٪ بریښنا سره د لټون په څیر ده. که تاسو د کوټې 80٪ لیدو وروسته کڅوړه ونه مومئ ، ایا تاسو پایله کولی شئ چې دا شتون نلري؟

نو پدې حالت کې د معلوماتو ساینس پوه باید څه وکړي؟ تاسو کولی شئ د مطالعې ځواک خورا ډیر کړئ، مګر بیا به تاسو د نمونې لوی اندازې ته اړتیا ولرئ او پایله به لا هم د قناعت وړ نه وي.

خوشبختانه، دا ډول ستونزې د اوږدې مودې لپاره د کلینیکي څیړنو په نړۍ کې مطالعه شوي. درمل B د مخدره توکو په پرتله ارزانه دي؛ تمه کیږي چې د درملو B د درملو په پرتله لږ اړخیزې اغیزې رامینځته کړي. درمل B د لیږدولو لپاره اسانه دي ځکه چې دا اړتیا نلري چې یخچال ته واچول شي، مګر درمل A کوي. راځئ چې د غیر کموالي فرضیه وڅیړو. دا د دې ښودلو لپاره چې نسخه B د نسخې A په څیر ښه ده — لږترلږه په یو څه دمخه ټاکل شوي غیر انتفاعي حاشیه کې، Δ. موږ به لږ وروسته د دې حد ټاکلو څرنګوالي په اړه نور خبرې وکړو. مګر د اوس لپاره راځئ چې فرض کړو چې دا ترټولو کوچنی توپیر دی چې په عملي توګه معنی لري (د کلینیکي آزموینې په شرایطو کې، دا معمولا د کلینیکي اهمیت په نوم یادیږي).

د بې کفایتۍ فرضیه هر څه په خپل سر بدلوي:

اوس، د دې پر ځای چې ګومان وکړو چې هیڅ توپیر نشته، موږ به دا فرض کړو چې B نسخه د A نسخه څخه بدتر دی، او موږ به په دې انګیرنې سره ودریږو تر څو چې موږ وښیو چې دا قضیه نه ده. دا دقیقا هغه شیبه ده کله چې دا د یو اړخیز فرضیې ازموینې کارولو لپاره معنی لري! په عمل کې، دا د باور وقفې په جوړولو سره ترسره کیدی شي او دا معلومه کړي چې آیا وقفه په حقیقت کې د Δ (2 شکل) څخه لوی دی.

Δ وټاکئ

څنګه سمه Δ غوره کړئ؟ د Δ انتخاب په پروسه کې احصایوي توجیه او د پام وړ ارزونه شامله ده. د کلینیکي څیړنې په نړۍ کې، داسې تنظیمي لارښوونې شتون لري چې دا حکم کوي چې ډیلټا باید د کلینیکي پلوه ترټولو کوچنی توپیر استازیتوب وکړي - یو چې په عمل کې به توپیر رامنځته کړي. دلته د اروپایی لارښوونو څخه یو اقتباس دی چې خپل ځان و ازمویئ: "که توپیر په سمه توګه غوره شوی وي، د باور وقفه چې په بشپړ ډول د –∆ او 0 تر منځ شتون لري ... لاهم د غیر کموالي ښودلو لپاره کافي دی. که دا پایله د منلو وړ نه وي، دا پدې مانا ده چې ∆ په سمه توګه نه و ټاکل شوی.

ډیلټا باید حتما د ریښتیني کنټرول سره اړوند د A نسخې اغیزې اندازې څخه ډیر نه وي (پلیسیبو / هیڅ درملنه) ، ځکه چې دا موږ ته د دې لامل کیږي چې ووایو چې B نسخه د ریښتیني کنټرول څخه بدتر دی ، پداسې حال کې چې په ورته وخت کې د "غیر ټیټوالي" ښودنه کوي. " راځئ فرض کړو چې کله A نسخه معرفي شوه، دا د 0 نسخه لخوا بدله شوې وه یا دا ځانګړتیا شتون نلري (شکل 3 وګورئ).

د غوره والي فرضیې د ازموینې د پایلو پراساس، د اغیز اندازه E څرګنده شوه (دا احتمال لري μ^A−μ^0=E). اوس A زموږ نوی معیار دی، او موږ غواړو ډاډ ترلاسه کړو چې B د A په څیر ښه دی. د μB-μA≤−Δ (نال فرضیه) لیکلو بله لاره μB≤μA−Δ ده. که فرض کړو چې دا د E سره مساوي یا لوی دی نو بیا μB ≤ μA−E ≤ placebo. اوس موږ ګورو چې د μB لپاره زموږ اټکل په بشپړ ډول د μA−E څخه ډیر دی، کوم چې په دې توګه په بشپړ ډول ناپاک فرضیه ردوي او موږ ته اجازه راکوي چې پایلې ته ورسوو چې B د A په څیر ښه دی، مګر په ورته وخت کې μB کیدای شي ≤ μ پلیسبو وي، کوم چې د قضیه. موږ څه ته اړتیا لرو. (شکل 3).

شکل 3. د غیر کموالی حاشیه غوره کولو د خطرونو څرګندونه. که کټ آف ډیر لوړ وي، نو دا نتیجه اخیستل کیدی شي چې B د A څخه کم نه دی، مګر په ورته وخت کې د پلیسبو څخه توپیر نلري. موږ به داسې درمل تبادله نه کړو چې د پلیسبو (A) په پرتله په څرګنده توګه د هغه درملو لپاره چې د پلیسبو په څیر اغیزمن وي.

د α انتخاب

راځئ چې د α غوره کولو ته لاړ شو. تاسو کولی شئ معیاري ارزښت α = 0,05 وکاروئ، مګر دا په بشپړ ډول عادلانه ندي. لکه، د مثال په توګه، کله چې تاسو آنلاین یو څه واخلئ او په یوځل کې د ډیری تخفیف کوډونه وکاروئ، که څه هم دوی باید یوځای نشي - پراختیا کونکي یوازې یوه تېروتنه وکړه، او تاسو له هغې سره مخ شو. د اصولو له مخې، د α ارزښت باید د α د نیمایي ارزښت سره مساوي وي چې د غوره والي فرضیې ازموینې په وخت کې کارول کیږي، دا 0,05 / 2 = 0,025 دی.

د نمونې اندازه

د نمونې اندازه څنګه اټکل کړئ؟ که تاسو په دې باور یاست چې د A او B ترمنځ ریښتیني اوسط توپیر 0 دی، نو د نمونې اندازې محاسبه ورته ده لکه څنګه چې د غوره والي فرضیې معاینه کوي، پرته له دې چې تاسو د اغیز اندازه د غیر کموالي حاشیې سره بدله کړئ، په دې شرط چې تاسو کاروئ. α غیر ټیټ موثریت = 1/2 α لوړوالی ( α غیر کموالی = 1/2 α برتری). که تاسو د دې دلیل لرئ چې باور ولرئ چې اختیار B ممکن د اختیار A څخه یو څه بد وي، مګر تاسو غواړئ ثابت کړئ چې دا د Δ څخه ډیر بد نه دی، نو تاسو په قسمت کې یاست! دا په حقیقت کې ستاسو د نمونې اندازه کموي ځکه چې دا په اسانۍ سره ښودل کیږي چې B د A څخه بد دی که تاسو واقعیا فکر کوئ چې دا د مساوي په پرتله یو څه خراب دی.

د حل سره مثال

راځئ چې ووایو چې تاسو B نسخه ته وده کول غواړئ، په دې شرط چې دا د 0,1-پوائنټ پیرودونکي رضایت پیمانه کې د A نسخه څخه د 5 ټکي څخه ډیر خراب نه وي ... راځئ چې د غوره والی فرضیې په کارولو سره دې ستونزې ته ورسیږو.

د غوره والي فرضیې ازموینې لپاره، موږ به د نمونې اندازه په لاندې ډول محاسبه کړو:

دا دی، که تاسو په خپل ګروپ کې 2103 کتنې لرئ، تاسو 90٪ ډاډه یاست چې تاسو به د 0,10 یا لوی تاثیر اندازه ومومئ. مګر که ستاسو لپاره 0,10 خورا لوړ وي، نو دا ممکن د غوره والي فرضیې ازموینې ارزښت ونلري. د خوندي اړخ لپاره، تاسو ممکن پریکړه وکړئ چې مطالعه د کوچني اغیزې اندازې لپاره پرمخ بوځي، لکه 0,05. په دې حالت کې، تاسو به 8407 مشاهدو ته اړتیا ولرئ، دا دی، نمونه به نږدې 4 ځله زیاته شي. مګر څه که موږ خپل اصلي نمونې اندازې ته ودروو، مګر ځواک 0,99 ته لوړ کړو ترڅو موږ خوندي وي که موږ مثبته پایله ترلاسه کړو؟ په دې حالت کې، د یوې ډلې لپاره n به 3676 وي، کوم چې لا دمخه ښه دی، مګر د نمونې اندازه د 50٪ څخه زیات کوي. او د پایلې په توګه، موږ به اوس هم په ساده ډول ونه توانیږو چې د فرضي فرضیې رد کړو، او موږ به زموږ د پوښتنې ځواب ترلاسه نکړو.

څه که چیرې موږ د دې پرځای د غیر انتفاعي فرضیې ازموینه وکړو؟

د نمونې اندازه به د ورته فارمول په کارولو سره محاسبه شي پرته له ډینومینټر څخه.
د غوره والي فرضیې ازموینې لپاره کارول شوي فارمول څخه توپیرونه په لاندې ډول دي:

— Z1−α/2 د Z1−α لخوا بدل شوی، مګر که تاسو د قواعدو سره سم هرڅه ترسره کوئ، تاسو α = 0,05 د α = 0,025 سره بدل کړئ، دا هماغه شمیره ده (1,96)

- (μB−μA) په هرډول کې ښکاري

- θ (د اغیز اندازه) د Δ (د غیر کموالي حاشیه) سره بدله شوې

که فرض کړو چې µB = µA، نو (µB − µA) = 0 او د غیر کموالي حاشیې لپاره د نمونې اندازې محاسبه دقیقا هغه څه دي چې موږ به یې ترلاسه کړو که چیرې موږ د 0,1 اغیزې اندازې لپاره غوره والی محاسبه کړو، ښه! موږ کولی شو د ورته اندازې مطالعه د مختلف فرضیو او پایلو لپاره مختلف چلند سره ترسره کړو، او موږ به د هغه پوښتنې ځواب ترلاسه کړو چې موږ یې واقعیا ځواب غواړو.

اوس فرض کړئ چې موږ واقعیا فکر نه کوو چې µB = µA او
موږ فکر کوو چې µB یو څه بد دی ، شاید د 0,01 واحدونو لخوا. دا زموږ د هر ګروپ د نمونې اندازه 1737 ته راټیټوي.

څه پیښیږي که چیرې B نسخه واقعیا د A نسخې څخه غوره وي؟ موږ هغه ناپاک فرضیه ردوو چې B د A څخه د Δ څخه ډیر بد دی او بدیل فرضیه منو چې B، که بدتر وي، د Δ په پرتله د A څخه بد ندی او ممکن غوره وي. هڅه وکړئ دا پایله په کراس-فعالي پریزنټشن کې واچوئ او وګورئ چې څه پیښیږي (په جدي توګه ، هڅه وکړئ). په راتلونکی حالت کې، هیڅوک نه غواړي چې "د Δ څخه ډیر بد او شاید ښه" لپاره حل کړي.

په دې حالت کې، موږ کولی شو یوه مطالعه ترسره کړو، کوم چې په لنډ ډول ویل کیږي "د فرضیې ازموینه چې یو انتخاب له بل څخه غوره یا ټیټ دی." دا د فرضیې دوه سیټونه کاروي:

لومړی ټولګه (د غیر کموالي فرضیې ازموینې په څیر):

دوهم سیټ (د غوره والي فرضیې ازموینې په څیر)

موږ دوهم فرضیه یوازې هغه وخت ازموینه کوو چې لومړی یې رد شي. کله چې په ترتیب سره ازموینه وکړو، موږ د عمومي ډول I تېروتنې کچه ساتو (α). په عمل کې، دا د وسیلو او ازموینې ترمینځ د توپیر لپاره د 95٪ باور وقفې رامینځته کولو سره ترلاسه کیدی شي ترڅو معلومه کړي چې ایا ټوله وقفه له -Δ څخه لوی دی. که وقفه له -Δ څخه زیاته نه وي، موږ نشو کولی د صفر ارزښت رد کړو او ودروو. که ټوله وقفه په حقیقت کې د −Δ څخه لوی وي، موږ به ادامه ورکړو او وګورو چې ایا وقفه 0 لري.

یو بل ډول څیړنه شتون لري چې موږ یې بحث نه دی کړی - د مساوات مطالعات.

د دې ډول مطالعاتو په ځای کې د غیر انتفاعي مطالعاتو او برعکس، مګر دوی په حقیقت کې یو مهم توپیر لري. د بې کفایتۍ محاکمه موخه دا ده چې وښيي اختیار B لږ تر لږه د A په څیر ښه دی. د مساوي محاکمې موخه دا ښودل کیږي چې دا اختیار B لږترلږه د A په څیر ښه دی. اختیار A د B په څیر ښه دی، کوم چې ډیر ستونزمن دی. په اصل کې، موږ هڅه کوو چې دا معلومه کړو چې آیا د وسیلو د توپیر لپاره د اعتماد ټول وقفه د −Δ او Δ ترمنځ ده. دا ډول مطالعات د نمونې لوی اندازې ته اړتیا لري او په لږ وخت کې ترسره کیږي. نو بل ځل چې تاسو یوه مطالعه ترسره کوئ په کوم کې چې ستاسو اصلي هدف دا دی چې ډاډ ترلاسه کړئ چې نوې نسخه نوره هم بده نه ده، د "نیم فرضیې په ردولو کې ناکامۍ" لپاره بسنه مه کوئ. که تاسو غواړئ یو واقعی مهم فرضیه ازموینه وکړئ، مختلف اختیارونه په پام کې ونیسئ.

سرچینه: www.habr.com

کله باید موږ د غیر کموالي فرضیه ازموینه وکړو؟

Δ وټاکئ

د α انتخاب

د نمونې اندازه

د حل سره مثال

Add a comment ځواب لغوه