Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?
Stitch Fix-ийн багийн нийтлэлд маркетинг болон бүтээгдэхүүний A/B туршилтанд дутуу бус туршилтын аргыг ашиглахыг санал болгож байна. Энэ арга нь туршилтаар хэмжигдээгүй ашиг тустай шинэ шийдлийг туршиж үзэхэд үнэхээр хэрэг болно.

Хамгийн энгийн жишээ бол зардлыг бууруулах явдал юм. Жишээлбэл, бид эхний хичээлийг хуваарилах үйл явцыг автоматжуулдаг боловч төгсгөл хүртэлх хөрвүүлэлтийг мэдэгдэхүйц бууруулахыг хүсэхгүй байна. Эсвэл бид хэрэглэгчдийн нэг сегментэд чиглэсэн өөрчлөлтүүдийг туршиж үзэхийн зэрэгцээ бусад сегментийн хөрвүүлэлтүүд төдийлөн буурахгүй байгаа эсэхийг шалгадаг (хэд хэдэн таамаглалыг шалгахдаа нэмэлт өөрчлөлтийн талаар бүү мартаарай).

Доорх бус зөрүүг зөв сонгох нь туршилтын дизайны үе шатанд нэмэлт бэрхшээлийг нэмэгдүүлдэг. Δ-г хэрхэн сонгох тухай асуултыг нийтлэлд тийм ч сайн тусгаагүй болно. Энэ сонголт нь эмнэлзүйн туршилтуудад бүрэн ил тод биш юм шиг санагдаж байна. тойм Доод бус байдлын талаархи эмнэлгийн нийтлэлүүд нь зөвхөн тэн хагас нь хил хязгаарыг сонгохыг зөвтгөдөг гэж мэдээлдэг бөгөөд ихэнхдээ эдгээр үндэслэлүүд нь хоёрдмол утгатай эсвэл дэлгэрэнгүй байдаггүй.

Ямар ч байсан энэ арга нь сонирхолтой санагдаж байна, учир нь... Шаардлагатай түүврийн хэмжээг багасгах замаар туршилтын хурдыг нэмэгдүүлж, улмаар шийдвэр гаргах хурдыг нэмэгдүүлэх боломжтой. - Дарья Мухина, Skyeng гар утасны програмын бүтээгдэхүүний шинжээч.

Stitch Fix баг нь янз бүрийн зүйлийг туршиж үзэх дуртай. Технологийн нийгэмлэг бүхэлдээ зарчмын хувьд туршилт явуулах дуртай. Сайтын аль хувилбар нь илүү олон хэрэглэгчдийг татдаг вэ - А эсвэл В? Зөвлөмж болгож буй загварын А хувилбар нь В хувилбараас илүү орлого олдог уу? Таамаглалыг шалгахын тулд бид статистикийн үндсэн хичээлээс хамгийн энгийн аргыг бараг үргэлж ашигладаг.

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Хэдийгээр бид энэ нэр томъёог бараг ашигладаггүй ч туршилтын энэ хэлбэрийг "дээд зэргийн таамаглалыг шалгах" гэж нэрлэдэг. Энэ аргын хувьд бид хоёр сонголтын хооронд ямар ч ялгаа байхгүй гэж үзэж байна. Бид энэ санаагаа тууштай баримталж, өгөгдөл нь үүнийг хийхэд хангалттай анхаарал татахуйц байвал үүнийг орхих болно, өөрөөр хэлбэл, энэ нь сонголтуудын аль нэг нь (А эсвэл В) нөгөөгөөсөө дээр гэдгийг харуулж байна.

Давуу байдлын таамаглалыг шалгах нь янз бүрийн асуудалд тохиромжтой. Бид санал болгож буй загварын B хувилбарыг аль хэдийн ашиглагдаж байгаа А хувилбараас илүү сайн байгаа тохиолдолд л гаргадаг. Гэхдээ зарим тохиолдолд энэ арга тийм ч сайн ажиллахгүй байна. Хэд хэдэн жишээг харцгаая.

1) Бид гуравдагч талын үйлчилгээг ашигладаг, энэ нь хуурамч банкны картыг илрүүлэхэд тусалдаг. Бид хамаагүй бага өртөгтэй өөр үйлчилгээг оллоо. Хэрэв бидний одоогийн хэрэглэж байгаа үйлчилгээ шиг хямд үйлчилгээ үр дүнтэй бол бид үүнийг сонгох болно. Энэ нь таны хэрэглэж буй үйлчилгээнээс илүү байх албагүй.

2) Бид мэдээллийн эх сурвалжаас татгалзахыг хүсч байна A ба үүнийг мэдээллийн эх сурвалж Б-ээр солино. Хэрэв B маш муу үр дүн гарвал бид А-г орхихыг хойшлуулж болох ч A-г үргэлжлүүлэн ашиглах боломжгүй.

3) Бид загварчлах арга барилаас шилжихийг хүсч байнаА-аас В хүртэлх арга барил нь бид Б-ээс илүү сайн үр дүн хүлээж байгаадаа биш, харин энэ нь бидэнд үйл ажиллагааны уян хатан байдлыг өгдөг. Б-г улам дордуулна гэж итгэх үндэслэл бидэнд байхгүй, гэхдээ ийм тохиолдолд бид шилжилтийг хийхгүй.

4) Бид хэд хэдэн чанарын өөрчлөлт хийсэн вэб сайтын дизайн (хувилбар В) болон энэ хувилбар нь А хувилбараас давуу гэж үзэж байна. Бид хөрвүүлэлт эсвэл вэб сайтыг ихэвчлэн үнэлдэг гүйцэтгэлийн гол үзүүлэлтүүдийн аль нэгийг өөрчлөхийг хүлээхгүй. Гэхдээ хэмжигдэх боломжгүй эсвэл манай технологи хэмжихэд хангалтгүй параметрүүдэд ашиг тус байгаа гэдэгт бид итгэдэг.

Эдгээр бүх тохиолдолд давуу байдлын судалгаа нь хамгийн тохиромжтой шийдэл биш юм. Гэхдээ ийм нөхцөлд ихэнх мэргэжилтнүүд үүнийг анхдагч байдлаар ашигладаг. Үр нөлөөний хэмжээг зөв тодорхойлохын тулд бид туршилтыг сайтар хийдэг. Хэрэв А ба В хувилбарууд хоорондоо маш төстэй ажилладаг нь үнэн байсан бол бид тэг таамаглалыг үгүйсгэхгүй байх магадлалтай. А ба В хоёр үндсэндээ ижилхэн ажилладаг гэж бид дүгнэж байна уу? Үгүй! Тэг таамаглалыг үгүйсгэхгүй, тэг таамаглалыг хүлээн зөвшөөрөх нь ижил зүйл биш юм.

Түүврийн хэмжээг тооцоолохдоо (мэдээж та үүнийг хийсэн) II төрлийн алдаанаас (татгалзах боломжгүй байх магадлал) I төрлийн алдааг (хэг таамаглалыг ихэвчлэн альфа гэж нэрлэдэг) үгүйсгэж чадахгүй байх магадлал) илүү хатуу хязгаарлалттайгаар хийдэг. тэг таамаглал, тэг таамаглал худал байх нөхцөлийг харгалзан ихэвчлэн бета гэж нэрлэдэг). Альфагийн ердийн утга нь 0,05, харин бетагийн ердийн утга нь 0,20 бөгөөд статистикийн хувьд 0,80 байна. Энэ нь бидний эрчим хүчний тооцоололд заасан хэмжигдэхүүний бодит үр нөлөөг алдах магадлал 20% байна гэсэн үг бөгөөд энэ нь мэдээллийн нэлээд ноцтой цоорхой юм. Жишээ болгон дараах таамаглалуудыг авч үзье.

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

H0: миний үүргэвч миний өрөөнд БАЙХГҮЙ (3)
H1: миний үүргэвч миний өрөөнд байна (4)

Хэрэв би өрөөгөө хайж, үүргэвчээ олвол гайхалтай, би тэг таамаглалыг үгүйсгэж чадна. Гэхдээ би өрөөг тойруулан хараад үүргэвчээ олж чадаагүй бол (Зураг 1) ямар дүгнэлт хийх ёстой вэ? Тэнд байхгүй гэдэгт би итгэлтэй байна уу? Би хангалттай ширүүн харсан уу? Хэрэв би өрөөний 80%-ийг л хайвал яах вэ? Өрөөнд үүргэвчиндээ ороогүй байна гэж дүгнэх нь яаруу шийдвэр байх болно. Бид "тэгш таамаглалыг" хүлээн зөвшөөрч чадахгүйд гайхах зүйл алга.
Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?
Бидний хайсан газар
Бид үүргэвчээ олсонгүй - бид тэг таамаглалыг хүлээн зөвшөөрөх ёстой юу?

Зураг 1: Өрөөний 80%-ийг хайх нь 80%-ийн хүчээр хайлт хийхтэй бараг ижил юм. Өрөөний 80%-ийг үзээд үүргэвчээ олоогүй бол байхгүй байна гэж дүгнэж болох уу?

Ийм нөхцөлд өгөгдөл судлаач юу хийх ёстой вэ? Та судалгааны хүчийг ихээхэн нэмэгдүүлэх боломжтой, гэхдээ дараа нь танд илүү том түүврийн хэмжээ хэрэгтэй бөгөөд үр дүн нь хангалтгүй хэвээр байх болно.

Аз болоход, ийм асуудлуудыг дэлхийн клиник судалгааны чиглэлээр удаан хугацаанд судалж ирсэн. Б эм нь А эмээс хямд байдаг; Б эм нь А эмээс бага гаж нөлөө үзүүлдэг; Б эмийг хөргөгчинд хадгалах шаардлагагүй, харин А эмийг тээвэрлэхэд хялбар байдаг. Дутуу бус гэсэн таамаглалыг шалгая. Энэ нь В хувилбар нь А хувилбараас дутуугүй сайн гэдгийг харуулахын тулд юм - ядаж урьдчилан тодорхойлсон Δ хязгаарын дотор. Энэ хязгаарыг хэрхэн тогтоох талаар бид бага зэрэг дараа ярих болно. Гэхдээ одоохондоо энэ нь практик ач холбогдолтой хамгийн бага ялгаа гэж үзье (эмнэлзүйн туршилтуудын хүрээнд үүнийг ихэвчлэн эмнэлзүйн ач холбогдол гэж нэрлэдэг).

Доод бус байдлын таамаглал нь бүх зүйлийг эргүүлдэг:

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Одоо бид ямар ч ялгаа байхгүй гэж бодохын оронд В хувилбарыг А хувилбараас муу гэж үзэх бөгөөд энэ нь тийм биш гэдгийг нотлох хүртлээ энэ таамаглалыг баримтална. Энэ бол нэг талын таамаглалын тестийг ашиглах нь утга учиртай мөч юм! Практикт үүнийг итгэлцлийн интервал байгуулж, интервал Δ-ээс их эсэхийг тодорхойлох замаар хийж болно (Зураг 2).
Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Δ-г сонгоно уу

Хэрхэн зөв Δ сонгох вэ? Δ сонгох үйл явц нь статистик үндэслэл, бодит үнэлгээг агуулдаг. Эмнэлзүйн судалгааны ертөнцөд дельта нь эмнэлзүйн хувьд хамгийн бага ялгааг илэрхийлэх ёстойг заасан зохицуулалтын удирдамж байдаг бөгөөд энэ нь практикт өөрчлөлт оруулах болно. Өөрийгөө сорихын тулд Европын удирдамжийн ишлэлийг энд оруулав: "Хэрэв ялгааг зөв сонгосон бол -∆ ба 0 ... хооронд байгаа итгэлийн интервал нь бусдаас доогуур биш гэдгийг харуулахад хангалттай хэвээр байна. Хэрэв энэ үр дүн нь хүлээн зөвшөөрөгдөхгүй гэж үзвэл ∆-г зохих ёсоор сонгоогүй гэсэн үг.”

Дельта нь жинхэнэ хяналттай харьцуулахад А хувилбарын нөлөөллийн хэмжээнээс хэтрэхгүй байх ёстой (плацебо/эмчилгээгүй), учир нь энэ нь биднийг В хувилбар нь жинхэнэ хяналтаас муу гэж хэлэхэд хүргэж байгаа бөгөөд үүний зэрэгцээ "дород биш" гэдгийг харуулж байна. .” А хувилбарыг нэвтрүүлэх үед 0 хувилбараар солигдсон эсвэл функц нь огт байхгүй байсан гэж бодъё (Зураг 3-ыг үз).

Давуу байдлын таамаглалыг шалгасны үр дүнд E нөлөөний хэмжээ илэрсэн (өөрөөр хэлбэл μ^A−μ^0=E). Одоо А бол бидний шинэ стандарт бөгөөд бид B нь А-тай адил сайн эсэхийг шалгахыг хүсч байна. μB−μA≤−Δ (хэг таамаглал) бичих өөр нэг арга бол μB≤μA−Δ юм. Хэрэв бид do нь E-тэй тэнцүү эсвэл их байна гэж үзвэл μB ≤ μA−E ≤ плацебо болно. Одоо бид μB-ийн үнэлгээ нь μA−E-ээс бүрэн давж байгааг харж байгаа бөгөөд энэ нь тэг таамаглалыг бүрэн үгүйсгэж, B нь A-тай адил сайн гэсэн дүгнэлтэд хүрэх боломжийг олгодог, гэхдээ μB нь ≤ μ плацебо байж магадгүй бөгөөд энэ нь тийм биш юм. Бидэнд юу хэрэгтэй вэ. (Зураг 3).

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?
Зураг 3. Дутуу бус маржин сонгох эрсдэлийн жишээ. Хэрэв хязгаар хэт өндөр байвал В нь А-аас доогуур биш боловч нэгэн зэрэг плацебо-оос ялгагдахгүй гэж дүгнэж болно. Бид плацебо (A) -аас илүү үр дүнтэй эмийг плацебо шиг үр дүнтэй эмээр солихгүй.

α-ийн сонголт

α-г сонгохдоо үргэлжлүүлье. Та α = 0,05 стандарт утгыг ашиглаж болно, гэхдээ энэ нь бүхэлдээ шударга биш юм. Жишээлбэл, та онлайнаар ямар нэгэн зүйл худалдаж аваад хэд хэдэн хөнгөлөлтийн кодыг нэг дор ашиглах үед тэдгээрийг нэгтгэж болохгүй - хөгжүүлэгч зүгээр л алдаа гаргасан тул та үүнээс салсан. Дүрэм журмын дагуу α-ийн утга нь давуу байдлын таамаглалыг шалгахад ашигладаг α-ийн хагастай тэнцүү байх ёстой, өөрөөр хэлбэл 0,05 / 2 = 0,025.

Дээжийн хэмжээ

Түүврийн хэмжээг хэрхэн тооцоолох вэ? Хэрэв та А ба В хоёрын жинхэнэ дундаж зөрүү нь 0 гэж үзэж байгаа бол түүврийн хэмжээг тооцоолох нь давуу байдлын таамаглалыг шалгахтай адил байна, гэхдээ та нөлөөллийн хэмжээг дутуу бус маржингаар солихоос бусад тохиолдолд α бус бага үр ашиг = 1/2α давуу байдал (α бусдаас доогуур байдал=1/2αдавхар байдал). Хэрэв танд В хувилбар нь А хувилбараас арай муу байж магадгүй гэж итгэх үндэслэл байгаа ч Δ-ээс илүүгүй гэдгийг батлахыг хүсч байгаа бол та азтай байна! Энэ нь үнэндээ таны түүврийн хэмжээг багасгадаг, учир нь хэрэв та үүнийг тэнцүү биш харин арай муу гэж үзвэл B нь А-аас муу гэдгийг харуулах нь илүү хялбар байдаг.

Шийдэл бүхий жишээ

Хэрэглэгчийн сэтгэл ханамжийн үнэлгээний 0,1 онооны А хувилбараас 5 онооноос илүүгүй байх нөхцөлд та B хувилбар руу шилжихийг хүсч байна гэж бодъё... Давуу байдлын таамаглалыг ашиглан энэ асуудалд хандъя.

Давуу байдлын таамаглалыг шалгахын тулд бид түүврийн хэмжээг дараах байдлаар тооцоолно.

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Өөрөөр хэлбэл, хэрэв таны бүлэгт 2103 ажиглалт байгаа бол та 90 ба түүнээс дээш эффектийн хэмжээг олох болно гэдэгт 0,10% итгэлтэй байж болно. Гэхдээ 0,10 таны хувьд хэт өндөр байвал давуу байдлын таамаглалыг шалгах нь үнэ цэнэтэй зүйл биш байж магадгүй юм. Аюулгүй байдлын үүднээс та судалгааг 0,05 гэх мэт бага хэмжээний эффектийн хэмжээгээр явуулахаар шийдэж болно. Энэ тохиолдолд танд 8407 ажиглалт хэрэгтэй болно, өөрөөр хэлбэл дээж бараг 4 дахин нэмэгдэх болно. Гэхдээ бид анхны түүврийн хэмжээндээ наалдсан ч эерэг үр дүн гарвал аюулгүй байхын тулд хүчийг 0,99 болгож нэмэгдүүлбэл яах вэ? Энэ тохиолдолд нэг бүлгийн хувьд n нь 3676 байх бөгөөд энэ нь аль хэдийн илүү сайн боловч түүврийн хэмжээг 50% -иас илүү нэмэгдүүлдэг. Үүний үр дүнд бид тэг таамаглалыг няцаах боломжгүй хэвээр байгаа бөгөөд бид асуултынхаа хариуг хүлээж авахгүй.

Үүний оронд бид дутуу бус байдлын таамаглалыг туршиж үзвэл яах вэ?

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Түүврийн хэмжээг хуваагчаас бусад ижил томъёогоор тооцоолно.
Давуу байдлын таамаглалыг шалгахад ашигласан томъёоноос ялгаатай нь дараах байдалтай байна.

— Z1−α/2 нь Z1−α-аар солигдсон боловч хэрэв та бүх зүйлийг дүрмийн дагуу хийвэл α = 0,05-ыг α = 0,025-аар солино, өөрөөр хэлбэл энэ нь ижил тоо (1,96) болно.

— (μB−μA) хуваарьт гарч ирнэ

— θ (үр нөлөөний хэмжээ) нь Δ (доод байдлын хязгаар) -аар солигдоно.

Хэрэв бид μB = µA гэж үзвэл (μB − µA) = 0 байх ба түүврийн хэмжээнээс доогуур бус маржингийн тооцоолол нь 0,1-ийн нөлөөллийн хэмжээнээс давуу талыг тооцсон тохиолдолд яг авах болно, гайхалтай! Бид өөр өөр таамаглал, дүгнэлтэнд өөр хандлага бүхий ижил хэмжээтэй судалгаа хийж болох бөгөөд бид үнэхээр хариулахыг хүсч буй асуултынхаа хариултыг авах болно.

Одоо бид үнэндээ μB = µA ба гэж бодохгүй байна гэж бодъё
Бид μB нь арай муу, магадгүй 0,01 нэгжээр байна гэж бодож байна. Энэ нь бидний хуваагчийг нэмэгдүүлж, бүлэгт ногдох түүврийн хэмжээг 1737 болгон бууруулж байна.

Хэрэв В хувилбар нь А хувилбараас илүү байвал яах вэ? Бид В нь А-аас Δ-ээс илүү муу гэсэн тэг таамаглалыг няцааж, B нь муу бол А-аас Δ-ээс муугүй, илүү сайн байж магадгүй гэсэн өөр таамаглалыг хүлээн зөвшөөрч байна. Энэ дүгнэлтийг хөндлөнгийн функциональ танилцуулгад оруулаад юу болсныг хараарай (ноцтойгоор оролдоод үзээрэй). Ирээдүйг харсан нөхцөл байдалд хэн ч “Δ илүү муу, магадгүй илүү сайн” гэж бодохыг хүсдэггүй.

Энэ тохиолдолд бид "аль нэг хувилбар нь нөгөөгөөсөө давуу эсвэл доогуур гэсэн таамаглалыг шалгах" гэж маш товчхон судалгаа хийж болно. Энэ нь хоёр багц таамаглалыг ашигладаг:

Эхний багц (дород бус таамаглалыг шалгахтай адил):

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Хоёрдахь багц (давуу байдлын таамаглалыг шалгахтай адил):

Бид дутуу бус байдлын таамаглалыг хэзээ шалгах ёстой вэ?

Эхний таамаглалыг үгүйсгэсэн тохиолдолд л бид хоёр дахь таамаглалыг шалгана. Дараалсан тест хийхдээ бид I төрлийн алдааны нийт түвшинг (α) хадгалдаг. Практикт энэ нь бүхэл бүтэн интервал нь -Δ-ээс их эсэхийг тодорхойлох арга ба туршилтын хоорондох зөрүүнд 95% итгэлийн интервал үүсгэснээр хүрч болно. Хэрэв интервал нь -Δ-ээс хэтрэхгүй бол бид тэг утгыг үгүйсгэж, зогсоож чадахгүй. Хэрэв бүхэл бүтэн интервал үнэхээр −Δ-ээс их байвал бид үргэлжлүүлж, интервал 0-тэй эсэхийг харах болно.

Бидний хэлэлцээгүй өөр нэг төрлийн судалгаа байдаг - эквивалент судалгаа.

Эдгээр төрлийн судалгааг бусдаас ялгарах судалгаа эсвэл эсрэгээр сольж болох боловч үнэндээ чухал ялгаа бий. Доод бус байдлын туршилт нь В хувилбар нь А-тай адил сайн гэдгийг харуулахыг зорьдог. Тэнцүүлэх туршилт нь В хувилбар нь А-тай адил сайн гэдгийг харуулахыг зорьдог. Үндсэндээ бид утгын зөрүүний итгэлийн интервал бүхэлдээ −Δ ба Δ хооронд байгаа эсэхийг тодорхойлохыг оролдож байна. Ийм судалгаа нь илүү том түүврийн хэмжээг шаарддаг бөгөөд бага давтамжтайгаар хийгддэг. Тиймээс дараагийн удаад та шинэ хувилбарыг илүү муу болгохгүйн тулд гол зорилгоо болгосон судалгаа хийхдээ "тэгш таамаглалаас татгалзаж чадахгүй" гэж бүү шийдээрэй. Хэрэв та үнэхээр чухал таамаглалыг шалгахыг хүсч байвал өөр өөр хувилбаруудыг анхаарч үзээрэй.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх