ڊيٽا سائنس مان چارليٽن کي ڪيئن سڃاڻڻ؟

ڊيٽا سائنس مان چارليٽن کي ڪيئن سڃاڻڻ؟
توهان شايد تجزيه نگارن، مشيني سکيا ۽ مصنوعي ذهانت جي ماهرن جي باري ۾ ٻڌو هوندو، پر ڇا توهان انهن بابت ٻڌو آهي، جيڪي غير مستحق طور تي وڌيڪ ادا ڪيل آهن؟ ملن ڊيٽا charlatan! اهي چالباز، منافعي واري نوڪريءَ جي لالچ ۾، حقيقي ڊيٽا سائنسدانن کي بدنام ڪن ٿا. مواد ۾ اسان سمجھندا آهيون ته اهڙن ماڻهن کي صاف پاڻي ڪيئن پهچايو وڃي.

ڊيٽا چارليٽن هر جڳهه آهن

ڊيٽا چارليٽن تمام سٺا آهن لڪائڻ ۾ صاف نظر ۾ جيڪي توهان ڪري سگهو ٿا انهن مان هڪ ٿيان کي سمجهڻ کان سواءِ. امڪان آهن ته توهان جي تنظيم انهن اسڪيمرز کي سالن تائين پناهه ڏئي رهي آهي، پر سٺي خبر اها آهي ته اهي سڃاڻپ ڪرڻ آسان آهن جيڪڏهن توهان کي خبر آهي ته ڇا ڳولڻ گهرجي.
پهرين ڊيڄاريندڙ نشاني سمجهي نه ٿي ڇا تجزياتي ۽ انگ اکر بلڪل مختلف شعبا آهن. مان هن کي وڌيڪ وضاحت ڪندس.

متفرق شعبا

انگن اکرن کي تربيت ڏني وئي آهي ته نتيجن کي ڪڍڻ لاء انهن جي ڊيٽا کان ٻاهر ڇا آهي، تجزيه نگارن کي تربيت ڏني وئي آهي ڊيٽا سيٽ جي مواد جو مطالعو ڪرڻ لاء. ٻين لفظن ۾، تجزيه نگار نتيجو ڪڍن ٿا ته انهن جي ڊيٽا ۾ ڇا آهي، ۽ شماريات دان اهو نتيجو ڪڍن ٿا ته ڊيٽا ۾ ڇا ناهي. تجزيهڪار توهان کي سٺا سوال پڇڻ ۾ مدد ڪندا آهن (انداز)، ۽ انگ اکر توهان کي سٺا جواب حاصل ڪرڻ ۾ مدد ڪندا آهن (ٽيسٽ مفروضا).

اتي به عجيب و غريب ڪردار آهن جتي انسان ٻن ڪرسي تي ويهڻ جي ڪوشش ڪري ٿو... ڇو نه؟ ڊيٽا سائنس جو بنيادي اصول: جيڪڏهن توهان غير يقيني صورتحال سان معاملو ڪري رهيا آهيو، استعمال نه ڪريو ساڳيو hypotheses ۽ جاچ لاء ڊيٽا پوائنٽ. جڏهن ڊيٽا محدود آهي، غير يقيني صورتحال هڪ کي انگ اکر يا تجزياتي جي وچ ۾ چونڊڻ لاء مجبور ڪري ٿي. وضاحت هتي.

انگن اکرن جي بغير، توهان ڦاسي پيا ۽ اهو سمجهڻ کان قاصر ٿي ويندا ته ڇا توهان جيڪو فيصلو ٺاهيو آهي اهو تنقيد تي بيٺل آهي، ۽ تجزيو ڪرڻ کان سواء، توهان انڌا ٿي رهيا آهيو، اڻڄاتل کي ڇڪڻ جو ٿورو موقعو آهي. هي هڪ ڏکيو انتخاب آهي.

هن گندگي مان نڪرڻ جو رستو اهو آهي ته ان کي نظر انداز ڪرڻ ۽ پوء حيران ٿيڻ جو مظاهرو ڪيو ته اوچتو ڇا اچي ٿو. شمارياتي مفروضن کي جانچڻ جي پويان منطق اهو پڇڻ تي زور ڏئي ٿو ته ڇا ڊيٽا اسان کي حيران ڪري ٿي اسان جي ذهنن کي تبديل ڪرڻ لاءِ. اسان ڊيٽا کي ڪيئن حيران ڪري سگهون ٿا جيڪڏهن اسان اڳ ۾ ئي ڏٺو آهي؟

جڏهن به چارليٽن هڪ نمونو ڳوليندا آهن ته اهي متاثر ڪن ٿا پوءِ ٽيسٽ ساڳي ڊيٽا لاء ساڳيو نمونو، نتيجو شايع ڪرڻ لاءِ هڪ جائز p-value يا ٻن سان، انهن جي نظريي جي اڳيان. اهڙيء طرح، اهي توهان سان ڪوڙ ڳالهائي رهيا آهن (۽، شايد، پاڻ کي پڻ). هي p-value ڪوئي فرق نٿو پوي جيڪڏهن توهان پنهنجي مفروضي تي قائم نه آهيو ڪرڻ توهان پنهنجي ڊيٽا کي ڪيئن ٿا ڏسو. چارليٽنس سببن کي سمجهڻ کان سواءِ تجزيه نگارن ۽ شمارياتي ماهرن جي عملن جي تقليد ڪندا آهن. نتيجي طور، ڊيٽا سائنس جو سڄو فيلڊ خراب ريپ حاصل ڪري رهيو آهي.

سچا شماريات دان هميشه پنهنجا نتيجا ڪڍندا آهن

سخت دليلن جي لاءِ شمارياتي ماهرن جي لڳ ڀڳ صوفياتي شهرت جي مهرباني، ڊيٽا سائنس ۾ جعلي معلومات جو مقدار هر وقت بلند آهي. اهو ٺڳي ڪرڻ آسان آهي ۽ نه پڪڙيو وڃي، خاص طور تي جيڪڏهن اڻڄاتل شڪار سمجهي ٿو ته اهو سڀ ڪجهه مساوات ۽ ڊيٽا بابت آهي. هڪ dataset هڪ dataset آهي، صحيح؟ نه. اهو معاملو آهي ته توهان ان کي ڪيئن استعمال ڪندا آهيو.

خوش قسمت، توهان کي چارليٽن کي پڪڙڻ لاء صرف هڪ اشارو جي ضرورت آهي: اهي "حقيقت کان پوء آمريڪا کي ٻيهر دريافت ڪن ٿا." ٻيهر دريافت ڪرڻ وارو رجحان جيڪي اهي پهريان ئي ڄاڻن ٿا ڊيٽا ۾ موجود آهن.

چارليٽن جي برعڪس، سٺا تجزيه نگار کليل ذهن وارا آهن ۽ سمجهن ٿا ته متاثر ڪندڙ خيالن جا ڪيترائي مختلف وضاحتون ٿي سگهن ٿيون. ساڳئي وقت، سٺا شمارياتي ماهر احتياط سان وضاحت ڪن ٿا انهن جا نتيجا ڪڍڻ کان اڳ.

تجزيه نگار ذميواري کان آزاد آهن ... جيستائين اهي انهن جي ڊيٽا کان ٻاهر نه وڃن. جيڪڏهن اهي ڪجهه دعويٰ ڪرڻ جي لالچ ۾ آهن ته انهن نه ڏٺو آهي، اهو هڪ مختلف ڪم آهي. انهن کي گهرجي ته ”پنهنجا بوٽ لاهڻ“ هڪ تجزيه نگار جي حيثيت سان ۽ ”تبديل“ ڪري هڪ شمارياتي ماهر جي بوٽن ۾. آخرڪار، جيڪو به سرڪاري نوڪري جو عنوان هجي، اتي ڪو قاعدو ناهي جيڪو چوي ٿو ته توهان ٻنهي واپار جو مطالعو نٿا ڪري سگهو جيڪڏهن توهان چاهيو ٿا. بس ان کي پريشان نه ڪريو.

بس ان ڪري جو توهان انگ اکر ۾ سٺا آهيو ان جو مطلب اهو ناهي ته توهان اينالائيٽڪس ۾ سٺا آهيو، ۽ ان جي برعڪس. جيڪڏهن ڪو توهان کي ٻي صورت ۾ ٻڌائڻ جي ڪوشش ڪري رهيو آهي، توهان کي پنهنجي حفاظت تي رکڻ گهرجي. جيڪڏهن هي شخص توهان کي ٻڌائي ٿو ته توهان کي اجازت آهي ته توهان ڊيٽا تي هڪ شمارياتي انفرنس ڪڍڻ جي اجازت ڏني آهي جيڪا توهان اڳ ۾ ئي اڀياس ڪئي آهي، اهو هڪ سبب آهي ٻه ڀيرا محتاط ٿيڻ جو.

عجيب وضاحتون

جڏهن توهان جهنگلي ۾ ڊيٽا چارليٽن جو مشاهدو ڪندا، توهان کي خبر پوندي ته اهي خيالي ڪهاڻيون ٺاهڻ سان پيار ڪندا آهن "وضاحت" ڪيل ڊيٽا کي. جيترو وڌيڪ علمي اوترو بهتر. اهو مسئلو ناهي ته اهي ڪهاڻيون پوئتي پيل آهن.

جڏهن چارليٽن ائين ڪندا آهن - مون کي لفظن سان سخي ٿيڻ ڏيو - اهي ڪوڙ ڳالهائي رهيا آهن. مساواتن يا خوبصورت تصورن جو ڪو به مقدار ان حقيقت لاءِ نه ٺھيو ته انھن پنھنجي نسخن جو صفر ثبوت پيش ڪيو. حيرت نه ٿيو ته انهن جي وضاحت ڪيتري غير معمولي آهي.

اهو ساڳيو ئي آهي جيئن توهان جي "نفسياتي" صلاحيتن جو مظاهرو ڪندي پهرين توهان جي هٿن ۾ ڪارڊ ڏسي، ۽ پوء اڳڪٿي ڪريو جيڪو توهان وٽ آهي ... توهان ڇا رکون ٿا. اهو هڪ پسمانده تعصب آهي، ۽ ڊيٽا سائنسدان جو پيشو ان سان ڀريل آهي.

ڊيٽا سائنس مان چارليٽن کي ڪيئن سڃاڻڻ؟

تجزيه نگار چون ٿا ته: ”توهان ته هيرن جي راڻي سان گڏ هليا ويا“. شماريات جا ماهر چون ٿا، ”مون شروع ڪرڻ کان اڳ هن ڪاغذ تي پنهنجا مفروضا لکيا. اچو ته کيڏيون، ڪجهه ڊيٽا ڏسو ۽ ڏسو ته ڇا مان صحيح آهيان. چارليٽن چون ٿا، "مون کي خبر هئي ته تون هيرن جي راڻي ٿيڻ وارو آهين ڇو ته ..."

ڊيٽا ورهاڱي جو تڪڙو حل آهي جيڪو هر ڪنهن جي ضرورت آهي.

جڏهن گهڻو ڊيٽا نه آهي، توهان کي انگن اکرن ۽ تجزين جي وچ ۾ چونڊڻو پوندو، پر جڏهن ڪافي ڊيٽا کان وڌيڪ آهي، اتي هڪ بهترين موقعو آهي اينالائيٽڪس استعمال ڪرڻ جو بغير ڪنهن ٺڳيء جي. и شماريات. توهان وٽ چارليٽن جي خلاف مڪمل تحفظ آهي - هي ڊيٽا جي علحدگي آهي ۽، منهنجي خيال ۾، هي ڊيٽا سائنس ۾ سڀ کان وڌيڪ طاقتور خيال آهي.

پنهنجو پاڻ کي چارليٽن کان بچائڻ لاءِ، توهان کي صرف اهو ڪرڻو آهي ته توهان ڪجهه ٽيسٽ ڊيٽا کي انهن جي نظرن کان ٻاهر رکو ۽ پوءِ هر شيءِ کي تجزياتي طور سمجهيو. جڏهن توهان هڪ نظريو سان ملن ٿا ته توهان قبول ڪرڻ جو خطرو آهي، ان کي استعمال ڪريو صورتحال جو جائزو وٺڻ ۽ پوء پنهنجي ڳجهي ٽيسٽ ڊيٽا کي ظاهر ڪرڻ جي تصديق ڪرڻ لاء ته نظريو بيوقوف ناهي. اهو تمام سادو آهي!

ڊيٽا سائنس مان چارليٽن کي ڪيئن سڃاڻڻ؟
پڪ ڪريو ته ڪنهن کي به اجازت ناهي ته جاچ واري مرحلي دوران ٽيسٽ ڊيٽا کي ڏسڻ جي. هن کي ڪرڻ لاء، تحقيق ڊيٽا ڏانهن لٺ. ٽيسٽ ڊيٽا کي تجزيو لاء استعمال نه ڪيو وڃي.

اھو ھڪڙو وڏو قدم آھي جيڪو ماڻھو "ننڍي ڊيٽا" جي دور ۾ استعمال ڪيا ويا آھن، جتي توھان کي بيان ڪرڻو پوندو ته توھان ڪيئن ڄاڻو ٿا جيڪو توھان ڄاڻو ٿا آخرڪار ماڻھن کي قائل ڪرڻ لاءِ ته توھان واقعي ڪجھ ڄاڻو ٿا.

ML/AI تي ساڳيا ضابطا لاڳو ڪرڻ

ML/AI ماهرن جي حيثيت سان پيش ڪيل ڪجهه چارليٽن کي جڳهه ڪرڻ ۾ پڻ آسان آهي. توهان انهن کي پڪڙيندؤ جيئن توهان ڪنهن ٻئي خراب انجنيئر کي پڪڙيندا آهيو: "حل" اهي مسلسل ناڪام ٿيڻ جي ڪوشش ڪندا آهن. هڪ ابتدائي ڊيڄاريندڙ نشاني صنعت جي معياري ٻولين ۽ پروگرامنگ لائبريرين سان تجربو جي کوٽ آهي.

پر ڇا ماڻهن جي تعميراتي نظام بابت جيڪي ڪم ڪرڻ لڳي ٿو؟ توهان کي ڪيئن خبر آهي ته ڪجهه مشڪوڪ ٿي رهيو آهي؟ ساڳيو قاعدو لاڳو ٿئي ٿو! The Charlatan ھڪڙو خوفناڪ ڪردار آھي جيڪو توھان کي ڏيکاري ٿو ته ماڊل ڪيترو سٺو پرفارم ڪيو... ساڳي ڊيٽا تي اھي ماڊل ٺاھيندا ھئا.

جيڪڏهن توهان هڪ انتهائي پيچيده مشين سکيا وارو نظام ٺاهيو آهي، توهان کي ڪيئن خبر پوندي ته اهو ڪيترو سٺو آهي؟ توهان کي خبر نه پوندي جيستائين توهان هن کي ڏيکاريو ته هوء نئين ڊيٽا سان ڪم ڪري رهي آهي جيڪا هن اڳ ۾ نه ڏٺو آهي.

جڏهن توهان اڳڪٿي ڪرڻ کان اڳ ڊيٽا ڏٺو، اهو ممڪن ناهي اڳچوڻ.

جڏهن توهان وٽ ورهائڻ لاءِ ڪافي ڊيٽا آهي، توهان کي پنهنجي فارمولن جي خوبصورتي کي دعوت ڏيڻ جي ضرورت ناهي ته هڪ منصوبي کي درست ڪرڻ لاء (هڪ پراڻي فيشن واري عادت مون کي هر جڳهه ڏسڻ ۾ اچي ٿو، نه صرف سائنس ۾). توهان چئي سگهو ٿا: ”مان ڄاڻان ٿو اهو ڪم ڪري ٿو ڇاڪاڻ ته مان هڪ ڊيٽا سيٽ وٺي سگهان ٿو جيڪو مون اڳ نه ڏٺو آهي ۽ اڳڪٿي ڪريان ٿو ته اتي ڇا ٿيندو… ۽ مان صحيح ٿي ويندس. وري وري“.

نئين ڊيٽا جي خلاف توهان جي ماڊل / نظريي کي جانچڻ اعتماد جو بهترين بنياد آهي.

مان ڊيٽا چارليٽن کي برداشت نٿو ڪريان. مون کي پرواه ناهي ته توهان جي راء مختلف چپس تي ٻڌل آهي. مان وضاحتن جي خوبصورتي کان متاثر نه آهيان. مون کي ڏيکاريو ته توهان جو نظريو/ماڊل ڪم ڪري ٿو (۽ ڪم جاري آهي) نئين ڊيٽا جي هڪ حد تي جيڪو توهان اڳ ڪڏهن به نه ڏٺو آهي. اهو آهي حقيقي امتحان توهان جي راء جي طاقت جو.

ڊيٽا سائنسدانن سان رابطو ڪريو

جيڪڏھن توھان چاھيو ٿا ته ڪنھن کي سنجيدگيءَ سان ورتو وڃي جيڪو ھن مزاح کي سمجھي، پنھنجي ذاتي تعصب کي زنده رکڻ لاءِ فينسي مساواتن جي پويان لڪڻ بند ڪريو. ڏيکاريو جيڪو توهان وٽ آهي. جيڪڏھن توھان چاھيو ٿا ته جن کي ”حاصل“ ٿئي ٿو اھي توھان جي نظريي/ ماڊل کي صرف متاثر ڪندڙ شاعري کان وڌيڪ ڏسڻ لاءِ، جرئت رکو ته اھو شاندار نموني ڏيکاريو ته اھو ڪيترو سٺو ڪم ڪري ٿو ھڪڙي نئين ڊيٽا سيٽ تي... شاھدن جي سامھون!

اڳواڻن کي اپيل

ڊيٽا بابت ڪنهن به ”خيالن“ کي سنجيدگيءَ سان وٺڻ کان انڪار ڪيو جيستائين ان جي خلاف آزمائش نه ڪئي وڃي نئون ڊيٽا. ڪوشش ۾ رکڻ نٿا چاهيو؟ اينالائيٽڪس تي قائم رهو، پر انهن خيالن تي ڀروسو نه ڪريو - اهي ناقابل اعتبار آهن ۽ قابل اعتماد جي آزمائش نه ڪئي وئي آهي. انهي سان گڏ، جڏهن هڪ تنظيم وٽ ڊيٽا جي گهڻائي آهي، سائنس جي بنياد کي الڳ ڪرڻ ۽ ان کي بنيادي ڍانچي جي سطح تي برقرار رکڻ ۾ ڪو به نقصان نه آهي انگن اکرن لاء ٽيسٽ ڊيٽا تائين رسائي کي ڪنٽرول ڪندي. هي توهان کي بيوقوف بڻائڻ جي ڪوشش کي روڪڻ لاء هڪ بهترين طريقو آهي!

جيڪڏھن توھان چاھيو ٿا وڌيڪ مثال ڏسڻ لاءِ چارليٽن جو ڪجھھ خراب سازش ڪرڻ - هي هڪ بهترين Twitter موضوع آهي.

نتيجو

جڏهن ڊيٽا کي الڳ ڪرڻ لاءِ تمام ننڍڙو هوندو آهي، صرف چارليٽن انسپائريشن تي سختي سان عمل ڪرڻ جي ڪوشش ڪندو آهي، آمريڪا کي ماضيءَ ۾ دريافت ڪرڻ، رياضياتي طور تي ٻيهر دريافت ڪرڻ وارو واقعو اڳ ۾ ئي ڄاڻايل ڊيٽا ۾ موجود آهي، ۽ تعجب کي انگن اکرن جي لحاظ کان اهم قرار ڏئي ٿو. اهو انهن کي الهام سان معاملو ڪندڙ کليل ذهن رکندڙ تجزيه نگار کان ڌار ڪري ٿو ۽ اڳڪٿي ڪرڻ وقت محتاط شمارياتي پيش ڪندڙ ثبوت پيش ڪن ٿا.

جڏهن تمام گهڻو ڊيٽا آهي، ڊيٽا شيئر ڪرڻ جي عادت ۾ وڃو ته جيئن توهان ٻنهي دنيا جي بهترين حاصل ڪري سگهو ٿا! پڪ ڪريو ته تجزياتي ۽ انگ اکر الڳ الڳ الڳ سبسٽس لاءِ اصل ڊيٽا جي پائل لاءِ.

  • تجزيات توهان کي الهام ۽ نقطه نظر پيش ڪري ٿو.
  • شماريات توهان کي سخت ٽيسٽ پيش ڪري ٿو.
  • چارليٽنس توهان کي هڪ موڙيندڙ پٺڀرائي پيش ڪري ٿو جيڪا تجزياتي ۽ انگ اکر هجڻ جو مظاهرو ڪري ٿي.

شايد، مضمون پڙهڻ کان پوء، توهان سوچيو هوندو "ڇا مان هڪ چارليٽن آهيان"؟ هي ٺيڪ آهي. هن سوچ مان نجات حاصل ڪرڻ جا ٻه طريقا آهن: پهريون، پوئتي ڏسو، ڏسو ته توهان ڇا ڪيو آهي، ڇا توهان جي ڊيٽا سان ڪيل ڪم عملي فائدو کڻي آيو آهي. ۽ ٻيو، توهان اڃا تائين پنهنجي قابليت تي ڪم ڪري سگهو ٿا (جيڪو يقيناً ضرورت کان وڌيڪ نه هوندو)، خاص طور تي جڏهن اسان پنهنجي شاگردن کي عملي صلاحيتون ۽ ڄاڻ ڏيون ٿا جيڪي انهن کي حقيقي ڊيٽا سائنسدان بنائڻ جي اجازت ڏين ٿا.

ڊيٽا سائنس مان چارليٽن کي ڪيئن سڃاڻڻ؟

وڌيڪ ڪورس

وڌيڪ پڙهو

جو ذريعو: www.habr.com

تبصرو شامل ڪريو