وڏو Hadron Collider ۽ Odnoklassniki

Habré تي مشين لرننگ مقابلن جي موضوع کي جاري رکندي، اسان پڙهندڙن کي ٻن وڌيڪ پليٽ فارمن تي متعارف ڪرائڻ چاھيون ٿا. اهي يقيناً ڪيگل وانگر وڏا نه آهن، پر اهي ضرور ڌيان جا مستحق آهن.

وڏو Hadron Collider ۽ Odnoklassniki

ذاتي طور تي، مان ڪيترن ئي سببن لاء ڪگل تمام گهڻو پسند نٿو ڪريان:

  • پهرين، مقابلا اتي اڪثر ڪري ڪيترن ئي مهينن تائين رهي ٿو، ۽ فعال شموليت تمام گهڻي ڪوشش جي ضرورت آهي؛
  • ٻيو، عوامي ڪنيل (عوامي حل). ڪاگل جا پيروڪار انهن کي تبتي راهب جي آرام سان علاج ڪرڻ جي صلاح ڏين ٿا، پر حقيقت ۾ اها ڪافي شرم جي ڳالهه آهي جڏهن توهان هڪ يا ٻن مهينن کان ڪم ڪري رهيا آهيو اوچتو هر ڪنهن لاءِ چانديءَ جي پليٽ تي رکيل آهي.

خوشقسمتيءَ سان، مشيني سکيا جا مقابلا ٻين پليٽ فارمن تي منعقد ڪيا ويندا آهن، ۽ انهن مقابلن مان ڪجهه تي بحث ڪيو ويندو.

IDAO SNA Hackathon 2019
سرڪاري ٻولي: انگريزي،
منتظمين: Yandex، Sberbank، HSE
سرڪاري روسي ٻولي،
منتظمين: Mail.ru گروپ
آن لائين گول: جنوري 15 - فيبروري 11، 2019؛
آن سائيٽ فائنل: اپريل 4-6، 2019
آن لائن - فيبروري 7 کان مارچ 15 تائين؛
آف لائن - مارچ 30 کان اپريل 1 تائين.
Large Hadron Collider (Trajectory، Momentum، ۽ ٻيا پيچيده جسماني پيٽرول) ۾ ذري جي باري ۾ ڊيٽا جي هڪ خاص سيٽ کي استعمال ڪندي، اهو طئي ڪيو ته ڇا اهو ميون آهي يا نه.
هن بيان مان، 2 ڪمن جي نشاندهي ڪئي وئي:
- هڪ ۾ توهان کي صرف پنهنجي اڳڪٿي موڪلڻو هو،
- ۽ ٻئي ۾ - اڳڪٿي لاءِ مڪمل ڪوڊ ۽ ماڊل، ۽ عمل تي هلندڙ وقت ۽ ياداشت جي استعمال تي ڪافي سخت پابنديون هيون.
SNA Hackathon مقابلي لاءِ، استعمال ڪندڙ نيوز فيڊز ۾ کليل گروپن مان ڏيکاريل مواد جا لاگز فيبروري-مارچ 2018 لاءِ گڏ ڪيا ويا. ٽيسٽ سيٽ مارچ جي آخري هفتي ۽ اڌ تي مشتمل آهي. لاگ ۾ هر داخلا معلومات تي مشتمل آهي ته ڇا ڏيکاريو ويو ۽ ڪنهن کي، انهي سان گڏ صارف هن مواد تي ڪيئن رد عمل ڪيو: ان کي درجه بندي ڪيو، تبصرو ڪيو، ان کي نظرانداز ڪيو، يا ان کي فيڊ مان لڪائي ڇڏيو.
SNA Hackathon جي ڪمن جو خلاصو اهو آهي ته سماجي نيٽ ورڪ Odnoklassniki جي هر صارف کي سندس فيڊ جي درجه بندي ڪرڻ، ممڪن حد تائين انهن پوسٽن کي بلند ڪيو جيڪي "ڪلاس" حاصل ڪندا.
آن لائين اسٽيج تي، ڪم کي 3 حصن ۾ ورهايو ويو:
1. پوسٽن جي درجه بندي مختلف گڏيل خصوصيتن جي مطابق
2. پوسٽن جي درجه بندي انهن تصويرن جي بنياد تي جيڪي انهن تي مشتمل آهن
3. پوسٽن جي درجه بندي مطابق متن ۾ شامل آھن
پيچيده ڪسٽم ميٽرڪ، ROC-AUC وانگر ڪجهه صارف طرفان اوسط ROC-AUC
پهرين اسٽيج لاءِ انعام - اين جڳهن لاءِ ٽي شرٽس، ٻئي اسٽيج تي وڃڻ، جتي مقابلي دوران رهائش ۽ ماني ادا ڪئي وئي
ٻيو مرحلو - ؟؟؟ (ڪجهه سببن جي ڪري، مان انعام واري تقريب ۾ موجود نه هئس ۽ اهو معلوم نه ڪري سگهيو هوس ته آخر ۾ انعام ڪهڙا هئا). انهن کٽڻ واري ٽيم جي سڀني ميمبرن کي ليپ ٽاپ ڏيڻ جو واعدو ڪيو
پهرين اسٽيج لاءِ انعام - 100 بهترين شرڪت ڪندڙن لاءِ ٽي شرٽس، ٻئي اسٽيج تي وڃڻ، جتي ماسڪو جو سفر، مقابلي دوران رهائش ۽ ماني ادا ڪئي وئي. پڻ، پھرين اسٽيج جي پڄاڻي تي، اسٽيج 3 تي 1 ڪمن ۾ بھترين لاءِ انعامن جو اعلان ڪيو ويو: ھر ڪنھن ھڪ RTX 2080 TI وڊيو ڪارڊ کٽيو!
ٻيو مرحلو هڪ ٽيم اسٽيج هو، ٽيمون 2 کان 5 ماڻهن تي مشتمل هيون، انعام:
پهرين جڳهه - 1،300 روبل
پهرين جڳهه - 2،200 روبل
پهرين جڳهه - 3،100 روبل
جوري انعام - 100 روبل
سرڪاري ٽيليگرام گروپ، ~ 190 شرڪت ڪندڙ، انگريزي ۾ ڪميونيڪيشن، سوالن جي جواب لاءِ ڪيترائي ڏينهن انتظار ڪرڻو پيو ٽيليگرام ۾ سرڪاري گروپ، ~ 1500 شرڪت ڪندڙ، شرڪت ڪندڙن ۽ منتظمين جي وچ ۾ ڪمن جو فعال بحث
منتظمين ٻه بنيادي حل مهيا ڪيا، سادو ۽ ترقي يافته. سادي گهربل 16 GB کان گهٽ ريم، ۽ ترقي يافته ياداشت 16 ۾ مناسب نه هئي. ساڳئي وقت، ٿورو اڳتي ڏسندي، شرڪت ڪندڙ ترقي يافته حل کي خاص طور تي ختم ڪرڻ جي قابل نه هئا. انهن حلن کي شروع ڪرڻ ۾ ڪا به مشڪلات نه هئي. اهو ياد رکڻ گهرجي ته ترقي يافته مثال ۾ هڪ اشارو سان هڪ تبصرو هو جتي حل کي بهتر ڪرڻ شروع ڪيو وڃي. هر ڪم لاءِ بنيادي بنيادي حل مهيا ڪيا ويا، جيڪي آساني سان شرڪت ڪندڙن کان وڌي ويا. مقابلي جي شروعاتي ڏينهن ۾، شرڪت ڪندڙن کي ڪيترن ئي مشڪلاتن سان منهن ڏيڻو پيو: پهرين، ڊيٽا Apache Parquet فارميٽ ۾ ڏني وئي هئي، ۽ Python ۽ parquet پيڪيج جا سڀئي مجموعا بغير ڪنهن غلطي جي ڪم نه ڪندا هئا. ٻيو مسئلو ميل ڪلائوڊ تان تصويرون ڊائون لوڊ ڪرڻ هو؛ هن وقت ڊيٽا جي وڏي مقدار کي هڪ ڀيرو ڊائونلوڊ ڪرڻ جو ڪو آسان طريقو ناهي. نتيجي طور، انهن مسئلن جي شرڪت ڪندڙن کي ڪجهه ڏينهن تائين دير ٿي وئي.

IDAO. پهريون مرحلو

ڪم اهو هو ته ميون / غير ميون ذرات کي انهن جي خاصيتن جي مطابق درجه بندي ڪرڻ. هن ڪم جي اهم خصوصيت ٽريننگ ڊيٽا ۾ وزن جي ڪالمن جي موجودگي هئي، جنهن کي منتظمين پاڻ هن لڪير جي جواب ۾ اعتماد جي طور تي تفسير ڪيو. مسئلو اهو هو ته ڪافي ڪجهه قطارن ۾ منفي وزن شامل هئا.

وڏو Hadron Collider ۽ Odnoklassniki

اشاري سان لائن جي باري ۾ چند منٽن لاء سوچڻ کان پوء (اشارو صرف وزن جي ڪالمن جي هن خصوصيت ڏانهن ڌيان ڏنو) ۽ هن گراف کي تعمير ڪيو، اسان 3 اختيارن کي چيڪ ڪرڻ جو فيصلو ڪيو:

1) منفي وزن سان لائينن جي ٽارگيٽ کي ڦيرايو (۽ وزن مطابق)
2) وزن کي گھٽ ۾ گھٽ قدر ڏانھن ڦيرايو ته جيئن اھي 0 کان شروع ٿين
3) اسٽرنگ وزن استعمال نه ڪريو

ٽيون آپشن سڀ کان وڌيڪ خراب نڪتو، پر پهرين ٻن نتيجن کي بهتر ڪيو، بهترين اختيار نمبر 1 هو، جيڪو اسان کي فوري طور تي موجوده ٻئي نمبر تي پهتو، پهرين ڪم ۾ پهرين ۽ ٻئي ۾ پهرين.
وڏو Hadron Collider ۽ Odnoklassniki
اسان جو ايندڙ قدم غائب قدرن لاءِ ڊيٽا جو جائزو وٺڻ هو. منتظمين اسان کي اڳ ۾ ئي گڏ ڪيل ڊيٽا ڏنيون، جتي ڪافي قدر غائب هئا، ۽ انهن کي -9999 سان تبديل ڪيو ويو.

اسان MatchedHit_{X,Y,Z}[N] ۽ MatchedHit_D{X,Y,Z}[N] ڪالمن ۾ گم ٿيل قدر ڏٺا، ۽ صرف تڏهن مليا جڏهن N=2 يا 3. جيئن اسان سمجھون ٿا، ڪجھ ذرات نه مليا سڀني 4 ڊيڪٽرن کي پاس ڪريو، ۽ 3rd يا 4th پليٽ تي روڪيو. ڊيٽا ۾ Lextra_{X,Y}[N] ڪالمن پڻ شامل آھن، جيڪي بظاھر ساڳي شيءِ کي MatchedHit_{X,Y,Z}[N] بيان ڪن ٿا، پر ڪنھن قسم جي اضافي استعمال ڪندي. هنن ٿورڙي اندازن جي تجويز ڏني ته Lextra_{X,Y}[N] کي مٽائي سگھجي ٿو MatchedHit_{X,Y,Z[N] (صرف X ۽ Y همراهن لاءِ). MatchedHit_Z[N] چڱيءَ طرح ميڊين سان ڀريل هو. انهن ڦيرڦار اسان کي ٻنهي ڪمن ۾ پهرين وچولي جڳهه تي پهچڻ جي اجازت ڏني.

وڏو Hadron Collider ۽ Odnoklassniki

انهي ڳالهه تي غور ڪندي ته انهن پهرين اسٽيج کٽڻ لاءِ ڪجهه به نه ڏنو، اسان اتي ئي روڪي سگهون ها، پر اسان اڳتي وڌو، ڪجهه خوبصورت تصويرون ڪڍيون ۽ نئين خاصيتن سان گڏ آياسين.

وڏو Hadron Collider ۽ Odnoklassniki

مثال طور، اسان اهو معلوم ڪيو ته جيڪڏهن اسان هڪ ذرڙي جي چوڪندڙ پوائنٽن کي چار ڊيڪٽر پليٽن مان هر هڪ سان پلاٽ ڪريون ٿا، اسان ڏسي سگهون ٿا ته هر پليٽ تي پوائنٽون 5 مستطيلن ۾ 4 کان 5 جي تناسب سان گڏ آهن ۽ مرڪز ۾ آهن. پوائنٽ (0,0،XNUMX)، ۽ ان ۾ پهرين مستطيل ۾ ڪي به نقطا نه آهن.

پليٽ نمبر / مستطيل طول و عرض 1 2 3 4 5
پليٽ 1 500x625 1000x1250 2000x2500 4000x5000 8000x10000
پليٽ 2 520x650 1040x1300 2080x2600 4160x5200 8320x10400
پليٽ 3 560x700 1120x1400 2240x2800 4480x5600 8960x11200
پليٽ 4 600x750 1200x1500 2400x3000 4800x6000 9600x12000

انهن طول و عرض کي طئي ڪرڻ کان پوء، اسان هر ذرڙي لاء 4 نيون ڪيٽيگريڪل خاصيتون شامل ڪيون آهن - مستطيل جو تعداد جنهن ۾ اهو هر پليٽ کي هڪ ٻئي سان ٽڪرائي ٿو.

وڏو Hadron Collider ۽ Odnoklassniki

اسان اهو پڻ محسوس ڪيو ته ذرڙا مرڪز کان پاسن تي ٽڙي پکڙيل نظر اچن ٿا ۽ اهو خيال پيدا ٿيو ته ڪنهن طرح هن پکڙجڻ جي ”معيار“ جو اندازو لڳايو وڃي. مثالي طور تي، اهو ممڪن هوندو ته ڪنهن قسم جو ”مثالي“ پارابولا کڻي اچڻ جي لحاظ سان ٽيڪ آف پوائنٽ جي لحاظ کان ۽ ان مان انحراف جو اندازو لڳايو، پر اسان پاڻ کي ”مثالي“ سڌي لڪير تائين محدود ڪري ڇڏيو. داخل ٿيڻ جي هر نقطي لاءِ اهڙيون مثالي سڌيون لائينون ٺاهڻ سان، اسان هن سِڌي لڪير مان هر ذري جي رفتار جي معياري انحراف جو اندازو لڳائي سگهندا هئاسين. جيئن ته ھدف = 1 لاءِ سراسري انحراف 152 ھو، ۽ ھدف = 0 لاءِ اھو 390 ھو، اسان عارضي طور ھن خصوصيت کي سٺي طور تي اندازو ڪيو. ۽ حقيقت ۾، هن خصوصيت کي فوري طور تي ان کي سڀ کان وڌيڪ مفيد ماڻهن جي چوٽي تي پهچايو.

اسان خوش ٿياسون ۽ سڀني 4 چونڪ واري پوائنٽن جي انحراف کي شامل ڪيو مثالي سڌي لڪير مان هر ذري جي لاءِ اضافي 4 خصوصيتن جي طور تي (۽ اهي پڻ سٺو ڪم ڪيو).

مقابلي جي موضوع تي سائنسي مضمونن جي لنڪ، اسان کي آرگنائيزرز طرفان ڏنو ويو، اهو خيال پيش ڪيو ته اسان هن مسئلي کي حل ڪرڻ لاء پهرين کان پري آهيون ۽ شايد، اتي ڪجهه خاص سافٽ ويئر آهي. گيٿب تي هڪ مخزن کي دريافت ڪيو جتي طريقا IsMuonSimple، IsMuon، IsMuonLoose لاڳو ڪيا ويا، اسان انهن کي اسان جي سائيٽ تي معمولي ترميمن سان منتقل ڪيو. طريقا پاڻ ۾ بلڪل سادو هئا: مثال طور، جيڪڏهن توانائي هڪ خاص حد کان گهٽ آهي، پوء اهو هڪ ميون ناهي، ٻي صورت ۾ اهو هڪ ميون آهي. اهڙيون سادي خاصيتون واضح طور تي استعمال ڪرڻ جي صورت ۾ واڌارو نه ڏئي سگهيا گريجوئيٽ وڌائڻ، تنهنڪري اسان هڪ ٻيو اهم "فاصلو" حد تائين شامل ڪيو. انهن خاصيتن کي پڻ ٿورو بهتر ڪيو ويو آهي. شايد، موجوده طريقن کي وڌيڪ چڱي طرح تجزيو ڪرڻ سان، اهو ممڪن هو ته مضبوط طريقا ڳولڻ ۽ انهن کي نشانين ۾ شامل ڪرڻ.

مقابلي جي آخر ۾، اسان ٿورڙي ٽائيڪ ڪيو "جلدي" حل ٻئي مسئلي لاء؛ آخر ۾، اهو هيٺ ڏنل پوائنٽن ۾ بيس لائين کان مختلف آهي:

  1. منفي وزن سان قطار ۾ ھدف کي ڦيرايو ويو
  2. MatchedHit_{X,Y,Z[N] ۾ غائب قدرن ۾ ڀريو ويو
  3. کوٽائي 7 تائين
  4. 0.1 تائين سکيا جي شرح گھٽائي وئي (0.19 هئي)

نتيجي طور، اسان ڪوشش ڪئي وڌيڪ فيچرز (بلڪل ڪاميابيءَ سان نه)، چونڊيل پيرا ميٽرس ۽ تربيت يافته ڪيٽ بوسٽ، lightgbm ۽ xgboost، اڳڪٿين جي مختلف ميلاپن جي ڪوشش ڪئي ۽ پرائيويٽ کولڻ کان اڳ اسان اعتماد سان ٻئي ٽاسڪ تي فتح حاصل ڪئي، ۽ پھريون ڀيرو اسين انھن مان ھئاسين. اڳواڻ.

پرائيويٽ کولڻ کان پوءِ اسان پهرين ٽاسڪ لاءِ 10هين جاءِ تي ۽ ٽئين لاءِ ٻئي نمبر تي هئاسين. سڀئي اڳواڻ گڏ ٿي ويا، ۽ نجي ۾ رفتار ليب بورڊ کان وڌيڪ هئي. اهو لڳي ٿو ته ڊيٽا خراب طور تي ترتيب ڏنل هئي (يا مثال طور نجي ۾ منفي وزن سان ڪابه قطار نه هئي) ۽ اهو ٿورڙي مايوسي هئي.

SNA Hackathon 2019 - متن. پهريون مرحلو

اهو ڪم هو Odnoklassniki سماجي نيٽ ورڪ تي صارف جي پوسٽن کي درجه بندي ڪرڻ جو انهن متن جي بنياد تي؛ متن کان علاوه، پوسٽ جون ڪجھ وڌيڪ خاصيتون هيون (ٻولي، مالڪ، تاريخ ۽ وقت، تاريخ ۽ ڏسڻ جو وقت ).

جيئن متن سان ڪم ڪرڻ لاءِ ڪلاسيڪل طريقا، مان ٻن اختيارن کي اجاگر ڪندس:

  1. هر لفظ کي هڪ n-dimensional vector space ۾ نقش ڪرڻ جيئن ته ملندڙ لفظن ۾ هڪجهڙا ویکٹر هجن (وڌيڪ پڙهو اسان جو مضمون)، پوءِ يا ته متن لاءِ سراسري لفظ ڳولھيو يا ميکانيزم استعمال ڪريو جيڪي لفظن جي لاڳاپي واري پوزيشن (CNN, LSTM/GRU) کي مدنظر رکن.
  2. ماڊل استعمال ڪندي جيڪي فوري طور تي مڪمل جملن سان ڪم ڪري سگھن ٿا. مثال طور، Bert. نظريي ۾، هي طريقو بهتر ڪم ڪرڻ گهرجي.

جيئن ته نصوص سان منهنجو هي پهريون تجربو هو، ان ڪري ڪنهن کي سيکارڻ غلط ٿيندو، تنهنڪري مان پاڻ سيکاريندس. اهي صلاحون آهن جيڪي آئون پاڻ کي مقابلي جي شروعات ۾ ڏيندس:

  1. ان کان اڳ جو توھان ڪجھ سيکارڻ لاءِ ڊوڙو، ڊيٽا کي ڏسو! خود متن جي علاوه، ڊيٽا ۾ ڪيترائي ڪالمن هئا ۽ اهو ممڪن هو ته انهن مان گهڻو ڪجهه ٻاهر ڪڍيو ويو مون کان وڌيڪ. سادو ڪم ڪرڻ جو مطلب اهو آهي ته ڪجهه ڪالمن لاءِ ٽارگيٽ انڪوڊنگ.
  2. سڀني ڊيٽا مان نه سکيو! ڊيٽا جو تمام گهڻو هو (اٽڪل 17 ملين قطارون) ۽ اهو بلڪل ضروري نه هو ته انهن سڀني کي استعمال ڪرڻ لاء فرضن کي جانچڻ لاء. ٽريننگ ۽ پري پروسيسنگ ڪافي سست هئي، ۽ مون کي واضح طور تي وڌيڪ دلچسپ مفروضن کي جانچڻ جو وقت هوندو.
  3. <اختلافي صلاح> قاتل ماڊل کي ڳولڻ جي ضرورت ناهي. مون گهڻو وقت ايلمو ۽ برٽ کي ڳولڻ ۾ گذاريو، اميد ته اهي فوري طور تي مون کي اعليٰ مقام تي وٺي ويندا، ۽ نتيجي طور مون روسي ٻوليءَ لاءِ فاسٽ ٽيڪسٽ اڳ-تربيت ٿيل ايمبيڊنگس استعمال ڪيو. مان ايلمو سان بهتر رفتار حاصل نه ڪري سگهيس، ۽ مون وٽ اڃا وقت نه هو ته ان کي برٽ سان گڏ سمجهان.
  4. <اختلافي صلاح> هڪ قاتل خاصيت کي ڳولڻ جي ضرورت ناهي. ڊيٽا کي ڏسي، مون محسوس ڪيو ته تقريبا 1 سيڪڙو نصوص اصل ۾ متن تي مشتمل نه آهن! پر اتي ڪجھ وسيلن سان لنڪس آھن، ۽ مون ھڪڙو سادو پارسر لکيو آھي جيڪو سائيٽ کوليو ۽ عنوان ۽ تفصيل ڪڍيو. اهو هڪ سٺو خيال وانگر لڳي، پر پوء مون کي ورتو ويو ۽ سڀني نصوص جي سڀني لنڪس کي پارس ڪرڻ جو فيصلو ڪيو ۽ ٻيهر گهڻو وقت وڃائي ڇڏيو. اهو سڀ ڪجهه حتمي نتيجو ۾ هڪ اهم سڌارو مهيا نه ڪيو (جيتوڻيڪ مون سمجهيو ته اسٽيمنگ، مثال طور).
  5. کلاسک خاصيتون ڪم ڪن ٿيون. اسان گوگل، مثال طور، "ٽيڪسٽ خاصيتون ڪيگل"، پڙهو ۽ سڀ ڪجهه شامل ڪريو. TF-IDF هڪ سڌارو مهيا ڪيو، جيئن شمارياتي خاصيتون جهڙوڪ متن جي ڊيگهه، لفظن، ۽ اوقاف جي مقدار.
  6. جيڪڏهن هتي آهن DateTime ڪالمن، اهو انهن کي الڳ الڳ خاصيتن ۾ (ڪلاڪ، هفتي جا ڏينهن، وغيره) ۾ پارس ڪرڻ جي قابل آهي. ڪھڙي خصوصيتن کي نمايان ٿيڻ گھرجي گرافس / ڪجھ ميٽرڪس استعمال ڪندي تجزيو ڪيو وڃي. هتي، هڪ سنوارڻ تي، مون سڀ ڪجهه صحيح ڪيو ۽ ضروري خاصيتن کي نمايان ڪيو، پر هڪ عام تجزيي کي نقصان نه ٿيندو (مثال طور، جيئن اسان فائنل ۾ ڪيو).

وڏو Hadron Collider ۽ Odnoklassniki

مقابلي جي نتيجي ۾، مون ٽريننگ ڪئي هڪ ڪيراس ماڊل کي لفظ ڪنوليشن سان، ۽ ٻيو LSTM ۽ GRU جي بنياد تي. انهن ٻنهي روسي ٻوليءَ لاءِ اڳ-تربيت ٿيل FastText ايمبيڊنگس استعمال ڪيون (مون ڪي ٻيون ايمبيڊنگون ڪوششون ڪيون، پر اهي ئي هئا جن بهترين ڪم ڪيو). اڳڪٿيون ڪرڻ کان پوءِ، مون 7 شرڪت ڪندڙن مان فائنل 76 هين جاءِ ورتي.

پهرين مرحلي کان پوءِ شايع ٿيو Nikolai Anokhin جو مضمون، جنهن ٻي جاءِ ورتي (هن مقابلي کان ٻاهر حصو ورتو)، ۽ هن جو حل ڪجهه اسٽيج تائين بار بار منهنجو ڪيو، پر هو سوال-ڪي-ويل توجہ جي ميڪانيزم جي ڪري اڳتي وڌيو.

ٻيو مرحلو ٺيڪ ۽ IDAO

مقابلن جا ٻئي مرحلا لڳ ڀڳ لڳاتار ٿيا، تنهن ڪري مون فيصلو ڪيو ته انهن کي گڏجي ڏسان.

پهرين، مان ۽ نئين حاصل ڪيل ٽيم Mail.ru ڪمپني جي شاندار آفيس ۾ ختم ٿي ويا، جتي اسان جو ڪم پهرين اسٽيج کان ٽن ٽريڪز جي ماڊل کي گڏ ڪرڻ هو - ٽيڪسٽ، تصويرون ۽ ڪوليب. ان لاءِ 2 ڏينهن کان وڌيڪ وقت ڏنو ويو، جيڪو تمام ٿورڙو ثابت ٿيو. حقيقت ۾، اسان صرف ان قابل هئاسين ته اسان جي نتيجن کي پهرين اسٽيج کان ورجائي سگهون ٿا بغير ڪنهن به ضم مان حاصل ڪرڻ جي. آخر ۾، اسان 5th جاء ورتي، پر اسان ٽيڪسٽ ماڊل استعمال ڪرڻ جي قابل نه هئاسين. ٻين شرڪت ڪندڙن جي حل کي ڏسڻ کان پوء، اهو لڳي ٿو ته اهو نصوص کي ڪلستر ڪرڻ جي ڪوشش ڪرڻ ۽ انهن کي ڪوليب ماڊل ۾ شامل ڪرڻ جي قابل هو. هن اسٽيج جو هڪ طرفي اثر نئون تاثر هو، ٿڌي شرڪت ڪندڙن ۽ منتظمين سان ملاقات ۽ گفتگو، گڏوگڏ ننڊ جي شديد کوٽ، جنهن شايد IDAO جي آخري اسٽيج جي نتيجي تي اثر انداز ڪيو هجي.

IDAO 2019 فائنل اسٽيج تي ڪم ايئرپورٽ تي Yandex ٽيڪسي ڊرائيورن لاءِ آرڊر جي انتظار جي وقت جي اڳڪٿي ڪرڻ هو. اسٽيج 2 تي، 3 ڪم = 3 ايئرپورٽ جي سڃاڻپ ڪئي وئي. هر ايئرپورٽ لاء، ڇهن مهينن لاء ٽيڪسي آرڊر جي تعداد تي منٽ منٽ ڊيٽا ڏني وئي آهي. ۽ ٽيسٽ ڊيٽا جي طور تي، گذريل 2 هفتن جي آرڊر تي ايندڙ مهيني ۽ منٽ منٽ ڊيٽا ڏني وئي. اتي ٿورو وقت هو (1,5 ڏينهن)، ڪم ڪافي مخصوص هو، ٽيم مان صرف هڪ شخص مقابلي ۾ آيو - ۽ نتيجي طور، اهو ختم ٿيڻ لاء هڪ اداس جڳهه هئي. دلچسپ خيالن ۾ ٻاهرين ڊيٽا استعمال ڪرڻ جي ڪوشش شامل آهي: موسم، ٽرئفڪ جام ۽ Yandex ٽيڪسي آرڊر جا انگ اکر. جيتوڻيڪ منتظمين اهو نه ٻڌايو ته اهي ايئرپورٽ ڇا هئا، ڪيترن ئي شرڪت ڪندڙن اهو سمجهيو ته اهي Sheremetyevo، Domodedovo ۽ Vnukovo هئا. جيتوڻيڪ هن مفروضي کي مقابلي کان پوءِ رد ڪيو ويو، خاصيتون، مثال طور، ماسڪو جي موسم جي ڊيٽا ٻنهي جي تصديق ۽ ليڊر بورڊ تي نتيجن کي بهتر ڪيو.

ٿڪل

  1. ايم ايل مقابلا سٺا ۽ دلچسپ آهن! هتي توهان کي ڊيٽا جي تجزيي ۾ صلاحيتن جو استعمال ملندو، ۽ چالاڪ ماڊلز ۽ ٽيڪنالاجي ۾، ۽ صرف عام احساس ڀلي ڪري آيا.
  2. ايم ايل اڳ ۾ ئي علم جو هڪ وڏو ادارو آهي جيڪو لڳي ٿو ته تيزيءَ سان وڌي رهيو آهي. مون پاڻ کي مختلف علائقن (سگنل، تصويرون، ٽيبل، ٽيڪسٽ) سان واقف ڪرڻ جو مقصد مقرر ڪيو ۽ اڳ ۾ ئي محسوس ڪيو ته ڪيترو مطالعو ڪرڻو آهي. مثال طور، انهن مقابلن کان پوءِ مون مطالعو ڪرڻ جو فيصلو ڪيو: ڪلسٽرنگ الگورتھم، گريڊيئينٽ بوسٽنگ لائبريرين سان ڪم ڪرڻ لاءِ جديد ٽيڪنڪ (خاص طور تي، جي پي يو تي CatBoost سان ڪم ڪرڻ)، ڪيپسول نيٽ ورڪ، سوال-ڪي-ويل توجہ ميڪانيزم.
  3. اڪيلي ڪاگل کان نه! ٻيا به ڪيترائي مقابلا آھن جتي گھٽ ۾ گھٽ ٽي شرٽ حاصل ڪرڻ آسان آھي، ۽ ٻيا انعام جا وڌيڪ موقعا آھن.
  4. رابطو ڪريو! مشين لرننگ ۽ ڊيٽا جي تجزيي جي شعبي ۾ اڳ ۾ ئي هڪ وڏي برادري موجود آهي، ٽيليگرام ۾ موضوعي گروپ آهن، سست، ۽ سنجيده ماڻهو Mail.ru، Yandex ۽ ٻين ڪمپنين کان سوالن جا جواب ۽ مدد ڪن ٿا شروعات ڪندڙن ۽ جيڪي هن فيلڊ ۾ پنهنجو رستو جاري رکندا آهن. علم جي.
  5. مان هر ڪنهن کي صلاح ڏيان ٿو جيڪو اڳئين نقطي کان متاثر ٿيو هو گهمڻ لاءِ datafest - ماسڪو ۾ هڪ وڏي مفت ڪانفرنس، جيڪا 10-11 مئي تي ٿيندي.

جو ذريعو: www.habr.com

تبصرو شامل ڪريو