لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

Habré پر مشین لرننگ مقابلوں کے تھیم کو جاری رکھتے ہوئے، ہم قارئین کو مزید دو پلیٹ فارمز سے متعارف کرانا چاہیں گے۔ وہ یقینی طور پر اتنے بڑے نہیں ہیں جیسے کاگل، لیکن وہ ضرور توجہ کے مستحق ہیں۔

لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

ذاتی طور پر، میں کئی وجوہات کی بنا پر کاگل کو زیادہ پسند نہیں کرتا:

  • سب سے پہلے، وہاں مقابلے اکثر کئی مہینوں تک جاری رہتے ہیں، اور فعال شرکت کے لیے کافی محنت کی ضرورت ہوتی ہے۔
  • دوم، عوامی دانا (عوامی حل)۔ Kaggle کے پیروکار تبتی راہبوں کے ساتھ سکون کے ساتھ سلوک کرنے کا مشورہ دیتے ہیں، لیکن حقیقت میں یہ بہت شرم کی بات ہے جب آپ ایک یا دو ماہ سے جس چیز پر کام کر رہے ہیں وہ اچانک سب کے لیے چاندی کے تھال میں رکھ دیا جاتا ہے۔

خوش قسمتی سے، مشین لرننگ مقابلے دوسرے پلیٹ فارمز پر منعقد کیے جاتے ہیں، اور ان مقابلوں میں سے کچھ پر بات کی جائے گی۔

IDAO ایس این اے ہیکاتھون 2019
سرکاری زبان: انگریزی،
منتظمین: Yandex، Sberbank، HSE
سرکاری روسی زبان،
منتظمین: Mail.ru گروپ
آن لائن راؤنڈ: جنوری 15 - فروری 11، 2019؛
آن سائٹ فائنل: اپریل 4-6، 2019
آن لائن - 7 فروری سے 15 مارچ تک؛
آف لائن - 30 مارچ سے 1 اپریل تک۔
Large Hadron Collider میں کسی ذرے کے بارے میں ڈیٹا کے ایک مخصوص سیٹ کا استعمال کرتے ہوئے (Trajectory، Momentum، اور دیگر پیچیدہ جسمانی پیرامیٹرز)، اس بات کا تعین کریں کہ آیا یہ muon ہے یا نہیں
اس بیان سے، 2 کاموں کی نشاندہی کی گئی:
- ایک میں آپ کو صرف اپنی پیشن گوئی بھیجنی تھی،
- اور دوسرے میں - پیشین گوئی کے لیے مکمل کوڈ اور ماڈل، اور اس پر عمل درآمد چلانے کے وقت اور میموری کے استعمال پر کافی سخت پابندیوں کے ساتھ مشروط تھا۔
SNA ہیکاتھون مقابلے کے لیے، فروری-مارچ 2018 کے لیے صارف کی نیوز فیڈز میں کھلے گروپوں سے مواد کی نمائش کے لاگز جمع کیے گئے۔ ٹیسٹ سیٹ مارچ کے آخری ہفتہ اور نصف پر مشتمل ہے۔ لاگ میں ہر اندراج میں اس بارے میں معلومات ہوتی ہے کہ کیا دکھایا گیا اور کس کو، نیز صارف نے اس مواد پر کیا ردعمل ظاہر کیا: اس کی درجہ بندی کی، تبصرہ کیا، اسے نظر انداز کیا، یا اسے فیڈ سے چھپایا۔
SNA Hackathon کے کاموں کا نچوڑ یہ ہے کہ سوشل نیٹ ورک Odnoklassniki کے ہر صارف کو اس کی فیڈ کی درجہ بندی کرنا، ان پوسٹوں کو زیادہ سے زیادہ بلند کرنا جو "کلاس" حاصل کریں گی۔
آن لائن مرحلے پر، کام کو 3 حصوں میں تقسیم کیا گیا تھا:
1. مختلف اشتراکی خصوصیات کے مطابق پوسٹس کو درجہ دیں۔
2. ان میں موجود تصاویر کی بنیاد پر پوسٹس کو درجہ دیں۔
3. پوسٹس کو ان کے متن کے مطابق درجہ بندی کریں۔
پیچیدہ حسب ضرورت میٹرک، ROC-AUC جیسا کچھ صارف کے لحاظ سے اوسط ROC-AUC
پہلے مرحلے کے لیے انعامات - N مقامات کے لیے ٹی شرٹس، دوسرے مرحلے تک رسائی، جہاں مقابلے کے دوران رہائش اور کھانے کی ادائیگی کی گئی تھی۔
دوسرا مرحلہ - ??? (بعض وجوہات کی بنا پر، میں ایوارڈ تقریب میں موجود نہیں تھا اور یہ معلوم کرنے سے قاصر تھا کہ آخر میں انعامات کیا ہیں)۔ انہوں نے جیتنے والی ٹیم کے تمام ممبران کو لیپ ٹاپ دینے کا وعدہ کیا۔
پہلے مرحلے کے لیے انعامات - 100 بہترین شرکاء کے لیے ٹی شرٹس، دوسرے مرحلے کا راستہ، جہاں ماسکو کا سفر، مقابلے کے دوران رہائش اور کھانے کی ادائیگی کی گئی۔ نیز، پہلے مرحلے کے اختتام پر، مرحلہ 3 میں 1 کاموں میں بہترین کے لیے انعامات کا اعلان کیا گیا: ہر ایک نے RTX 2080 TI ویڈیو کارڈ جیتا!
دوسرا مرحلہ ایک ٹیم مرحلہ تھا، ٹیمیں 2 سے 5 افراد پر مشتمل تھیں، انعامات:
پہلی جگہ - 1،300 روبل
پہلی جگہ - 2،200 روبل
پہلی جگہ - 3،100 روبل
جیوری انعام - 100،000 روبل
سرکاری ٹیلیگرام گروپ، ~190 شرکاء، انگریزی میں بات چیت، سوالات کے جواب کے لیے کئی دن انتظار کرنا پڑا ٹیلیگرام میں سرکاری گروپ، ~1500 شرکاء، شرکاء اور منتظمین کے درمیان کاموں کی فعال بحث
منتظمین نے دو بنیادی حل فراہم کیے، سادہ اور جدید۔ سادہ کو 16 GB سے کم RAM درکار ہے، اور جدید میموری 16 میں فٹ نہیں ہوتی تھی۔ ایک ہی وقت میں، تھوڑا سا آگے دیکھتے ہوئے، شرکاء اعلی درجے کے حل کو نمایاں طور پر پیچھے چھوڑنے کے قابل نہیں تھے۔ ان حلوں کو شروع کرنے میں کوئی مشکلات نہیں تھیں۔ واضح رہے کہ اعلی درجے کی مثال میں ایک اشارہ کے ساتھ ایک تبصرہ تھا کہ حل کو بہتر بنانا کہاں سے شروع کیا جائے۔ ہر ایک کام کے لیے بنیادی ابتدائی حل فراہم کیے گئے تھے، جنہیں شرکاء نے آسانی سے عبور کر لیا۔ مقابلے کے ابتدائی دنوں میں، شرکاء کو کئی مشکلات کا سامنا کرنا پڑا: سب سے پہلے، ڈیٹا اپاچی پارکیٹ فارمیٹ میں دیا گیا تھا، اور Python اور parquet پیکیج کے تمام مجموعے بغیر کسی غلطی کے کام نہیں کرتے تھے۔ دوسری مشکل میل کلاؤڈ سے تصویریں ڈاؤن لوڈ کرنا تھی؛ اس وقت ایک ہی وقت میں بڑی مقدار میں ڈیٹا ڈاؤن لوڈ کرنے کا کوئی آسان طریقہ نہیں ہے۔ نتیجے کے طور پر، ان مسائل نے شرکاء کو ایک دو دن کے لئے تاخیر کی.

IDAO پہلا مرحلہ

کام muon/non-muon ذرات کو ان کی خصوصیات کے مطابق درجہ بندی کرنا تھا۔ اس کام کی اہم خصوصیت تربیتی ڈیٹا میں وزنی کالم کی موجودگی تھی، جسے منتظمین نے خود اس سطر کے جواب میں اعتماد سے تعبیر کیا۔ مسئلہ یہ تھا کہ کچھ قطاروں میں منفی وزن تھا۔

لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

اشارے والی لائن کے بارے میں چند منٹ سوچنے کے بعد (اشارہ نے وزن کے کالم کی اس خصوصیت کی طرف توجہ مبذول کرائی) اور اس گراف کو بنانے کے بعد، ہم نے 3 اختیارات کو چیک کرنے کا فیصلہ کیا:

1) منفی وزن کے ساتھ لائنوں کے ہدف کو الٹ دیں (اور اس کے مطابق وزن)
2) وزن کو کم از کم قیمت پر منتقل کریں تاکہ وہ 0 سے شروع ہوں۔
3) تار کے وزن کا استعمال نہ کریں۔

تیسرا آپشن بدترین نکلا، لیکن پہلے دو نے نتیجہ بہتر کیا، بہترین آپشن نمبر 1 تھا، جس نے ہمیں فوری طور پر پہلے کام میں موجودہ دوسرے اور دوسرے میں پہلے نمبر پر پہنچا دیا۔
لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی
ہمارا اگلا مرحلہ لاپتہ اقدار کے ڈیٹا کا جائزہ لینا تھا۔ منتظمین نے ہمیں پہلے سے ہی کومبڈ ڈیٹا دیا، جہاں کچھ قدریں غائب تھیں، اور انہیں -9999 سے تبدیل کر دیا گیا۔

ہم نے MatchedHit_{X,Y,Z}[N] اور MatchedHit_D{X,Y,Z}[N] کالموں میں گم شدہ اقدار کو پایا، اور صرف اس وقت جب N=2 یا 3۔ جیسا کہ ہم سمجھتے ہیں، کچھ ذرات نہیں ملے تمام 4 ڈٹیکٹروں کو پاس کریں، اور تیسری یا چوتھی پلیٹ پر رک گئے۔ ڈیٹا میں Lextra_{X,Y}[N] کالم بھی شامل تھے، جو بظاہر اسی چیز کو MatchedHit_{X,Y,Z}[N] کی طرح بیان کرتے ہیں، لیکن کسی قسم کا ایکسٹراپولیشن استعمال کرتے ہیں۔ ان معمولی اندازوں نے تجویز کیا کہ Lextra_{X,Y}[N] کو MatchedHit_{X,Y,Z[N] (صرف X اور Y کوآرڈینیٹس کے لیے) میں گمشدہ اقدار کے لیے متبادل کیا جا سکتا ہے۔ MatchedHit_Z[N] میڈین سے اچھی طرح سے بھرا ہوا تھا۔ ان ہیرا پھیری نے ہمیں دونوں کاموں میں پہلے انٹرمیڈیٹ مقام تک پہنچنے کی اجازت دی۔

لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

اس بات پر غور کرتے ہوئے کہ انہوں نے پہلا مرحلہ جیتنے کے لیے کچھ نہیں دیا، ہم وہیں رک سکتے تھے، لیکن ہم نے جاری رکھا، کچھ خوبصورت تصویریں بنائیں اور نئی خصوصیات کے ساتھ سامنے آئے۔

لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

مثال کے طور پر، ہم نے پایا کہ اگر ہم چار ڈیٹیکٹر پلیٹوں میں سے ہر ایک کے ساتھ کسی ذرہ کے انقطاع پوائنٹس کو پلاٹ کرتے ہیں، تو ہم دیکھ سکتے ہیں کہ ہر پلیٹ کے پوائنٹس کو 5 مستطیلوں میں 4 سے 5 کے پہلو تناسب کے ساتھ گروپ کیا گیا ہے اور اس کا مرکز ہے نقطہ (0,0،XNUMX)، اور میں پہلے مستطیل میں کوئی پوائنٹس نہیں ہیں۔

پلیٹ نمبر / مستطیل طول و عرض 1 2 3 4 5
پلیٹ 1 500h625 1000h1250 2000h2500 4000h5000 8000h10000
پلیٹ 2 520h650 1040h1300 2080h2600 4160h5200 8320h10400
پلیٹ 3 560h700 1120h1400 2240h2800 4480h5600 8960h11200
پلیٹ 4 600h750 1200h1500 2400h3000 4800h6000 9600h12000

ان طول و عرض کا تعین کرنے کے بعد، ہم نے ہر ذرے کے لیے 4 نئی واضح خصوصیات شامل کیں - مستطیل کی تعداد جس میں یہ ہر پلیٹ کو آپس میں جوڑتا ہے۔

لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

ہم نے یہ بھی دیکھا کہ ذرات مرکز سے اطراف میں بکھرتے نظر آتے ہیں اور خیال آیا کہ کسی طرح اس بکھرنے کے "معیار" کا اندازہ لگایا جائے۔ مثالی طور پر، ٹیک آف پوائنٹ کے لحاظ سے کسی قسم کے "مثالی" پیرابولا کے ساتھ آنا اور اس سے انحراف کا اندازہ لگانا ممکن ہے، لیکن ہم نے خود کو "مثالی" سیدھی لکیر تک محدود رکھا۔ داخلے کے ہر نقطہ کے لیے ایسی مثالی سیدھی لکیریں بنانے کے بعد، ہم اس سیدھی لکیر سے ہر ایک ذرے کی رفتار کے معیاری انحراف کا حساب لگانے کے قابل ہو گئے۔ چونکہ ہدف = 1 کے لیے اوسط انحراف 152 تھا، اور ہدف = 0 کے لیے یہ 390 تھا، ہم نے عارضی طور پر اس خصوصیت کو اچھا سمجھا۔ اور درحقیقت، اس خصوصیت نے اسے فوری طور پر سب سے زیادہ مفید خصوصیات میں شامل کر دیا۔

ہم خوش ہوئے اور مثالی سیدھی لکیر سے ہر ایک ذرہ کے لیے تمام 4 تقاطع پوائنٹس کے انحراف کو اضافی 4 خصوصیات کے طور پر شامل کر دیا (اور انہوں نے بھی اچھا کام کیا)۔

مقابلہ کے موضوع پر سائنسی مضامین کے لنکس، جو ہمیں منتظمین کی طرف سے دیے گئے ہیں، نے اس خیال کو ابھارا کہ ہم اس مسئلے کو حل کرنے میں پہلے سے بہت دور ہیں اور، شاید، کوئی خاص قسم کا سافٹ ویئر موجود ہے۔ گیتھب پر ایک ذخیرہ دریافت کرنے کے بعد جہاں IsMuonSimple، IsMuon، IsMuonLoose کے طریقے نافذ کیے گئے تھے، ہم نے انہیں معمولی ترمیم کے ساتھ اپنی سائٹ پر منتقل کر دیا۔ خود طریقے بہت آسان تھے: مثال کے طور پر، اگر توانائی ایک خاص حد سے کم ہے، تو یہ میوون نہیں ہے، ورنہ یہ ایک میوون ہے۔ اس طرح کی سادہ خصوصیات واضح طور پر گریڈینٹ بوسٹنگ کے استعمال کے معاملے میں اضافہ نہیں کر سکتیں، اس لیے ہم نے حد میں ایک اور اہم "فاصلہ" شامل کیا۔ ان خصوصیات کو بھی قدرے بہتر کیا گیا ہے۔ شاید، موجودہ طریقوں کا مزید گہرائی سے تجزیہ کرنے سے، مضبوط طریقے تلاش کرنا اور انہیں علامات میں شامل کرنا ممکن تھا۔

مقابلے کے اختتام پر، ہم نے دوسرے مسئلے کے لیے "فوری" حل کو قدرے موافق بنایا؛ آخر میں، یہ مندرجہ ذیل نکات میں بنیادی لائن سے مختلف تھا:

  1. منفی وزن والی قطاروں میں ہدف الٹا تھا۔
  2. MatchedHit_{X,Y,Z[N] میں گمشدہ اقدار سے بھرا ہوا
  3. گہرائی کو 7 تک کم کر دیا گیا۔
  4. سیکھنے کی شرح کو کم کر کے 0.1 کر دیا گیا (0.19 تھا)

نتیجے کے طور پر، ہم نے مزید خصوصیات آزمائیں (بہت کامیابی سے نہیں)، منتخب کردہ پیرامیٹرز اور تربیت یافتہ کیٹ بوسٹ، لائٹ جی بی ایم اور ایکس جی بوسٹ، پیشین گوئیوں کے مختلف امتزاج کی کوشش کی اور پرائیویٹ کو کھولنے سے پہلے ہم نے دوسرے کام پر اعتماد کے ساتھ کامیابی حاصل کی، اور پہلے ہم ان میں شامل تھے۔ رہنما

پرائیویٹ کھولنے کے بعد ہم پہلے کام کے لیے 10ویں اور دوسرے کے لیے تیسرے نمبر پر تھے۔ تمام لیڈر آپس میں گھل مل گئے، اور پرائیویٹ میں اسپیڈ لب بورڈ سے زیادہ تھی۔ ایسا لگتا ہے کہ اعداد و شمار کو ناقص طور پر مرتب کیا گیا تھا (یا مثال کے طور پر نجی میں منفی وزن والی کوئی قطاریں نہیں تھیں) اور یہ قدرے مایوس کن تھا۔

SNA ہیکاتھون 2019 - متن۔ پہلا مرحلہ

کام اوڈنوکلاسنیکی سوشل نیٹ ورک پر صارف کی پوسٹس کو ان میں موجود متن کی بنیاد پر درجہ بندی کرنا تھا؛ متن کے علاوہ، پوسٹ کی کچھ اور خصوصیات (زبان، مالک، تخلیق کی تاریخ اور وقت، تاریخ اور دیکھنے کا وقت) )۔

متن کے ساتھ کام کرنے کے کلاسیکی نقطہ نظر کے طور پر، میں دو اختیارات کو اجاگر کروں گا:

  1. ہر لفظ کو ایک n-dimensional vector space میں نقشہ بنانا کہ ایک جیسے الفاظ میں ایک جیسے ویکٹر ہوں (مزید پڑھیں ہمارا مضمون)، پھر یا تو متن کے لیے اوسط لفظ تلاش کرنا یا ایسے میکانزم کا استعمال کرنا جو الفاظ کی متعلقہ پوزیشن کو مدنظر رکھتے ہیں (CNN, LSTM/GRU)۔
  2. ایسے ماڈلز کا استعمال جو فوری طور پر پورے جملے کے ساتھ کام کر سکیں۔ مثال کے طور پر، Bert. نظریہ میں، یہ نقطہ نظر بہتر کام کرنا چاہئے.

چونکہ یہ نصوص کے ساتھ میرا پہلا تجربہ تھا، اس لیے کسی کو پڑھانا غلط ہو گا، اس لیے میں خود ہی پڑھاؤں گا۔ یہ وہ تجاویز ہیں جو میں مقابلہ کے آغاز میں خود کو دوں گا:

  1. اس سے پہلے کہ آپ کچھ سکھانے کے لیے بھاگیں، ڈیٹا کو دیکھیں! خود متن کے علاوہ، ڈیٹا میں کئی کالم تھے اور ان سے میرے مقابلے میں بہت زیادہ نچوڑنا ممکن تھا۔ سب سے آسان کام یہ ہے کہ کچھ کالموں کے لیے ٹارگٹ انکوڈنگ کا مطلب کیا جائے۔
  2. تمام اعداد و شمار سے مت سیکھیں! بہت سا ڈیٹا تھا (تقریباً 17 ملین قطاریں) اور فرضی تصورات کو جانچنے کے لیے ان سب کو استعمال کرنا قطعاً ضروری نہیں تھا۔ تربیت اور پری پروسیسنگ کافی سست تھی، اور ظاہر ہے کہ میرے پاس مزید دلچسپ مفروضوں کی جانچ کرنے کا وقت ہوتا۔
  3. <متنازعہ مشورہ> قاتل ماڈل کو تلاش کرنے کی ضرورت نہیں ہے۔ میں نے ایلمو اور برٹ کا پتہ لگانے میں کافی وقت گزارا، اس امید پر کہ وہ مجھے فوری طور پر ایک اونچی جگہ پر لے جائیں گے، اور اس کے نتیجے میں میں نے روسی زبان کے لیے فاسٹ ٹیکسٹ پہلے سے تربیت یافتہ ایمبیڈنگز کا استعمال کیا۔ میں ایلمو کے ساتھ بہتر رفتار حاصل نہیں کر سکا، اور میرے پاس ابھی بھی برٹ کے ساتھ اس کا پتہ لگانے کا وقت نہیں تھا۔
  4. <متنازعہ مشورہ> ایک قاتل خصوصیت کو تلاش کرنے کی ضرورت نہیں ہے۔ اعداد و شمار کو دیکھ کر، میں نے محسوس کیا کہ تقریباً 1 فیصد متن میں اصل میں متن نہیں ہوتا! لیکن کچھ وسائل کے لنکس تھے، اور میں نے ایک سادہ پارسر لکھا جس نے سائٹ کو کھولا اور عنوان اور تفصیل نکالی۔ یہ ایک اچھا خیال لگتا تھا، لیکن پھر میں بہہ گیا اور تمام تحریروں کے تمام لنکس کو پارس کرنے کا فیصلہ کیا اور پھر بہت وقت ضائع کر دیا۔ اس سب نے حتمی نتیجہ میں کوئی خاص بہتری فراہم نہیں کی (حالانکہ میں نے اسٹیمنگ کا پتہ لگایا، مثال کے طور پر)۔
  5. کلاسیکی خصوصیات کام کرتی ہیں۔ ہم گوگل، مثال کے طور پر، "ٹیکسٹ فیچرز کاگل"، سب کچھ پڑھتے اور شامل کرتے ہیں۔ TF-IDF نے ایک بہتری فراہم کی، جیسا کہ شماریاتی خصوصیات جیسے کہ متن کی لمبائی، الفاظ، اور اوقاف کی مقدار۔
  6. اگر ڈیٹ ٹائم کالم ہیں، تو ان کو کئی الگ الگ فیچرز (گھنٹے، ہفتے کے دن، وغیرہ) میں پارس کرنے کے قابل ہے۔ کن خصوصیات کو نمایاں کیا جانا چاہیے ان کا گرافس/کچھ میٹرکس کا استعمال کرتے ہوئے تجزیہ کیا جانا چاہیے۔ یہاں، ایک خواہش پر، میں نے سب کچھ صحیح طریقے سے کیا اور ضروری خصوصیات کو نمایاں کیا، لیکن ایک عام تجزیہ کو نقصان نہیں پہنچے گا (مثال کے طور پر، جیسا کہ ہم نے فائنل میں کیا تھا)۔

لارج ہیڈرون کولائیڈر اور اوڈنوکلاسنیکی

مقابلے کے نتیجے میں، میں نے ایک کیرا ماڈل کو لفظ کنوولوشن کے ساتھ تربیت دی، اور دوسرا LSTM اور GRU پر مبنی۔ ان دونوں نے روسی زبان کے لیے پہلے سے تربیت یافتہ فاسٹ ٹیکسٹ ایمبیڈنگز کا استعمال کیا (میں نے کئی دوسری ایمبیڈنگز کی کوشش کی، لیکن یہ وہی تھے جنہوں نے بہترین کام کیا)۔ پیشین گوئیوں کی اوسط کے بعد، میں نے 7 شرکاء میں سے آخری 76 واں مقام حاصل کیا۔

پہلے مرحلے کے بعد اسے شائع کیا گیا۔ نکولائی انوکھین کا مضمون، جس نے دوسری پوزیشن حاصل کی (اس نے مقابلہ سے باہر حصہ لیا)، اور اس کا حل کچھ مرحلے تک دہرایا گیا، لیکن وہ استفسار کی کلید کی توجہ کے طریقہ کار کی وجہ سے آگے بڑھ گیا۔

دوسرا مرحلہ OK اور IDAO

مقابلوں کے دوسرے مرحلے تقریباً لگاتار ہوئے، اس لیے میں نے ان کو ایک ساتھ دیکھنے کا فیصلہ کیا۔

سب سے پہلے، میں اور نئی حاصل کی گئی ٹیم Mail.ru کمپنی کے متاثر کن دفتر میں پہنچی، جہاں ہمارا کام پہلے مرحلے کے تین ٹریکس کے ماڈلز کو یکجا کرنا تھا - ٹیکسٹ، تصاویر اور کولیب۔ اس کے لیے 2 دن سے کچھ زیادہ کا وقت دیا گیا جو بہت کم نکلا۔ درحقیقت، ہم انضمام سے کوئی فائدہ حاصل کیے بغیر صرف پہلے مرحلے سے ہی اپنے نتائج کو دہرانے کے قابل تھے۔ آخر میں، ہم نے 5 واں مقام حاصل کیا، لیکن ہم ٹیکسٹ ماڈل استعمال کرنے سے قاصر تھے۔ دیگر شرکاء کے حل کو دیکھنے کے بعد، ایسا لگتا ہے کہ متن کو کلسٹر کرنے اور انہیں کولیب ماڈل میں شامل کرنے کی کوشش کرنا قابل قدر تھا۔ اس مرحلے کا ایک ضمنی اثر نئے تاثرات، ٹھنڈے شرکاء اور منتظمین کے ساتھ ملاقات اور بات چیت، نیز نیند کی شدید کمی، جس نے IDAO کے آخری مرحلے کے نتائج کو متاثر کیا ہو سکتا ہے۔

IDAO 2019 کے آخری مرحلے کا کام ہوائی اڈے پر Yandex ٹیکسی ڈرائیوروں کے آرڈر کے انتظار کے وقت کی پیش گوئی کرنا تھا۔ مرحلے 2 پر، 3 کام = 3 ہوائی اڈوں کی نشاندہی کی گئی۔ ہر ہوائی اڈے کے لیے، چھ ماہ کے لیے ٹیکسی آرڈرز کی تعداد پر منٹ بہ منٹ ڈیٹا دیا جاتا ہے۔ اور ٹیسٹ ڈیٹا کے طور پر، پچھلے 2 ہفتوں کے آرڈرز پر اگلے مہینے اور منٹ بہ منٹ ڈیٹا دیا گیا تھا۔ بہت کم وقت تھا (1,5 دن)، کام کافی مخصوص تھا، ٹیم میں سے صرف ایک شخص مقابلے میں آیا - اور نتیجے کے طور پر، یہ اختتام کی طرف ایک افسوسناک مقام تھا۔ دلچسپ خیالات میں بیرونی ڈیٹا کو استعمال کرنے کی کوششیں شامل ہیں: موسم، ٹریفک جام اور Yandex ٹیکسی آرڈر کے اعداد و شمار۔ اگرچہ منتظمین نے یہ نہیں بتایا کہ یہ ہوائی اڈے کون سے ہیں، لیکن بہت سے شرکاء نے فرض کیا کہ یہ شیرمیٹیوو، ڈومودیدوو اور ونوکووو ہیں۔ اگرچہ مقابلے کے بعد اس مفروضے کی تردید کر دی گئی، لیکن خصوصیات، مثال کے طور پر، ماسکو کے موسم کے اعداد و شمار نے توثیق اور لیڈر بورڈ دونوں پر نتائج کو بہتر کیا۔

حاصل يہ ہوا

  1. ایم ایل مقابلے ٹھنڈے اور دلچسپ ہیں! یہاں آپ کو اعداد و شمار کے تجزیہ میں مہارتوں کا استعمال، اور چالاک ماڈلز اور تکنیکوں میں ملے گا، اور عام فہم کا خیرمقدم ہے۔
  2. ایم ایل پہلے سے ہی علم کا ایک بہت بڑا ادارہ ہے جو لگتا ہے کہ تیزی سے بڑھ رہا ہے۔ میں نے اپنے آپ کو مختلف شعبوں (سگنلز، تصاویر، ٹیبلز، ٹیکسٹ) سے واقفیت حاصل کرنے کا ایک ہدف مقرر کیا اور پہلے سے ہی یہ محسوس کر لیا کہ مطالعہ کرنا کتنا ہے۔ مثال کے طور پر، ان مقابلوں کے بعد میں نے مطالعہ کرنے کا فیصلہ کیا: کلسٹرنگ الگورتھم، گریڈینٹ بوسٹنگ لائبریریوں کے ساتھ کام کرنے کے لیے جدید تکنیک (خاص طور پر، GPU پر CatBoost کے ساتھ کام کرنا)، کیپسول نیٹ ورکس، استفسار کی کلید کی توجہ کا طریقہ کار۔
  3. اکیلے کاگل سے نہیں! بہت سے دوسرے مقابلے ہیں جہاں کم از کم ٹی شرٹ حاصل کرنا آسان ہے، اور دیگر انعامات کے زیادہ امکانات ہیں۔
  4. بات چیت کریں! مشین لرننگ اور ڈیٹا کے تجزیہ کے شعبے میں پہلے سے ہی ایک بڑی کمیونٹی موجود ہے، ٹیلی گرام، سلیک میں موضوعاتی گروپس موجود ہیں، اور Mail.ru، Yandex اور دیگر کمپنیوں کے سنجیدہ لوگ سوالات کے جوابات دیتے ہیں اور اس شعبے میں اپنا راستہ جاری رکھنے والوں اور ابتدائی افراد کی مدد کرتے ہیں۔ علم کا
  5. میں ہر ایک کو مشورہ دیتا ہوں جو پچھلے نقطہ سے متاثر ہوا تھا دورہ کرنے کا ڈیٹا فیسٹ - ماسکو میں ایک بڑی مفت کانفرنس، جو 10-11 مئی کو ہوگی۔

ماخذ: www.habr.com

نیا تبصرہ شامل کریں