لوی هیډرون کولیډر او اوډنوکلاسنیکي

په Habré کې د ماشین زده کړې سیالیو موضوع ته دوام ورکولو سره، موږ غواړو لوستونکي دوه نورو پلیټ فارمونو ته معرفي کړو. دوی یقینا د کیګل په څیر لوی ندي ، مګر دوی یقینا د پاملرنې وړ دي.

لوی هیډرون کولیډر او اوډنوکلاسنیکي

په شخصي توګه، زه د څو دلیلونو لپاره کاګل ډیر نه خوښوم:

  • لومړی، سیالۍ ډیری وختونه د څو میاشتو لپاره دوام کوي، او فعال ګډون ډیرې هڅې ته اړتیا لري؛
  • دوهم، عامه دانا (عامه حلونه). د کاګل پیروان د تبتی راهبانو سره د آرامۍ چلند کولو مشوره ورکوي ، مګر په حقیقت کې دا خورا د شرم خبره ده کله چې تاسو د یوې یا دوه میاشتو راهیسې کار کوئ ناڅاپه د هرچا لپاره د سپینو زرو په تخته کې ایښودل کیږي.

خوشبختانه، د ماشین زده کړې سیالۍ په نورو پلیټ فارمونو کې ترسره کیږي، او د دې سیالیو یو څو به بحث وشي.

IDAO د SNA هیکاتون 2019
رسمي ژبه: انګلیسي،
تنظیم کونکي: Yandex، Sberbank، HSE
رسمي روسي ژبه،
تنظیم کونکي: Mail.ru ګروپ
آنلاین پړاو: د جنوري 15 - د فبروري 11، 2019؛
په سایټ کې فاینل: د اپریل 4-6، 2019
آنلاین - د فبروري له 7 څخه تر مارچ 15 پورې؛
آفلاین - د مارچ له 30 څخه تر اپریل 1 پورې.
په لوی هیډرون کولیډر کې د یوې ذرې په اړه د ډیټا د یوې ټاکلې سیټ په کارولو سره (ټریکوري، حرکت، او نور پیچلي فزیکي پیرامیټونه)، معلومه کړئ چې آیا دا یو میوون دی که نه
له دې بیان څخه، دوه دندې په ګوته شوي:
- په یوه کې تاسو باید خپل وړاندوینه واستوئ،
- او په بل کې - د وړاندوینې لپاره بشپړ کوډ او ماډل ، او اجرا کول د چلولو وخت او حافظې کارولو باندې خورا سخت محدودیتونو تابع و.
د SNA هیکاتون سیالۍ لپاره، د فبروري - مارچ 2018 لپاره د کاروونکو خبرونو فیډونو کې د خلاص ګروپونو څخه د مینځپانګې ښودلو لاګونه راټول شوي. د ازموینې سیټ د مارچ وروستۍ اونۍ او نیمه لري. په لاګ کې هره ننوتنه د دې په اړه معلومات لري چې څه ښودل شوي او چا ته ، او همدارنګه د دې مینځپانګې په اړه کارونکي څنګه عکس العمل ښودلی: دا درجه بندي شوې ، تبصره یې کړې ، سترګې یې پټې کړې ، یا یې له فیډ څخه پټې کړې.
د SNA هیکاتون د دندو جوهر دا دی چې د ټولنیز شبکې هر کارونکي د خپل فیډ Odnoklassniki درجه بندي کړي، د امکان تر حده هغه پوسټونه لوړ کړي چې "ټولګي" ترلاسه کوي.
په آنلاین مرحله کې، دنده په 3 برخو ویشل شوې وه:
1. پوستونه د مختلفو همکاری ځانګړتیاوو له مخې درجه بندي کړئ
2. پوستونه د هغه انځورونو پر بنسټ چې دوی لري درجه بندي کړئ
3. پوسټونه د هغه متن له مخې چې دوی پکې لري درجه بندي کړئ
پیچلي دودیز میټریک، یو څه لکه ROC-AUC د کارونکي لخوا اوسط ROC-AUC
د لومړي مرحلې لپاره جایزې - د N ځایونو لپاره ټي شرټونه ، دوهم مرحلې ته تیریدل ، چیرې چې د سیالۍ په جریان کې استوګنځی او خواړه ورکړل شوي
دوهم پړاو - ؟؟؟ (د ځینو دلایلو له امله، زه د جایزې په مراسمو کې حاضر نه وم او نشو کولی معلومه کړم چې جایزې په پای کې څه وې). دوی د ګټونکي ټیم ټولو غړو ته د لپ ټاپونو ژمنه وکړه
د لومړي مرحلې لپاره جایزې - د 100 غوره برخه اخیستونکو لپاره ټي شرټونه، دویم پړاو ته لیږدول، چیرې چې مسکو ته سفر، د سیالۍ په جریان کې استوګنځي او خواړه ورکړل شوي. همدارنګه، د لومړۍ مرحلې په پای کې، په لومړۍ مرحله کې په 3 دندو کې د غوره لپاره جایزې اعلان شوې: هر چا د RTX 1 TI ویډیو کارت وګاټه!
دویمه مرحله د ټیم مرحله وه، ټیمونه له 2 څخه تر 5 پورې کسان وو، انعامونه:
لومړی ځای - 1 روبل
لومړی ځای - 2 روبل
لومړی ځای - 3 روبل
د جوري جایزه - 100 روبله
د رسمي ټیلیګرام ګروپ، ~ 190 برخه اخیستونکي، په انګلیسي ژبه اړیکه، پوښتنې باید د ځواب لپاره څو ورځې انتظار وکړي په ټیلیګرام کې رسمي ډله، ~ 1500 ګډون کوونکي، د ګډون کوونکو او تنظیم کونکو ترمنځ د دندو فعال بحث
تنظیم کونکو دوه اساسي حلونه چمتو کړل، ساده او پرمختللي. ساده د 16 GB څخه لږ رام ته اړتیا لري، او پرمختللي حافظه په 16 کې مناسبه نه وه. په ورته وخت کې، یو څه لږ مخ په لټه کې، ګډون کونکي ونه توانیدل چې د پام وړ پرمختللی حل غوره کړي. د دې حلونو په پیل کولو کې هیڅ مشکل شتون نلري. دا باید په پام کې ونیول شي چې په پرمختللي مثال کې د یوې اشارې سره یوه تبصره وه چې د حل ښه کول چیرته پیل شي. د هرې دندې لپاره لومړني لومړني حلونه چمتو شوي، کوم چې د ګډونوالو لخوا په اسانۍ سره تیر شوي. د سیالۍ په لومړیو ورځو کې، برخه اخیستونکي له یو شمیر ستونزو سره مخ شول: لومړی، معلومات د اپاچي پارکیټ فارمیټ کې ورکړل شوي، او د پایتون او د پارکیټ کڅوړې ټول ترکیبونه پرته له خطا کار نه کوي. دویمه ستونزه د میل کلاوډ څخه د عکسونو ډاونلوډ کول و؛ دا مهال په یوځل کې د لوی مقدار ډیټا ډاونلوډ کولو لپاره اسانه لار نشته. د پایلې په توګه، دې ستونزو د غونډې ګډونوال د څو ورځو لپاره وځنډول.

IDAO. لومړی پړاو

دنده دا وه چې د میون / غیر میوون ذرات د دوی ځانګړتیاو سره سم طبقه بندي کړي. د دې دندې اصلي ځانګړتیا د روزنې معلوماتو کې د وزن کالم شتون و، کوم چې تنظیم کونکي پخپله د دې کرښې په ځواب کې د باور په توګه تشریح کوي. ستونزه دا وه چې یو څو قطارونه منفي وزن لري.

لوی هیډرون کولیډر او اوډنوکلاسنیکي

د اشارې سره د کرښې په اړه د څو دقیقو لپاره فکر کولو وروسته (اشاره په ساده ډول د وزن کالم دې ځانګړتیا ته پام اړولی) او د دې ګراف رامینځته کولو وروسته ، موږ پریکړه وکړه چې 3 اختیارونه وګورو:

1) د منفي وزنونو سره د کرښو هدف بدل کړئ (او د مطابق وزنونه)
2) وزنونه لږترلږه ارزښت ته واړوئ ترڅو دوی له 0 څخه پیل شي
3) د تار وزنونه مه کاروئ

دریم انتخاب تر ټولو خراب وګرځید، مګر لومړی دوو پایلو ته وده ورکړه، غوره انتخاب نمبر 1 و، کوم چې موږ په لومړي کار کې په لومړي او دویم کې په چټکۍ سره اوسني دویم ځای ته راوړو.
لوی هیډرون کولیډر او اوډنوکلاسنیکي
زموږ بل ګام د ورک شوي ارزښتونو لپاره د معلوماتو بیاکتنه وه. تنظیم کونکو موږ ته دمخه ګډ شوي ډیټا راکړي ، چیرې چې یو څه ورک شوي ارزښتونه شتون لري ، او دوی د -9999 لخوا بدل شوي.

موږ په MatchedHit_{X,Y,Z}[N] او MatchedHit_D{X,Y,Z}[N] کالمونو کې ورک شوي ارزښتونه وموندل، او یوازې کله چې N=2 یا 3. لکه څنګه چې موږ پوهیږو، ځینې ذرات ندي موندلي ټول 4 کشف کونکي تیر کړئ، او یا یې په دریم یا څلورم پلیټ کې ودرول. په معلوماتو کې د لیکسټرا_{X,Y}[N] کالمونه هم شامل دي، کوم چې په ښکاره ډول د میچډ هیټ_{X،Y،Z[N] په څیر ورته شی تشریح کوي، مګر د یو ډول اضافي کولو په کارولو سره. دې لږو اټکلونو وړاندیز وکړ چې Lextra_{X,Y}[N] په MatchedHit_{X,Y,Z}[N] کې د ورک شوي ارزښتونو لپاره ځای په ځای کیدی شي (یوازې د X او Y همغږي لپاره). MatchedHit_Z[N] د میډین سره ښه ډک شوی و. دې لاسوهنو موږ ته اجازه راکړه چې په دواړو دندو کې لومړي منځني ځای ته ورسیږو.

لوی هیډرون کولیډر او اوډنوکلاسنیکي

د دې په پام کې نیولو سره چې دوی د لومړي پړاو ګټلو لپاره هیڅ شی نه دی ورکړی، موږ کولی شو هلته ودریږو، مګر موږ دوام ورکړ، ځینې ښکلي عکسونه مو واخیستل او د نوي ځانګړتیاو سره راغلل.

لوی هیډرون کولیډر او اوډنوکلاسنیکي

د مثال په توګه، موږ وموندله چې که موږ د یوې ذرې د تقاطع نقطې د څلورو کشف کونکي پلیټونو څخه هر یو سره پلیټ کړو، نو موږ لیدلی شو چې په هر پلیټونو کې نقطې په 5 مستطیلونو کې د 4 څخه تر 5 پورې د اړخ تناسب سره ګروپ شوي او په مرکز کې موقعیت لري. نقطه (0,0)، او په لومړي مستطیل کې هیڅ ټکي شتون نلري.

د پلیټ نمبر / مستطیل ابعاد 1 2 3 4 5
پلیټ 1 XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX
پلیټ 2 XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX
پلیټ 3 XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX
پلیټ 4 XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX XNUMMXXUMX

د دې ابعادو په ټاکلو سره، موږ د هرې ذرې لپاره 4 نوي کټګوري ځانګړتیاوې اضافه کړې - د مستطیل شمیره چې دا هر پلیټ سره نښلوي.

لوی هیډرون کولیډر او اوډنوکلاسنیکي

موږ دا هم ولیدل چې ذرات د مرکز څخه اړخونو ته خوځیدلي ښکاري او دا نظر رامینځته شوی چې یو څه د دې توزیع کولو "کیفیت" ارزونه وکړي. په عین حال کې، دا به ممکنه وي چې د ټیک آف نقطې پورې اړوند یو ډول "مثالي" پارابولا سره راشي او له هغې څخه د انحراف اټکل وکړي، مګر موږ خپل ځان د "مثالي" مستقیم کرښې پورې محدود کړ. د ننوتلو د هرې نقطې لپاره د داسې مثالي مستقیم کرښو په جوړولو سره، موږ وکولی شو د دې مستقیم کرښې څخه د هرې ذرې د سرعت معیاري انحراف محاسبه کړو. څرنګه چې د هدف = 1 لپاره اوسط انحراف 152 و، او د هدف = 0 لپاره دا 390 و، موږ په لنډمهاله توګه دا ځانګړتیا ښه ارزوله. او په حقیقت کې، دا ځانګړتیا سمدلاسه د خورا ګټورو په سر کې ځای لري.

موږ خوښ یو او د هرې ذرې لپاره د ټولو 4 تقاطع نقطو انحراف د مثالي مستقیم کرښې څخه د اضافي 4 ځانګړتیاو په توګه اضافه کړ (او دوی هم ښه کار وکړ).

د سیالۍ په موضوع کې ساینسي مقالو ته لینکونه چې موږ ته د تنظیم کونکو لخوا ورکړل شوي، دا مفکوره هڅوي چې موږ د دې ستونزې حل کولو لپاره له لومړي څخه لرې یو او شاید یو ډول ځانګړي سافټویر شتون ولري. په ګیتوب کې د ذخیره کولو موندلو سره چیرې چې میتودونه IsMuonSimple، IsMuon، IsMuonLoose پلي شوي، موږ دوی زموږ سایټ ته د لږو بدلونونو سره لیږدول. طریقې پخپله خورا ساده وې: د بیلګې په توګه، که چیرې انرژي د یو ټاکلي حد څخه کمه وي، نو دا میوون نه دی، که نه دا یو میوون دی. دا ډول ساده ب featuresې په څرګند ډول نشي کولی د تدریجي ودې کارولو په قضیه کې زیاتوالی ورکړي ، نو موږ حد ته بل مهم "فاصله" اضافه کړه. دا ځانګړتیاوې هم یو څه ښه شوي دي. شاید، د موجوده میتودونو په ښه توګه تحلیل کولو سره، دا ممکنه وه چې قوي میتودونه ومومئ او په نښو کې یې اضافه کړئ.

د سیالۍ په پای کې، موږ د دویمې ستونزې لپاره "چټک" حل لږ څه ټیک کړ؛ په پای کې، دا په لاندې ټکو کې د بنسټیز څخه توپیر لري:

  1. د منفي وزن سره په قطارونو کې هدف بدل شو
  2. په MatchedHit_{X,Y,Z[N] کې په ورکو شویو ارزښتونو ډک شوی
  3. ژوروالی 7 ته کم شوی
  4. د زده کړې کچه 0.1 ته راټیټه شوې (0.19 وه)

د پایلې په توګه، موږ نور ځانګړتیاوې هڅه کړې (ډیر بریالیتوب نه دی)، ټاکل شوي پیرامیټونه او روزل شوي کیټ بوسټ، lightgbm او xgboost، د وړاندوینې مختلف ترکیبونه هڅه وکړه او د خصوصي پرانستلو دمخه موږ په ډاډ سره دوهم کار وګټلو، او په لومړي کې موږ د دوی په منځ کې یو. مشران

د خصوصي پرانستلو وروسته موږ د لومړۍ دندې لپاره په 10 ځای کې او د دویم لپاره دریم ځای کې وو. ټول مشران ګډ شول، او په شخصي کې سرعت د لیببورډ په پرتله لوړ و. داسې ښکاري چې معلومات په کمزوري ډول تنظیم شوي وو (یا د بیلګې په توګه په شخصي کې د منفي وزنونو سره هیڅ قطار شتون نلري) او دا یو څه مایوسه و.

SNA Hackathon 2019 - متنونه. لومړی پړاو

دنده دا وه چې د Odnoklassniki په ټولنیز شبکه کې د کاروونکو پوسټونو درجه بندي د هغه متن پراساس چې دوی پکې شامل دي؛ د متن سربیره، د پوسټ یو څو نور ځانګړتیاوې شتون درلود (ژبه، مالک، د جوړولو نیټه او وخت، نیټه او د لیدلو وخت ).

لکه څنګه چې د متن سره کار کولو لپاره کلاسیک طریقې، زه به دوه اختیارونه روښانه کړم:

  1. د هرې کلمې نقشه کول د n-dimensional vector space کې داسې چې ورته کلمې ورته ویکتورونه ولري (نور ولولئ زموږ مقاله)، بیا یا د متن لپاره اوسط کلمه پیدا کول یا د میکانیزمونو کارول چې د کلمو نسبي موقعیت په پام کې نیسي (CNN, LSTM/GRU).
  2. د ماډلونو کارول چې سمدلاسه د ټولو جملو سره کار کولی شي. د مثال په توګه، Bert. په تیوري کې، دا طریقه باید ښه کار وکړي.

څرنګه چې دا د متنونو سره زما لومړۍ تجربه وه، نو دا به غلط وي چې یو چا ته درس ورکړم، نو زه به پخپله درس ورکړم. دا هغه لارښوونې دي چې زه به یې د سیالۍ په پیل کې خپل ځان ته ورکړم:

  1. مخکې لدې چې تاسو د یو څه ښوونې لپاره ودریږئ ، ډاټا وګورئ! پخپله د متن سربیره، ډاټا ډیری کالمونه درلودل او دا ممکنه وه چې زما په پرتله ډیر څه وخورئ. ترټولو ساده شی دا دی چې د ځینې کالمونو لپاره د هدف کوډ کول معنی لري.
  2. د ټولو معلوماتو څخه زده مه کوئ! دلته ډیری معلومات شتون درلود (شاوخوا 17 ملیون قطارونه) او دا په بشپړ ډول اړین نه و چې د فرضیې ازموینې لپاره دا ټول وکاروئ. روزنه او پری پروسس کول خورا ورو وو، او ما په ښکاره ډول د نورو په زړه پورې فرضیو ازموینې لپاره وخت درلود.
  3. <اختلافي مشوره> د وژونکي ماډل په لټه کې کولو ته اړتیا نشته. ما د ایلمو او برټ په موندلو کې ډیر وخت تیر کړ، په دې هیله چې دوی به سمدلاسه ما یو لوړ ځای ته ورسوي، او په پایله کې ما د روسی ژبې لپاره د FastText دمخه روزل شوي سرایتونه کارولي. زه نشم کولی د ایلمو سره ښه سرعت ترلاسه کړم، او ما لاهم وخت نه درلود چې دا د برټ سره معلومه کړم.
  4. <اختلافي مشوره> د یو وژونکي ځانګړتیا په لټه کې کولو ته اړتیا نشته. د معلوماتو په لټه کې، ما ولیدل چې شاوخوا 1 سلنه متنونه په حقیقت کې متن نلري! مګر د ځینو سرچینو سره اړیکې درلودې، او ما یو ساده پارسر لیکلی و چې سایټ یې خلاص کړ او سرلیک او توضیحات یې واخیستل. دا د یو ښه نظر په څیر بریښي، مګر بیا زه لیرې شوم او پریکړه یې وکړه چې د ټولو متنونو لپاره ټولې لینکونه تجزیه کړم او بیا یې ډیر وخت له لاسه ورکړ. دا ټول په وروستۍ پایله کې د پام وړ پرمختګ ندی کړی (که څه هم ما د مثال په توګه د ډډ کولو په اړه فکر وکړ).
  5. کلاسیک ځانګړتیاوې کار کوي. موږ ګوګل، د بیلګې په توګه، "د متن ځانګړتیاوې کیګل"، هر څه ولولئ او اضافه کړئ. TF-IDF یو پرمختګ چمتو کړی، لکه څنګه چې د احصایوي ځانګړتیاوو لکه د متن اوږدوالی، کلمې، او د ټکي مقدار.
  6. که چیرې د نیټې وخت کالمونه شتون ولري ، نو دا د دوی په څو جلا ځانګړتیاو کې د تحلیل ارزښت لري (ساعتونه ، د اونۍ ورځې او نور). کوم ځانګړتیاوې باید روښانه شي باید د ګرافونو / ځینې میټریکونو په کارولو سره تحلیل شي. دلته، ما هر څه په سمه توګه ترسره کړل او اړین ځانګړتیاوې یې روښانه کړې، مګر یو نورمال تحلیل به زیان ونه رسوي (د مثال په توګه، لکه څنګه چې موږ په پای کې ترسره کړل).

لوی هیډرون کولیډر او اوډنوکلاسنیکي

د سیالۍ په پایله کې، ما یو د کیرا ماډل د کلمو د کنولوشن سره، او بل یې د LSTM او GRU پر بنسټ وروزل. دوی دواړه د روسی ژبې لپاره دمخه روزل شوي فاسټ متن ایمبیډینګونه کارولي (ما یو شمیر نور سرایتونه هڅه وکړه ، مګر دا هغه څه وو چې غوره کار کاوه). د اټکلونو د اوسط کولو وروسته، ما د 7 ګډون کوونکو څخه وروستی 76 ځای خپل کړ.

له لومړۍ مرحلې وروسته خپور شو د نیکولای انوکین مقاله، چا چې دوهم ځای خپل کړ (هغه د سیالۍ څخه بهر برخه اخیستې وه) ، او د هغه حل تر ځینې مرحلې پورې تکرار شوی ماین ، مګر هغه د پوښتنې - کلیدي ارزښت پاملرنې میکانیزم له امله نور هم لاړ.

دوهم پړاو OK او IDAO

د سیالیو دوهم پړاو تقریبا په دوامداره توګه ترسره شو، نو ما پریکړه وکړه چې دوی یوځای وګورم.

لومړی، زه او نوي ترلاسه شوي ټیم د Mail.ru شرکت په اغیزمن دفتر کې پای ته ورسیدو، چیرته چې زموږ دنده د لومړي پړاو څخه د دریو ټریکونو ماډلونه یوځای کول وو - متن، انځورونه او همکاري. د دې لپاره د 2 ورځو څخه لږ وخت اختصاص شوی و، کوم چې خورا لږ و. په حقیقت کې، موږ یوازې د دې توان درلود چې د لومړي پړاو څخه خپلې پایلې تکرار کړو پرته له دې چې د ادغام څخه کومې لاسته راوړنې ترلاسه کړو. په پای کې، موږ پنځم ځای خپل کړ، مګر موږ نشو کولی د متن ماډل وکاروو. د نورو ګډونوالو د حلونو په کتلو سره، داسې ښکاري چې دا د متنونو کلستر کولو او د کولیب ماډل کې د اضافه کولو هڅه کول ارزښت لري. د دې مرحلې یو اړخ اغیزه نوي تاثیرات، د سړو ګډون کوونکو او تنظیم کونکو سره لیدنه او خبرې اترې، او همدارنګه د خوب نشتوالی، چې کیدای شي د IDAO وروستي پړاو پایلې اغیزمن کړي.

د IDAO 2019 په وروستي مرحله کې دنده په هوایی ډګر کې د Yandex ټکسي چلوونکو لپاره د امر لپاره د انتظار وخت وړاندوینه وه. په 2 مرحله کې، 3 دندې = 3 هوایی ډګرونه پیژندل شوي. د هر هوایی ډګر لپاره، دقیقې دقیقې ډاټا د شپږو میاشتو لپاره د ټیکسي امرونو شمیره ورکول کیږي. او د ازموینې ډیټا په توګه ، د تیرو 2 اونیو امرونو په اړه راتلونکې میاشت او دقیقې دقیقې ډاټا ورکړل شوي. لږ وخت (1,5 ورځې) و، دنده خورا مشخصه وه، د ټیم څخه یوازې یو کس سیالۍ ته راغی - او په پایله کې، دا د پای په لور د افسوس ځای و. په زړه پورې نظرونو کې د بهرني ډیټا کارولو هڅې شاملې وې: هوا ، ترافیک جام او د Yandex ټیکسي امر احصایې. که څه هم تنظیم کونکو ونه ویل چې دا هوایی ډګرونه څه وو، ډیری برخه اخیستونکو ګومان کاوه چې دوی شیرمیټیو، دومودیدوو او وینکووو دي. که څه هم دا انګیرنه د سیالۍ وروسته رد شوه، ځانګړتیاوې، د بیلګې په توګه، د مسکو د هوا ډیټا څخه پایلې دواړه د اعتبار او لیډربورډ کې ښه شوي.

پایلې

  1. د ML سیالۍ ښې او په زړه پوري دي! دلته به تاسو د معلوماتو تحلیل کې د مهارتونو کارول ومومئ، او په چالاک ماډلونو او تخنیکونو کې، او په ساده ډول عام احساس ښه راغلاست دی.
  2. ML لا دمخه د پوهې لوی بدن دی چې داسې بریښي چې په چټکۍ سره وده کوي. ما خپل ځان ته یو هدف ټاکلی ترڅو د مختلفو ساحو (سګنالونه، انځورونه، میزونه، متن) سره آشنا شي او دمخه پوه شوم چې د مطالعې لپاره څومره شتون لري. د مثال په توګه ، د دې سیالیو وروسته ما پریکړه وکړه چې مطالعه وکړم: کلسټرینګ الګوریتمونه ، د تدریجي ودې کتابتونونو سره کار کولو پرمختللي تخنیکونه (په ځانګړي توګه ، په GPU کې د CatBoost سره کار کول) ، کیپسول شبکې ، د پوښتنې کلیدي ارزښت پاملرنې میکانیزم.
  3. یوازې د کیګل لخوا نه! ډیری نورې سیالۍ شتون لري چیرې چې لږترلږه د ټي شرټ ترلاسه کول اسانه دي ، او د نورو جایزو لپاره ډیر چانسونه شتون لري.
  4. اړیکه! د ماشین زده کړې او ډیټا تحلیلونو په برخه کې لا دمخه یوه لویه ټولنه شتون لري ، په ټیلیګرام کې موضوعاتي ډلې شتون لري ، سست ، او د Mail.ru ، Yandex او نورو شرکتونو څخه جدي خلک پوښتنې ځوابوي او له پیل کونکو او هغه خلکو سره مرسته کوي چې پدې برخه کې خپلې لارې ته دوام ورکوي. د پوهې
  5. زه هرچا ته مشوره ورکوم چې د مخکیني ټکي څخه الهام اخیستی ترڅو لیدنه وکړي datafest - په مسکو کې یو لوی وړیا کنفرانس، چې د می په 10-11 کې به ترسره شي.

سرچینه: www.habr.com

Add a comment