Kbir Hadron Collider u Odnoklassniki

Inkomplu t-tema tal-kompetizzjonijiet tat-tagħlim tal-magni fuq Habré, nixtiequ nintroduċu lill-qarrejja għal żewġ pjattaformi oħra. Żgur li mhumiex enormi daqs il-kaggle, iżda żgur li jistħoqqilhom attenzjoni.

Kbir Hadron Collider u Odnoklassniki

Personalment, ma nħobbx il-kaggle wisq għal diversi raġunijiet:

  • l-ewwelnett, il-kompetizzjonijiet hemmhekk spiss idumu għal diversi xhur, u l-parteċipazzjoni attiva teħtieġ ħafna sforz;
  • it-tieni, kernels pubbliċi (soluzzjonijiet pubbliċi). L-aderenti ta 'Kaggle jagħtuhom parir li jittrattawhom bil-kalma tal-patrijiet Tibetani, iżda fir-realtà hija pjuttost tal-mistħija meta xi ħaġa li ilek taħdem għaliha għal xahar jew tnejn f'daqqa tirriżulta li tkun imqiegħda fuq platt tal-fidda għal kulħadd.

Fortunatament, il-kompetizzjonijiet tat-tagħlim tal-magni jsiru fuq pjattaformi oħra, u ftit minn dawn il-kompetizzjonijiet se jiġu diskussi.

IDAO SNA Hackathon 2019
Lingwa uffiċjali: Ingliż,
organizzaturi: Yandex, Sberbank, HSE
Lingwa uffiċjali Russa,
organizzaturi: Grupp Mail.ru
Rawnd onlajn: 15 ta’ Jannar — 11 ta’ Frar, 2019;
Finali fuq il-post: 4-6 ta’ April, 2019
online - mis-7 ta’ Frar sal-15 ta’ Marzu;
offline - mit-30 ta' Marzu sal-1 ta' April.
Bl-użu ta' ċertu sett ta' dejta dwar partiċella fil-Kbir Hadron Collider (trajettorja, momentum, u parametri fiżiċi oħra pjuttost kumplessi), iddetermina jekk huwiex muon jew le
Minn din id-dikjarazzjoni, ġew identifikati 2 kompiti:
— f'wieħed biss kellek tibgħat it-tbassir tiegħek,
- u fl-oħra - il-kodiċi sħiħ u l-mudell għat-tbassir, u l-eżekuzzjoni kienet soġġetta għal restrizzjonijiet pjuttost stretti fuq il-ħin tat-tħaddim u l-użu tal-memorja
Għall-kompetizzjoni SNA Hackathon, inġabru r-reġistri tal-wirjiet tal-kontenut minn gruppi miftuħa f'għalf tal-aħbarijiet tal-utenti għal Frar-Marzu 2018. Is-sett tat-test fih l-aħħar ġimgħa u nofs ta’ Marzu. Kull daħla fil-ġurnal fiha informazzjoni dwar x'intwera u lil min, kif ukoll kif l-utent irreaġixxa għal dan il-kontenut: ikklassifikah, ikkummenta, injora jew ħeba mill-feed.
L-essenza tal-kompiti tal-SNA Hackathon hija li tikklassifika kull utent tan-netwerk soċjali Odnoklassniki l-għalf tiegħu, u jgħolli kemm jista 'jkun dawk il-postijiet li se jirċievu "klassi".
Fl-istadju online, il-kompitu kien maqsum fi 3 partijiet:
1. jikklassifika l-karigi skont diversi karatteristiċi kollaborattivi
2. jikklassifika l-postijiet ibbażati fuq l-immaġini li jkun fihom
3. jikklassifika l-postijiet skond it-test li jkun fihom
Metrika personalizzata kumplessa, xi ħaġa bħal ROC-AUC Medja ROC-AUC skont l-utent
Premjijiet għall-ewwel stadju - T-shirts għal N postijiet, passaġġ għat-tieni stadju, fejn tħallsu l-akkomodazzjoni u l-ikliet waqt il-kompetizzjoni
It-tieni fazi - ??? (Għal ċerti raġunijiet, ma kontx preżenti fiċ-ċerimonja tal-premjazzjoni u ma stajtx insir naf x'kienu l-premjijiet fl-aħħar). Huma wiegħdu laptops lill-membri kollha tat-tim rebbieħ
Premjijiet għall-ewwel stadju - T-shirts għall-aqwa 100 parteċipant, passaġġ għat-tieni stadju, fejn tħallsu l-ivvjaġġar lejn Moska, akkomodazzjoni u ikliet waqt il-kompetizzjoni. Ukoll, lejn tmiem l-ewwel stadju, tħabbru premjijiet għall-aħjar fi 3 kompiti fl-istadju 1: kulħadd rebaħ karta tal-vidjo RTX 2080 TI!
It-tieni stadju kien stadju tat-timijiet, timijiet kienu jikkonsistu minn 2 sa 5 persuni, premjijiet:
L-ewwel post - 1 rublu
L-ewwel post - 2 rublu
L-ewwel post - 3 rublu
premju tal-ġurija - 100 rublu
Grupp tat-telegramma uffiċjali, ~190 parteċipant, komunikazzjoni bl-Ingliż, mistoqsijiet kellhom jistennew diversi jiem għal tweġiba Grupp uffiċjali f'telegramma, ~1500 parteċipant, diskussjoni attiva tal-kompiti bejn il-parteċipanti u l-organizzaturi
L-organizzaturi pprovdew żewġ soluzzjonijiet bażiċi, sempliċi u avvanzati. Sempliċi kienet teħtieġ inqas minn 16 GB ta 'RAM, u memorja avvanzata ma tidħolx f'16. Fl-istess ħin, meta nħarsu 'l quddiem ftit, il-parteċipanti ma setgħux jaqbżu b'mod sinifikanti s-soluzzjoni avvanzata. Ma kien hemm l-ebda diffikultajiet fit-tnedija ta' dawn is-soluzzjonijiet. Ta’ min jinnota li fl-eżempju avvanzat kien hemm kumment b’ħjiel ta’ fejn tibda tittejjeb is-soluzzjoni. Ġew ipprovduti soluzzjonijiet primittivi bażiċi għal kull wieħed mill-kompiti, li kienu faċilment qabżu mill-parteċipanti. Fl-ewwel jiem tal-kompetizzjoni, il-parteċipanti ltaqgħu ma 'diversi diffikultajiet: l-ewwelnett, id-dejta ngħatat fil-format Apache Parquet, u mhux il-kombinazzjonijiet kollha ta' Python u l-pakkett tal-parkè ħadmu mingħajr żbalji. It-tieni diffikultà kienet it-tniżżil ta' stampi mill-mail cloud; bħalissa m'hemm l-ebda mod faċli biex tniżżel ammont kbir ta' data f'daqqa. Bħala riżultat, dawn il-problemi ttardjaw lill-parteċipanti għal ftit jiem.

IDAO. L-ewwel stadju

Il-kompitu kien li tikklassifika partiċelli muon/mhux muon skont il-karatteristiċi tagħhom. Il-karatteristika ewlenija ta 'dan il-kompitu kienet il-preżenza ta' kolonna tal-piż fid-dejta tat-taħriġ, li l-organizzaturi nfushom interpretaw bħala fiduċja fit-tweġiba għal din il-linja. Il-problema kienet li pjuttost ftit ringieli kien fihom piżijiet negattivi.

Kbir Hadron Collider u Odnoklassniki

Wara li ħsibt għal ftit minuti dwar il-linja bil-ħjiel (il-ħjiel sempliċement ġibdet l-attenzjoni għal din il-karatteristika tal-kolonna tal-piż) u nibnu dan il-graff, iddeċidejna li niċċekkjaw 3 għażliet:

1) aqleb il-mira tal-linji b'piżijiet negattivi (u piżijiet kif xieraq)
2) iċċaqlaq il-piżijiet għall-valur minimu sabiex jibdew minn 0
3) tużax piżijiet tal-ispag

It-tielet għażla rriżulta li kienet l-agħar, iżda l-ewwel tnejn tejbu r-riżultat, l-aħjar kienet l-għażla Nru 1, li immedjatament wasslitna fit-tieni post attwali fl-ewwel kompitu u l-ewwel fit-tieni.
Kbir Hadron Collider u Odnoklassniki
Il-pass li jmiss tagħna kien li nirrevedu d-dejta għal valuri neqsin. L-organizzaturi tawna dejta diġà mimxuta, fejn kien hemm pjuttost ftit valuri neqsin, u ġew sostitwiti b'-9999.

Sibna valuri neqsin fil-kolonni MatchedHit_{X,Y,Z}[N] u MatchedHit_D{X,Y,Z}[N], u biss meta N=2 jew 3. Kif nifhmu, xi partiċelli ma kinux għaddi l-4 detectors kollha, u waqaf jew fuq it-3 jew ir-4 pjanċa. Id-dejta kien fiha wkoll kolonni Lextra_{X,Y}[N], li apparentement jiddeskrivu l-istess ħaġa bħal MatchedHit_{X,Y,Z}[N], iżda bl-użu ta’ xi tip ta’ estrapolazzjoni. Dawn l-ipoteki żgħar issuġġerew li Lextra_{X,Y}[N] tista’ tiġi sostitwita għall-valuri neqsin f’MatchedHit_{X,Y,Z}[N] (għall-koordinati X u Y biss). MatchedHit_Z[N] kien mimli sew bil-medjan. Dawn il-manipulazzjonijiet ippermettewna li nilħqu l-ewwel post intermedju fiż-żewġ kompiti.

Kbir Hadron Collider u Odnoklassniki

Meta wieħed iqis li ma taw xejn għar-rebħ tal-ewwel stadju, stajna nieqfu hemm, imma komplejna, ġibna xi stampi sbieħ u ħriġna b’karatteristiċi ġodda.

Kbir Hadron Collider u Odnoklassniki

Pereżempju, sibna li jekk nippjanaw il-punti ta’ intersezzjoni ta’ partiċella ma’ kull waħda mill-erba’ pjanċi tad-detector, nistgħu naraw li l-punti fuq kull waħda mill-pjanċi huma miġbura f’5 rettangoli b’proporzjon ta’ 4 sa 5 u ċċentrata fuq il-punt (0,0), u fl M'hemm l-ebda punti fl-ewwel rettangolu.

Nru tal-pjanċa / dimensjonijiet tar-rettangolu 1 2 3 4 5
Pjanċa 1 500х625 1000х1250 2000х2500 4000х5000 8000х10000
Pjanċa 2 520х650 1040х1300 2080х2600 4160х5200 8320х10400
Pjanċa 3 560х700 1120х1400 2240х2800 4480х5600 8960х11200
Pjanċa 4 600х750 1200х1500 2400х3000 4800х6000 9600х12000

Wara li ddeterminajna dawn id-dimensjonijiet, żidna 4 karatteristiċi kategoriċi ġodda għal kull partiċella - in-numru tar-rettangolu li fih jaqsam kull pjanċa.

Kbir Hadron Collider u Odnoklassniki

Innutajna wkoll li l-partiċelli dehru li jinfirxu mal-ġnub miċ-ċentru u qamet l-idea li b'xi mod tiġi evalwata l-"kwalità" ta 'dan it-tifrix. Idealment, probabbilment ikun possibbli li toħroġ b'xi tip ta 'parabola "ideali" skont il-punt tat-tluq u nistmaw id-devjazzjoni minnha, iżda llimitajna ruħna għal-linja dritta "ideali". Wara li bnejna linji dritti ideali bħal dawn għal kull punt ta 'dħul, stajna nikkalkulaw id-devjazzjoni standard tat-trajettorja ta' kull partiċella minn din il-linja dritta. Peress li d-devjazzjoni medja għal mira = 1 kienet 152, u għal mira = 0 kienet 390, b'mod tentattiv ivvalutajna din il-karatteristika bħala tajba. U tabilħaqq, din il-karatteristika immedjatament għamlitha fil-quċċata ta 'dawk l-aktar utli.

Konna kuntenti u żidna d-devjazzjoni tal-4 punti ta 'intersezzjoni kollha għal kull partiċella mil-linja dritta ideali bħala 4 karatteristiċi addizzjonali (u ħadmu wkoll tajjeb).

Links għal artikli xjentifiċi dwar is-suġġett tal-kompetizzjoni, mogħtija lilna mill-organizzaturi, qanqlu l-idea li aħna 'l bogħod mill-ewwel li nsolvu din il-problema u, forsi, hemm xi tip ta' softwer speċjalizzat. Wara li skoprejna repożitorju fuq github fejn ġew implimentati l-metodi IsMuonSimple, IsMuon, IsMuonLoose, ittrasferijnahom fis-sit tagħna b'modifiki minuri. Il-metodi nfushom kienu sempliċi ħafna: per eżempju, jekk l-enerġija hija inqas minn ċertu limitu, allura ma jkunx muon, inkella huwa muon. Karatteristiċi sempliċi bħal dawn ovvjament ma setgħux jagħtu żieda fil-każ ta 'użu ta' spinta tal-gradjent, għalhekk żidna "distanza" sinifikanti oħra mal-limitu. Dawn il-karatteristiċi ġew ukoll kemmxejn imtejba. Forsi, billi jiġu analizzati metodi eżistenti aktar bir-reqqa, kien possibbli li jinstabu metodi aktar b'saħħithom u żżidhom mas-sinjali.

Fl-aħħar tal-kompetizzjoni, għamilna kemmxejn is-soluzzjoni "malajr" għat-tieni problema; fl-aħħar, kienet differenti mil-linja bażi fil-punti li ġejjin:

  1. F'ringieli b'piż negattiv il-mira kienet maqluba
  2. Imla l-valuri neqsin f'MatchedHit_{X,Y,Z}[N]
  3. Fond imnaqqas għal 7
  4. Rata ta' tagħlim imnaqqsa għal 0.1 (kienet 0.19)

Bħala riżultat, ippruvajna aktar karatteristiċi (mhux b'suċċess kbir), parametri magħżula u catboost imħarrġa, lightgbm u xgboost, ippruvajna taħlit differenti ta 'previżjonijiet u qabel ftaħna l-privat irbaħna b'fiduċja fit-tieni kompitu, u fuq l-ewwel konna fost il- mexxejja.

Wara li ftaħna l-privat konna fl-10 post għall-1 biċċa xogħol u t-3 għat-tieni. Il-mexxejja kollha tħalltu, u l-veloċità fil-privat kienet ogħla milli fuq il-libboard. Jidher li d-dejta kienet stratifikata ħażin (jew pereżempju ma kien hemm l-ebda ringieli b'piżijiet negattivi fil-privat) u dan kien daqsxejn frustranti.

SNA Hackathon 2019 - Testi. L-ewwel stadju

Il-kompitu kien li jikklassifika l-postijiet tal-utent fuq in-netwerk soċjali Odnoklassniki abbażi tat-test li kien fihom; minbarra t-test, kien hemm ftit karatteristiċi oħra tal-post (lingwa, sid, data u ħin tal-ħolqien, data u ħin tal-wiri). ).

Bħala approċċi klassiċi biex taħdem mat-test, nenfasizza żewġ għażliet:

  1. L-immappjar ta’ kull kelma fi spazju vettorjali n-dimensjonali b’tali mod li kliem simili jkollhom vettori simili (aqra aktar fi artiklu tagħna), imbagħad jew issib il-kelma medja għat-test jew tuża mekkaniżmi li jqisu l-pożizzjoni relattiva tal-kliem (CNN, LSTM/GRU).
  2. Uża mudelli li jistgħu jaħdmu immedjatament b'sentenzi sħaħ. Per eżempju, Bert. Fit-teorija, dan l-approċċ għandu jaħdem aħjar.

Peress li din kienet l-ewwel esperjenza tiegħi bit-testi, ikun ħażin li ngħallem lil xi ħadd, għalhekk se ngħallem lili nnifsi. Dawn huma l-pariri li nagħti lili nnifsi fil-bidu tal-kompetizzjoni:

  1. Qabel ma tiġri biex tgħallem xi ħaġa, ħares lejn id-dejta! Minbarra t-test innifsu, id-dejta kellha diversi kolonni u kien possibbli li jingħafas ħafna aktar minnhom milli għamilt jien. L-iktar ħaġa sempliċi hija li tagħmel tfisser kodifikazzjoni fil-mira għal xi wħud mill-kolonni.
  2. Titgħallimx mid-dejta kollha! Kien hemm ħafna dejta (madwar 17-il miljun ringiela) u ma kienx assolutament meħtieġ li jintużaw kollha biex jiġu ttestjati l-ipoteżi. It-taħriġ u l-ipproċessar minn qabel kienu pjuttost bil-mod, u ovvjament kien ikolli ħin biex nittestja ipoteżijiet aktar interessanti.
  3. <Pariri kontroversjali> M'hemmx għalfejn tfittex mudell qattiel. Għamilt żmien twil nifhem lil Elmo u Bert, bit-tama li immedjatament jieħduni f'post għoli, u bħala riżultat użajt inkorporazzjonijiet mħarrġa minn qabel FastText għall-lingwa Russa. Ma stajtx nikseb veloċità aħjar ma 'Elmo, u għadni ma kellix ħin biex insibha ma' Bert.
  4. <Pariri kontroversjali> M'hemmx għalfejn tfittex karatteristika waħda qattiel. Meta nħares lejn id-dejta, ndunajt li madwar 1 fil-mija tat-testi fil-fatt ma fihomx test! Iżda kien hemm links għal xi riżorsi, u ktibt parser sempliċi li fetaħ is-sit u ħareġ it-titlu u d-deskrizzjoni. Dehret li kienet idea tajba, imma mbagħad tlajt u ddeċidejt li naqsam il-links kollha għat-testi kollha u għal darb'oħra tlift ħafna ħin. Dan kollu ma pprovdiex titjib sinifikanti fir-riżultat finali (għalkemm kont dehret li tirriżulta, pereżempju).
  5. Il-karatteristiċi klassiċi jaħdmu. Aħna Google, pereżempju, "test features kaggle", naqraw u nżidu kollox. TF-IDF ipprovda titjib, kif għamlu karatteristiċi statistiċi bħat-tul tat-test, kliem, u l-ammont ta 'punteġġjatura.
  6. Jekk ikun hemm kolonni DateTime, ta 'min iparsilhom f'diversi karatteristiċi separati (sigħat, ġranet tal-ġimgħa, eċċ.). Liema karatteristiċi għandhom jiġu enfasizzati għandhom jiġu analizzati bl-użu ta 'grafiċi/xi metriċi. Hawnhekk, fuq kapriċċ, għamilt kollox b'mod korrett u enfasizza l-karatteristiċi meħtieġa, iżda analiżi normali ma kinitx tagħmel ħsara (per eżempju, kif għamilna fil-finali).

Kbir Hadron Collider u Odnoklassniki

Bħala riżultat tal-kompetizzjoni, tħarreġ mudell wieħed tal-keras b'konvoluzzjoni tal-kliem, u ieħor ibbażat fuq LSTM u GRU. It-tnejn li huma użaw inkorporazzjonijiet FastText mħarrġa minn qabel għal-lingwa Russa (ppruvajt numru ta 'inkorporazzjonijiet oħra, iżda dawn kienu dawk li ħadmu l-aħjar). Wara li kkalkulajt il-medja tat-tbassir, ħadt is-7 post finali minn 76 parteċipant.

Wara l-ewwel stadju ġie ppubblikat artikolu minn Nikolai Anokhin, li ħa t-tieni post (hu pparteċipa barra mill-kompetizzjoni), u s-soluzzjoni tiegħu sa xi stadju irrepetiet minjiera, iżda mar aktar minħabba l-mekkaniżmu ta 'attenzjoni tal-mistoqsija-ċavetta-valur.

It-tieni stadju OK & IDAO

It-tieni stadji tal-kompetizzjonijiet saru kważi konsekuttivi, għalhekk iddeċidejt li nħares lejhom flimkien.

L-ewwel, jien u t-tim akkwistat il-ġdid spiċċajna fl-uffiċċju impressjonanti tal-kumpanija Mail.ru, fejn il-kompitu tagħna kien li ngħaqqdu l-mudelli ta 'tliet binarji mill-ewwel stadju - test, stampi u kollaborazzjoni. Ftit aktar minn 2 ijiem ġew allokati għal dan, li rriżulta li kien ftit. Fil-fatt, stajna biss nirrepetu r-riżultati tagħna mill-ewwel stadju mingħajr ma rċevejna xi qligħ mill-għaqda. Fl-aħħar, ħadna l-5 post, iżda ma stajniex nużaw il-mudell tat-test. Wara li ħares lejn is-soluzzjonijiet ta 'parteċipanti oħra, jidher li kien ta' min jipprova jiġbor it-testi u jżidhom mal-mudell kollab. Effett sekondarju ta 'dan l-istadju kien impressjonijiet ġodda, laqgħa u komunikazzjoni ma' parteċipanti u organizzaturi friski, kif ukoll nuqqas serju ta 'rqad, li setgħu affettwaw ir-riżultat tal-istadju finali tal-IDAO.

Il-kompitu fl-istadju Finali tal-IDAO 2019 kien li jitbassar il-ħin ta 'stennija għal ordni għas-sewwieqa tat-taxis Yandex fl-ajruport. Fl-istadju 2, ġew identifikati 3 kompiti = 3 ajruporti. Għal kull ajruport, tingħata data minuta b'minuta dwar in-numru ta' ordnijiet ta' taxi għal sitt xhur. U bħala dejta tat-test, ingħataw ix-xahar li jmiss u d-dejta minuta b'minuta dwar l-ordnijiet għall-aħħar ġimgħatejn. Kien hemm ftit ħin (2 jum), il-kompitu kien pjuttost speċifiku, persuna waħda biss mit-tim waslet għall-kompetizzjoni - u bħala riżultat, kien post imdejjaq lejn l-aħħar. Ideat interessanti inkludew tentattivi biex tintuża dejta esterna: it-temp, il-konġestjonijiet tat-traffiku u l-istatistika tal-ordnijiet tat-taxi Yandex. Għalkemm l-organizzaturi ma qalux x’kienu dawn l-ajruporti, ħafna parteċipanti assumew li kienu Sheremetyevo, Domodedovo u Vnukovo. Għalkemm din is-suppożizzjoni ġiet miċħuda wara l-kompetizzjoni, karatteristiċi, pereżempju, mid-dejta tat-temp ta 'Moska tejbu r-riżultati kemm fuq il-validazzjoni kif ukoll fuq il-leaderboard.

Konklużjoni

  1. Il-kompetizzjonijiet ML huma friski u interessanti! Hawnhekk issib l-użu ta 'ħiliet fl-analiżi tad-dejta, u f'mudelli u tekniki cunning, u sempliċement is-sens komun huwa milqugħ.
  2. ML diġà huwa korp enormi ta 'għarfien li jidher li qed jikber b'mod esponenzjali. Ffissejt lili nnifsi mira li niffamiljarizza ruħi ma’ oqsma differenti (sinjali, stampi, tabelli, test) u diġà rrealizzajt kemm hemm xi studju. Pereżempju, wara dawn il-kompetizzjonijiet iddeċidejt li nistudja: algoritmi ta' raggruppament, tekniki avvanzati biex taħdem ma' libreriji li jsaħħu l-gradjent (b'mod partikolari, ħidma ma' CatBoost fuq il-GPU), netwerks tal-kapsuli, il-mekkaniżmu ta 'attenzjoni tal-query-key-value.
  3. Mhux bil-kaggle biss! Hemm ħafna kompetizzjonijiet oħra fejn huwa aktar faċli li tikseb mill-inqas T-shirt, u hemm aktar ċansijiet għal premjijiet oħra.
  4. Ikkomunika! Diġà hemm komunità kbira fil-qasam tat-tagħlim tal-magni u l-analiżi tad-dejta, hemm gruppi tematiċi f'telegramma, slack, u nies serji minn Mail.ru, Yandex u kumpaniji oħra jwieġbu mistoqsijiet u jgħinu lill-jibdew u lil dawk li jkomplu t-triq tagħhom f'dan il-qasam tal-għarfien.
  5. Nagħti parir lil kull min kien ispirat mill-punt preċedenti biex iżuru datafest — konferenza kbira ħielsa f'Moska, li se ssir bejn l-10 u l-11 ta' Mejju.

Sors: www.habr.com

Żid kumment