Kolîdera Hadronê ya Mezin û Odnoklassniki

Berdewamkirina mijara pêşbaziyên fêrbûna makîneyê li ser Habré, em dixwazin xwendevanan bi du platformên din re bidin nasîn. Ew bê guman bi qasî kaggle ne mezin in, lê ew bê guman baldar in.

Kolîdera Hadronê ya Mezin û Odnoklassniki

Bi kesane, ez ji ber çend sedeman zêde ji kaggle hez nakim:

  • yekem, pêşbaziyên li wir bi gelemperî çend mehan berdewam dikin, û beşdarbûna çalak gelek hewldan hewce dike;
  • duyemîn, kernelên giştî (çareseriyên giştî). Alîgirên Kaggle şîret dikin ku wan bi aramiya rahîbên Tîbetî derman bikin, lê di rastiyê de pir şerm e dema ku tiştek ku hûn mehek an du meh li ser dixebitin ji nişka ve derkeve holê ku ji her kesî re li ser sêlek zîv were danîn.

Xwezî, pêşbaziyên fêrbûna makîneyê li ser platformên din têne kirin, û çend ji van pêşbaziyan dê bêne nîqaş kirin.

IDAO SNA Hackathon 2019
Zimanê fermî: Îngilîzî,
organîzator: Yandex, Sberbank, HSE
Zimanê rûsî yê fermî,
organîzator: Mail.ru Group
Serhêl: 15 Jan - 11 Sibat, 2019;
Dawîn li ser malperê: 4-6 Avrêl, 2019
serhêl - ji 7ê Sibatê heta 15ê Adarê;
negirêdayî - ji 30ê Adarê heya 1ê Avrêlê.
Bi karanîna komek daneya li ser perçeyek di Lihevkera Hadronê ya Mezin de (trajektor, momentum û pîvanên din ên fîzîkî yên tevlihev), diyar bikin ka ew mûon e an na.
Di vê daxuyaniyê de 2 erk hatin diyarkirin:
- di yek de hûn tenê hewce bûn ku pêşbîniya xwe bişînin,
- û di ya din de - kod û modela bêkêmasî ya ji bo pêşbîniyê, û darvekirinê di derheqê dema xebitandinê û karanîna bîranînê de bi sînorkirinên pir hişk ve girêdayî bû.
Ji bo pêşbaziya SNA Hackathon, têketinên pêşandanên naverokê yên ji komên vekirî yên di nûçeyên bikarhêneran de ji bo Sibat-Adar 2018 hatin berhev kirin. Komxebata îmtîhanê hefteyek û nîvê Adarê ya paşîn dihewîne. Her têketinek di têketinê de agahdarî li ser tiştên ku hatine nîşandan û ji kê re vedihewîne, û hem jî bikarhêner çawa bertek nîşanî vê naverokê da: wê nirxand, şîrove kir, guh neda wê, an jî ji ser feed veşart.
Esasê peywirên SNA Hackathon ev e ku her bikarhênerek tora civakî Odnoklassniki nirxa xwe rêz bike, wan postên ku dê "pol" werbigirin, bi qasî ku pêkan bilind bike.
Di qonaxa serhêl de, kar li 3 beşan hate dabeş kirin:
1. rêzkirina postan li gorî taybetmendiyên hevkariyê yên cihêreng
2. rêzkirina postan li gorî wêneyên ku di wan de hene
3. postan li gorî nivîsa ku dihewîne rêz bike
Metrîka xwerû ya tevlihev, tiştek mîna ROC-AUC Ji hêla bikarhêner ve ROC-AUC navîn
Xelatên qonaxa yekem - T-shirts ji bo N cihên, derbasbûna qonaxa duyemîn, ku di dema pêşbaziyê de rûniştin û xwarin hatin dayîn.
Qonaxa duyemîn - ??? (Ji ber hin sedeman ez di merasîma xelatdayînê de amade nebûm û nekarîm bizanim di dawiyê de xelat çi bûn). Wan soza laptopan da hemî endamên tîmê serketî
Xelatên qonaxa yekem - T-shirts ji bo 100 beşdarên çêtirîn, derbasbûna qonaxa duyemîn, ku rêwîtiya Moskowê, rûniştin û xwarin di dema pêşbaziyê de hatin dayîn. Di heman demê de, di dawiya qonaxa yekem de, di qonaxa 3 de di 1 peywiran de xelatên çêtirîn hatin ragihandin: her kesî qerta vîdyoyek RTX 2080 TI qezenc kir!
Qonaxa duyemîn qonaxa tîmê bû, tîm ji 2 heta 5 kesan pêk dihat, xelat:
Cihê 1 - 300 rub
Cihê 2 - 200 rub
Cihê 3 - 100 rub
xelata juriyê - 100 rubleyê
Koma telegramê ya fermî, ~ 190 beşdar, ragihandina bi îngilîzî, pirs diviyabû çend rojan li benda bersivê bisekinin Di telegramê de koma fermî, ~ 1500 beşdar, nîqaşa aktîf a karan di navbera beşdar û organîzatoran de
Organîzatoran du çareseriyên bingehîn, hêsan û pêşkeftî pêşkêş kirin. Hêsan ji 16 GB RAM kêmtir hewce dike, û bîra pêşkeftî di 16-an de cîh nagire. Di heman demê de, piçek li pêş çavan, beşdaran nekarîn bi girîngî ji çareseriya pêşkeftî derbikevin. Di destpêkirina van çareseriyan de tu zehmetî tunebû. Divê were zanîn ku di mînaka pêşkeftî de şîroveyek bi îşaretek hebû ku meriv ji ku derê dest bi başkirina çareseriyê bike. Ji bo her peywiran çareseriyên bingehîn ên bingehîn hatin peyda kirin, ku ji hêla beşdaran ve bi hêsanî derbas bûn. Di rojên destpêkê yên pêşbaziyê de, beşdaran rastî gelek dijwariyan hatin: Ya yekem, daneyan di formata Apache Parquet de hate dayîn, û ne hemî berhevokên Python û pakêta parketê bêyî xeletî xebitîn. Zehmetiya duyemîn dakêşana wêneyan ji ewrê nameyê bû; heya niha rêyek hêsan tune ku meriv bi yekcarî hejmareke mezin daneyan dakêşîne. Di encamê de van pirsgirêkan çend rojan beşdaran dereng xistin.

IDAO. Qonaxa yekem

Kar ew bû ku keriyên muon/ne-muon li gorî taybetmendiyên wan dabeş bikin. Taybetmendiya sereke ya vê peywirê hebûna stûnek giran di daneyên perwerdehiyê de bû, ku organîzatoran bixwe wekî pêbaweriya bersiva vê xetê şîrove kirin. Pirsgirêk ev bû ku pir çend rêzan giraniyên neyînî hebûn.

Kolîdera Hadronê ya Mezin û Odnoklassniki

Piştî ku çend hûrdeman li ser rêza bi nîgarê fikirîn (nîşan bi tenê bal kişand ser vê taybetmendiya stûna giran) û avakirina vê grafîkê, me biryar da ku em 3 vebijarkan kontrol bikin:

1) hedefa xêzên bi giraniya neyînî (û li gorî giranan) berevajî bikin
2) giraniyan biguhezînin nirxa herî kêm da ku ew ji 0-yê dest pê bikin
3) giraniya têlan bikar neynin

Vebijarka sêyem xirabtirîn derket, lê her du ya yekem encam çêtir kir, ya herî baş vebijarka 1 bû, ku tavilê me di peywira yekem de gihand cihê duyemîn û di ya duyemîn de.
Kolîdera Hadronê ya Mezin û Odnoklassniki
Pêngava meya paşîn ev bû ku em daneyan ji bo nirxên winda binirxînin. Organîzatoran berê danehevkirî dane me, ku tê de çend nirxên wenda hebûn, û ew bi -9999 ve hatin guhertin.

Me di stûnên MatchedHit_{X,Y,Z}[N] û MatchedHit_D{X,Y,Z}[N] de nirxên winda dîtin, û tenê dema ku N=2 an 3. Wekî ku em têdigihîjin, hin pirtik ne her 4 dedektoran derbas kirin, û li ser plakaya 3 an jî 4 rawestiyan. Daneyên di heman demê de stûnên Lextra_{X,Y}[N] jî hebûn, yên ku bi eşkere heman tiştê wekî MatchedHit_{X,Y,Z}[N] vedibêjin, lê celebek ekstrapolasyonê bikar tînin. Van texmînên hindik pêşniyar kirin ku Lextra_{X,Y}[N] dikare li şûna nirxên winda yên di MatchedHit_{X,Y,Z}[N] de (tenê ji bo koordînatên X û Y) were guheztin. MatchedHit_Z[N] bi navgîniyê baş dagirtî bû. Van manîpulasyonan hişt ku em di her du karan de bigihîjin cîhê navîn 1.

Kolîdera Hadronê ya Mezin û Odnoklassniki

Ji ber ku wan ji bo serketina qonaxa yekem tiştek neda, me dikaribû li wir rawestin, lê me berdewam kir, çend wêneyên xweşik kişandin û bi taybetmendiyên nû ve hatin.

Kolîdera Hadronê ya Mezin û Odnoklassniki

Mînakî, me dît ku heke em xalên hevberdana pirtikekê bi her çar lewheyên dedektorê re xêz bikin, em dikarin bibînin ku xalên li ser her yek ji lewheyan di 5 çargoşeyan de têne kom kirin ku rêjeya wan ji 4 û 5an e û li navendê ne. xala (0,0), û di çargoşeya yekem de xal tune.

Hejmara plakaya / pîvanên çargoşe 1 2 3 4 5
Plate 1 500x625 1000x1250 2000x2500 4000x5000 8000x10000
Plate 2 520x650 1040x1300 2080x2600 4160x5200 8320x10400
Plate 3 560x700 1120x1400 2240x2800 4480x5600 8960x11200
Plate 4 600x750 1200x1500 2400x3000 4800x6000 9600x12000

Piştî ku van pîvanan diyar kirin, me 4 taybetmendiyên nû yên kategorîkî ji bo her perçek zêde kir - hejmara çargoşeya ku tê de her plakek tê de derbas dibe.

Kolîdera Hadronê ya Mezin û Odnoklassniki

Di heman demê de me bala xwe da ku pirtikên ji navendê ber bi aliyan ve belav bûne û fikir derket ku bi rengekî "kalîteya" vê belavbûnê binirxînin. Bi îdeal, belkî gengaz e ku meriv li gorî xala hilgirtinê cûreyek parabola "îdeal" were peyda kirin û dûrketina ji wê texmîn bike, lê me xwe bi xeta rast a "îdeal" ve sînordar kir. Piştî ku ji bo her xala têketinê xêzên rast ên weha yên îdeal çêkirin, me karîbû ji vê xeta rast veguheztina standard a trajektora her perçeyê bihejmêrim. Ji ber ku devjêberdana navînî ji bo armanc = 1 152 bû, û ji bo armanc = 0 ew 390 bû, me ev taybetmendî bi demkî baş nirxand. Û bi rastî, vê taybetmendiyê tavilê ew kir serê yên herî bikêr.

Em kêfxweş bûn û veqetîna her 4 xalên hevberdanê ji bo her perçek ji xeta rast a îdeal wekî 4 taybetmendiyên din zêde kirin (û ew jî baş xebitîn).

Zencîreyên gotarên zanistî yên li ser mijara pêşbaziyê, ku ji hêla organîzatoran ve ji me re hatine dayîn, fikirîn ku em ji yên yekem dûr in ku vê pirsgirêkê çareser bikin û, dibe ku, celebek nermalava pispor heye. Piştî vedîtina depoyek li ser github-ê ku tê de rêbazên IsMuonSimple, IsMuon, IsMuonLoose hatine bicîh kirin, me ew bi guhertinên piçûk veguhest ser malpera xwe. Rêbaz bi xwe pir hêsan bûn: Mînakî, heke enerjî ji bendek diyarkirî kêmtir be, wê hingê ew ne muon e, wekî din ew muon e. Taybetmendiyên wusa hêsan eşkere nekarin di mijara karanîna zêdekirina gradientê de zêdebûnek bidin, ji ber vê yekê me "dûrek" din a girîng li bendê zêde kir. Ev taybetmendî jî hinekî baştir bûne. Dibe ku, bi hûrgulî analîzkirina rêbazên heyî, îmkan bû ku rêbazên bihêztir bibînin û wan li nîşanan zêde bikin.

Di dawiya pêşbaziyê de, me ji bo pirsgirêka duyemîn çareseriya "zû" hinekî tweak kir; di dawiyê de, ew di xalên jêrîn de ji rêza bingehîn cûda bû:

  1. Di rêzên bi giraniya neyînî de hedef hate berevajîkirin
  2. Di MatchedHit_{X,Y,Z}[N] de nirxên winda dagirtî
  3. Kûrahî daket 7
  4. Rêjeya fêrbûnê daket 0.1 (0.19 bû)

Wekî encamek, me taybetmendiyên bêtir ceriband (ne pir bi serketî), parametreyên hilbijartî û catboost, lightgbm û xgboost perwerde kirin, tevliheviyên cûda yên pêşbîniyan ceriband û berî vekirina taybet me bi pêbawerî di peywira duyemîn de bi ser ket, û di ya yekem de em di nav wan de bûn. rêberên.

Piştî vekirina taybet em ji bo peywira 10emîn di rêza 1emîn û ya duyemîn de di rêza 3yemîn de bûn. Hemî lîder tevlihev bûn, û leza taybet ji ya libboardê bilindtir bû. Wusa dixuye ku dane bi qelsî veqetandî bûn (an jî mînakî rêzikên bi giraniya neyînî di taybet de tune bûn) û ev hinekî xemgîn bû.

SNA Hackathon 2019 - Nivîsar. Qonaxa yekem

Erk ev bû ku li ser tora civakî ya Odnoklassniki postên bikarhêner li gorî nivîsa ku tê de dihewîne rêz bike; ji bilî nivîsê, çend taybetmendiyên din ên postê jî hebûn (ziman, xwedan, dîrok û dema afirandinê, tarîx û dema dîtinê. ).

Wekî nêzîkatiyên klasîk ên xebata bi nivîsê re, ez ê du vebijarkan ronî bikim:

  1. Nexşekirina her peyvê li cîhek vektorî-n-dimensîyonî wisa ku peyvên mîna hev vektorên mîna hev hebin (bêtir bixwînin gotara me), dûv re an peyva navîn ji bo nivîsê bibînin an jî mekanîzmayên ku pozîsyona têkildar a peyvan li ber çavan digirin bikar bînin (CNN, LSTM / GRU).
  2. Bikaranîna modelên ku yekser dikarin bi tevahî hevokan re bixebitin. Ji bo nimûne, Bert. Di teoriyê de, ev nêzîkatî divê çêtir bixebite.

Ji ber ku ev ezmûna min a yekem bû bi nivîsan re, dê xelet be ku ez fêrî kesek bikim, ji ber vê yekê ez ê xwe fêr bikim. Van serişteyên ku ez ê di destpêka pêşbaziyê de bidim xwe ev in:

  1. Berî ku hûn birevin ku tiştek hîn bikin, li daneyan binêrin! Ji xeynî nivîsê bixwe, dane çend stûn hebûn û mimkun bû ku ji min pir zêdetir ji wan derxînin. Tişta herî hêsan ev e ku meriv ji bo hin stûnan tê wateya kodkirina armancê.
  2. Ji hemî daneyan fêr nebin! Gelek dane (nêzîkî 17 mîlyon rêz) hebûn û ne hewce bû ku hemî wan ji bo ceribandina hîpotezan bikar bînin. Perwerde û pêşdibistanê pir hêdî bûn, û bê guman min ê wext hebû ku hîpotezên balkêştir biceribînim.
  3. <Şîreta nakokî> Ne hewce ye ku li modelek kujer bigerin. Min demek dirêj derbas kir ku Elmo û Bert zanibim, bi hêviya ku ew ê tavilê min bigihînin cihekî bilind, û di encamê de min ji bo zimanê rûsî binavkirinên FastText ên pêş-perwerdekirî bikar anîn. Min nikarîbû bi Elmo re lezek çêtir bidest bixim, û hîn jî wextê min tunebû ku ez bi Bert re wiya fam bikim.
  4. <Şîreta nakokî> Ne hewce ye ku li yek taybetmendiyek kujer bigerin. Dema ku li daneyan mêze dikim, min pê hesiya ku ji sedî 1ê nivîsan bi rastî nivîs tê de nînin! Lê lînkên hin çavkaniyan hebûn, û min parsekek hêsan nivîsî ku malper vekir û sernav û ravekirin derxist. Ew wekî ramanek baş xuya bû, lê dûv re min hejand û min biryar da ku hemî girêdan ji bo hemî nivîsan parsek bikim û dîsa gelek dem wenda kir. Hemî vê yekê di encama paşîn de çêtirbûnek girîng peyda nekir (her çend min fêhm kir, wek nimûne).
  5. Taybetmendiyên klasîk dixebitin. Em ji Google re, mînakî, "taybetmendiyên nivîsê kaggle" dikin, her tiştî dixwînin û lê zêde dikin. TF-IDF pêşveçûnek peyda kir, wekî taybetmendiyên statîstîkî yên wekî dirêjahiya nivîsê, peyvan, û hêjeya xalbendiyê.
  6. Ger stûnên DateTime hebin, hêja ye ku wan li çend taybetmendiyên cihêreng (saet, rojên hefteyê, hwd.) pars bikin. Kîjan taybetmendî divê bêne ronî kirin divê bi karanîna grafîkan/hin metrîkan bêne analîz kirin. Li vir, bi dilxwazî, min her tişt rast kir û taybetmendiyên pêwîst ronî kir, lê analîzek normal dê zirarê nede (mînakî, wekî ku me di fînalê de kir).

Kolîdera Hadronê ya Mezin û Odnoklassniki

Di encama pêşbaziyê de, min modelek kerasê bi tevlihevkirina peyvan, û yeka din jî li ser bingeha LSTM û GRU perwerde kir. Herduyan ji bo zimanê rûsî binavkirinên FastText-ê yên pêş-perwerdekirî bikar anîn (min çend vegirtinên din ceriband, lê yên ku çêtirîn xebitîn ev bûn). Piştî ku bi navgîniya pêşbîniyan, min di nav 7 beşdaran de rêza 76emîn a dawî girt.

Piştî qonaxa yekem hate weşandin gotara Nikolai Anokhin, yê ku cîhê duyemîn girt (ew beşdarî pêşbaziyê bû), û çareseriya wî heya qonaxek min dubare kir, lê ew ji ber mekanîzmaya balê ya pirs-kilît-nirxê pêşde çû.

Qonaxa duyemîn OK & IDAO

Qonaxên duyemîn ên pêşbirkan hema hema li pey hev pêk hatin, lewra min biryar da ku bi hev re li wan binêrim.

Pêşîn, ez û tîmê ku nû hatî desteser kirin em gihîştin nivîsgeha balkêş a pargîdaniya Mail.ru, ku peywira me ew bû ku em modelên sê rêgezên ji qonaxa yekem - nivîs, wêne û hevkariyê berhev bikin. Ji 2 rojan zêdetir ji bo vê yekê hat veqetandin, ku ew pir hindik derket. Di rastiyê de, me tenê karîbû encamên xwe yên ji qonaxa yekem dubare bikin bêyî ku tu destkeftiyên ji hevgirtinê werbigirin. Di dawiyê de, me cihê 5mîn girt, lê me nekarî modela nivîsê bikar bînin. Piştî ku li çareseriyên beşdarên din nihêrîn, xuya dike ku hêjayî hewldana komkirina nivîsan û lê zêdekirina wan li modela hevkariyê bû. Bandorek alîgir a vê qonaxê bandorên nû, hevdîtin û danûstendina bi beşdar û organîzatoran re, û her weha kêmbûna giran a xewê bû, ku dibe ku bandorê li encama qonaxa dawî ya IDAO bike.

Peywira di qonaxa Dawîn a IDAO 2019 de ev bû ku dema li benda fermanê ji bo ajokarên taksiyê Yandex li balafirgehê pêşbîn bike. Di qonaxa 2 de, 3 peywir = 3 balafirgeh hatin destnîşankirin. Ji bo her balafirgehekê, daneyên hûrdem-bi-deqe li ser hejmara fermanên taksiyê yên şeş mehan têne dayîn. Û wekî daneyên ceribandinê, daneyên meha pêş û hûrdem-deqe li ser fermanên 2 hefteyên çûyî hatin dayîn. Dem hindik bû (1,5 roj), peywir pir taybetî bû, tenê kesek ji tîmê hat pêşbaziyê - û di encamê de, ew ber bi dawiyê ve cîhek xemgîn bû. Ramanên balkêş hewildanên karanîna daneyên derveyî hene: hewa, qelebalixiya trafîkê û statîstîkên fermana taksiyê ya Yandex. Her çend organîzatoran negotin ev balafirgeh çi ne, gelek beşdaran texmîn kirin ku ew Sheremetyevo, Domodedovo û Vnukovo ne. Her çend ev texmîn piştî pêşbaziyê hate red kirin, taybetmendiyên, bo nimûne, ji daneyên hewaya Moskowê hem li ser pejirandinê û hem jî li ser tabloya rêberiyê encam çêtir kirin.

encamê

  1. Pêşbaziyên ML xweş û balkêş in! Li vir hûn ê di analîzkirina daneyan de, û di model û teknîkên hîlekar de karanîna jêhatîbûnê bibînin, û tenê hişmendiya hevpar bi xêr hatî.
  2. ML jixwe pêvekek mezin a zanînê ye ku xuya dike ku bi qatjimarî mezin dibe. Min ji xwe re kir armanc ku ez bi qadên cihêreng (sînyal, wêne, tablo, nivîs) nas bikim û jixwe fêm kir ku çiqas xwendinê heye. Mînakî, piştî van pêşbaziyan min biryar da ku ez bixwînim: algorîtmayên komkirinê, teknîkên pêşkeftî yên ji bo xebata bi pirtûkxaneyên zêdekirina gradient (bi taybetî, xebata bi CatBoost re li ser GPU), torên kapsulê, mekanîzmaya balê ya pirs-kilît-nirx.
  3. Ne bi kaggle tenê! Gelek pêşbaziyên din hene ku meriv bi kêmanî t-shirtek hêsantir e, û ji bo xelatên din jî şans hene.
  4. Agahdayin! Jixwe di warê fêrbûna makîneyê û analîzkirina daneyan de civakek mezin heye, di telegram, slack û mirovên ciddî yên Mail.ru, Yandex û pargîdaniyên din de, bersiv didin pirsan û alîkariya destpêkeran û yên ku di vî warî de riya xwe didomînin. ya zanînê.
  5. Ez ji her kesê ku ji xala berê îlham girtiye şîret dikim ku biçin serdanê datafest - Konferansek belaş a mezin li Moskowê, ku dê di 10-11 Gulanê de pêk were.

Source: www.habr.com

Add a comment