Dako nga Hadron Collider ug Odnoklassniki

Nagpadayon sa tema sa mga kompetisyon sa pagkat-on sa makina sa Habré, gusto namong ipaila ang mga magbabasa sa duha pa ka plataporma. Dili gyud sila ingon kadako sa kaggle, apan angay gyud silang hatagan pagtagad.

Dako nga Hadron Collider ug Odnoklassniki

Sa personal, dili ko ganahan og kaggle tungod sa daghang mga rason:

  • una, ang mga kompetisyon didto kanunay nga molungtad sa daghang mga bulan, ug ang aktibo nga pag-apil nanginahanglan daghang paningkamot;
  • ikaduha, public kernels (public solutions). Gitambagan sa mga sumusunod sa Kaggle nga trataron sila uban ang kalmado nga mga monghe sa Tibet, apan sa tinuud usa ka kaulaw kung ang usa ka butang nga imong gitrabaho sulod sa usa o duha ka bulan kalit nga nabutang sa usa ka plato nga pilak para sa tanan.

Maayo na lang, ang mga kompetisyon sa pagkat-on sa makina gihimo sa ubang mga platform, ug hisgutan ang usa ka pares niini nga mga kompetisyon.

IDAO SNA Hackathon 2019
Opisyal nga pinulongan: English,
organisador: Yandex, Sberbank, HSE
Opisyal nga Russian nga pinulongan,
mga tig-organisar: Mail.ru Group
Online Round: Ene 15 — Feb 11, 2019;
Katapusang On-Site: Abr 4-6, 2019
online - gikan sa Pebrero 7 hangtod Marso 15;
offline - gikan sa Marso 30 hangtod Abril 1.
Gamit ang usa ka piho nga set sa datos bahin sa usa ka partikulo sa Large Hadron Collider (trajectory, momentum, ug uban pang komplikado nga pisikal nga mga parameter), mahibal-an kung kini usa ka muon o dili.
Gikan niini nga pahayag, 2 ka buluhaton ang giila:
- sa usa kinahanglan nimo ipadala ang imong panagna,
- ug sa lain - ang kompleto nga code ug modelo alang sa panagna, ug ang pagpatuman gipailalom sa medyo estrikto nga mga pagdili sa oras sa pagdagan ug paggamit sa memorya
Alang sa kompetisyon sa SNA Hackathon, ang mga log sa gipakita nga sulud gikan sa bukas nga mga grupo sa mga feed sa balita sa gumagamit alang sa Pebrero-Marso 2018 nakolekta. Ang set sa pagsulay naglangkob sa katapusang semana ug tunga sa Marso. Ang matag entry sa log adunay kasayuran bahin sa kung unsa ang gipakita ug kang kinsa, ingon man kung giunsa ang reaksyon sa tiggamit sa kini nga sulud: gi-rate kini, gikomento, gibalewala, o gitago kini gikan sa feed.
Ang esensya sa mga buluhaton sa SNA Hackathon mao ang pagranggo sa matag tiggamit sa social network nga Odnoklassniki sa iyang feed, pagpataas kutob sa mahimo sa mga post nga makadawat usa ka "klase".
Sa online nga yugto, ang buluhaton gibahin sa 3 ka bahin:
1. ranggo sa mga post sumala sa lain-laing mga collaborative nga mga kinaiya
2. ranggo ang mga post base sa mga hulagway nga anaa niini
3. ranggo ang mga post sumala sa teksto nga anaa niini
Komplikado nga naandan nga sukatan, sama sa ROC-AUC Average nga ROC-AUC sa tiggamit
Mga premyo alang sa unang yugto - T-shirt alang sa N nga mga dapit, agianan ngadto sa ikaduhang yugto, diin ang accommodation ug mga pagkaon gibayran atol sa kompetisyon
Ikaduha nga hugna - ??? (Sa piho nga mga hinungdan, wala ako nakatambong sa seremonya sa award ug wala mahibal-an kung unsa ang mga premyo sa katapusan). Misaad sila og mga laptop sa tanang miyembro sa winning team
Mga premyo alang sa unang yugto - T-shirts alang sa 100 ka labing maayo nga mga partisipante, agianan ngadto sa ikaduhang yugto, diin ang pagbiyahe ngadto sa Moscow, accommodation ug mga pagkaon sa panahon sa kompetisyon gibayran. Usab, sa pagtapos sa unang yugto, ang mga premyo gipahibalo alang sa labing maayo sa 3 ka buluhaton sa yugto 1: ang tanan nakadaog ug RTX 2080 TI video card!
Ang ikaduhang yugto mao ang yugto sa team, ang mga team naglangkob sa 2 ngadto sa 5 ka tawo, mga premyo:
1st nga dapit - 300 ruble
2st nga dapit - 200 ruble
3st nga dapit - 100 ruble
premyo sa hurado - 100 ka rubles
Opisyal nga grupo sa telegrama, ~ 190 ka mga partisipante, komunikasyon sa English, mga pangutana kinahanglan maghulat pipila ka mga adlaw alang sa tubag Opisyal nga grupo sa telegrama, ~ 1500 ka mga partisipante, aktibong paghisgot sa mga buluhaton tali sa mga partisipante ug mga organizer
Naghatag ang mga organizers og duha ka batakang solusyon, simple ug advanced. Ang yano nga gikinahanglan ubos sa 16 GB sa RAM, ug ang advanced memory dili mohaum sa 16. Sa samang higayon, nagtan-aw sa unahan sa gamay, ang mga partisipante wala makahimo sa kamahinungdanon outperform sa abante nga solusyon. Walay mga kalisdanan sa paglansad niini nga mga solusyon. Kinahanglan nga hinumdoman nga sa abante nga pananglitan adunay usa ka komento nga adunay usa ka timaan kung diin magsugod ang pagpaayo sa solusyon. Ang sukaranan nga mga primitive nga solusyon gihatag alang sa matag usa sa mga buluhaton, nga dali nga nalabwan sa mga partisipante. Sa unang mga adlaw sa kompetisyon, ang mga partisipante nakasugat og daghang mga kalisdanan: una, ang datos gihatag sa Apache Parquet format, ug dili tanang kombinasyon sa Python ug parquet package nagtrabaho nga walay mga sayop. Ang ikaduha nga kalisud mao ang pag-download sa mga litrato gikan sa mail cloud; sa pagkakaron wala'y sayon ​​​​nga paagi sa pag-download sa daghang mga datos sa usa ka higayon. Ingon usa ka sangputanan, kini nga mga problema naglangan sa mga partisipante sulod sa pipila ka mga adlaw.

IDAO. Unang yugto

Ang tahas mao ang pagklasipikar sa mga partikulo sa muon/non-muon sumala sa ilang mga kinaiya. Ang panguna nga bahin sa kini nga buluhaton mao ang presensya sa usa ka kolum sa gibug-aton sa datos sa pagbansay, nga gihubad mismo sa mga organisador ingon pagsalig sa tubag alang niini nga linya. Ang problema mao nga pipila ka mga laray ang adunay negatibo nga mga gibug-aton.

Dako nga Hadron Collider ug Odnoklassniki

Pagkahuman sa paghunahuna sa pipila ka minuto bahin sa linya nga adunay pahiwatig (ang pahiwatig nagpunting sa atensyon sa kini nga bahin sa kolum sa gibug-aton) ug paghimo niini nga graph, nakahukom kami nga susihon ang 3 nga mga kapilian:

1) balit-a ang target sa mga linya nga adunay negatibo nga mga gibug-aton (ug mga gibug-aton sumala niana)
2) ibalhin ang mga gibug-aton sa minimum nga kantidad aron magsugod sila gikan sa 0
3) ayaw gamita ang mga gibug-aton sa pisi

Ang ikatulo nga kapilian nahimo nga labing daotan, apan ang una nga duha nagpauswag sa sangputanan, ang labing kaayo mao ang kapilian No.
Dako nga Hadron Collider ug Odnoklassniki
Ang among sunod nga lakang mao ang pagrepaso sa datos alang sa nawala nga mga kantidad. Gihatagan kami sa mga tig-organisar nga naka-combed nga datos, diin adunay pipila nga nawala nga mga kantidad, ug kini gipulihan sa -9999.

Among nakit-an ang nawala nga mga kantidad sa MatchedHit_{X,Y,Z}[N] ug MatchedHit_D{X,Y,Z}[N] nga mga kolum, ug kung N=2 o 3 lang. Sa among nasabtan, ang ubang mga partikulo wala ipasa ang tanang 4 ka detector, ug mihunong sa ika-3 o ika-4 nga plato. Naglangkob usab ang datos sa Lextra_{X,Y}[N] nga mga kolum, nga dayag nga naghulagway sa parehas nga butang sama sa MatchedHit_{X,Y,Z}[N], apan naggamit og usa ka matang sa extrapolation. Kining gamay nga pagtag-an nagsugyot nga ang Lextra_{X,Y}[N] mahimong ilisan alang sa nawala nga mga kantidad sa MatchedHit_{X,Y,Z}[N] (para sa X ug Y nga mga coordinate lamang). Ang MatchedHit_Z[N] maayo nga napuno sa median. Kini nga mga manipulasyon nagtugot kanamo sa pagkab-ot sa 1st intermediate nga dapit sa duha ka buluhaton.

Dako nga Hadron Collider ug Odnoklassniki

Sa pagkonsiderar nga wala sila naghatag bisan unsa alang sa pagdaog sa unang yugto, mahimo unta kaming mohunong didto, apan nagpadayon kami, nag-drawing og pipila ka matahum nga mga litrato ug adunay bag-ong mga bahin.

Dako nga Hadron Collider ug Odnoklassniki

Pananglitan, among nakaplagan nga kon among i-plot ang mga intersection point sa usa ka partikulo sa matag usa sa upat ka detector plates, among makita nga ang mga punto sa matag usa sa mga palid gigrupo ngadto sa 5 ka rektanggulo nga adunay aspect ratio nga 4 ngadto sa 5 ug nakasentro sa ang punto (0,0), ug sa Walay mga punto sa unang rektanggulo.

Plate no. / rektanggulo nga mga dimensyon 1 2 3 4 5
Plato 1 500 × 625 1000 × 1250 2000 × 2500 4000 × 5000 8000 × 10000
Plato 2 520 × 650 1040 × 1300 2080 × 2600 4160 × 5200 8320 × 10400
Plato 3 560 × 700 1120 × 1400 2240 × 2800 4480 × 5600 8960 × 11200
Plato 4 600 × 750 1200 × 1500 2400 × 3000 4800 × 6000 9600 × 12000

Sa pagtino niini nga mga sukod, gidugang namo ang 4 ka bag-ong mga bahin sa kategorya alang sa matag partikulo - ang gidaghanon sa rektanggulo diin kini nag-intersect sa matag plato.

Dako nga Hadron Collider ug Odnoklassniki

Namatikdan usab namo nga ang mga partikulo daw nagkatag ngadto sa mga kilid gikan sa sentro ug ang ideya mitungha sa usa ka paagi sa pagtimbang-timbang sa "kalidad" niini nga pagkatibulaag. Sa tinuud, posible nga makahimo og usa ka matang sa "ideal" nga parabola depende sa take-off point ug pagbanabana sa pagtipas gikan niini, apan gilimitahan namo ang among kaugalingon sa "ideal" nga tul-id nga linya. Sa paghimo sa ingon nga sulundon nga tul-id nga mga linya alang sa matag punto sa pagsulod, nakahimo kami sa pagkalkulo sa standard deviation sa trajectory sa matag partikulo gikan niining tul-id nga linya. Tungod kay ang kasagaran nga pagtipas alang sa target = 1 mao ang 152, ug alang sa target = 0 kini mao ang 390, kami temporaryo nga gisusi kini nga bahin nga maayo. Ug sa pagkatinuod, kini nga bahin diha-diha dayon gihimo kini sa ibabaw sa labing mapuslanon nga mga.

Nalipay kami ug gidugang ang pagtipas sa tanan nga 4 nga mga punto sa intersection alang sa matag partikulo gikan sa sulundon nga tul-id nga linya ingon usa ka dugang nga 4 nga mga bahin (ug maayo usab sila nga nagtrabaho).

Ang mga link sa siyentipikong mga artikulo sa hilisgutan sa kompetisyon, nga gihatag kanamo sa mga organizers, nag-aghat sa ideya nga layo kami sa una aron masulbad kini nga problema ug, tingali, adunay usa ka matang sa espesyal nga software. Nadiskobrehan ang usa ka repository sa github diin gipatuman ang mga pamaagi nga IsMuonSimple, IsMuon, IsMuonLoose, gibalhin namo kini sa among site nga adunay gagmay nga mga pagbag-o. Ang mga pamaagi mismo yano ra kaayo: pananglitan, kung ang kusog gamay sa usa ka piho nga sukaranan, nan kini dili usa ka muon, kung dili kini usa ka muon. Ang ingon nga yano nga mga bahin klaro nga dili makahatag usa ka pagtaas sa kaso sa paggamit sa gradient boosting, mao nga gidugang namon ang usa ka hinungdanon nga "distansya" sa threshold. Kini nga mga bahin gipauswag usab gamay. Tingali, pinaagi sa pag-analisar sa kasamtangan nga mga pamaagi nga mas bug-os, posible nga makit-an ang mas lig-on nga mga pamaagi ug idugang kini sa mga timailhan.

Sa pagtapos sa kompetisyon, gamay ra ang among gibag-o ang "dali" nga solusyon alang sa ikaduha nga problema; sa katapusan, lahi kini sa baseline sa mga musunud nga punto:

  1. Sa mga laray nga adunay negatibo nga gibug-aton ang target gibalit-ad
  2. Napuno sa nawala nga mga kantidad sa MatchedHit_{X,Y,Z}[N]
  3. Gipakunhod ang giladmon ngadto sa 7
  4. Gipakunhod ang rate sa pagkat-on ngadto sa 0.1 (mao ang 0.19)

Ingon usa ka sangputanan, gisulayan namon ang daghang mga bahin (dili kaayo malampuson), gipili nga mga parameter ug gibansay nga catboost, lightgbm ug xgboost, gisulayan ang lainlaing pagsagol sa mga panagna ug sa wala pa ablihan ang pribado kami masaligon nga nakadaog sa ikaduha nga buluhaton, ug sa una kami usa sa mga mga lider.

Human sa pag-abli sa pribado kami sa ika-10 nga dapit alang sa 1st buluhaton ug 3rd alang sa ikaduha. Ang tanan nga mga lider nagkasagol, ug ang katulin sa pribado mas taas kaysa sa libboard. Morag ang datos dili maayo nga stratified (o pananglitan walay mga laray nga adunay negatibo nga mga gibug-aton sa pribado) ug kini usa ka gamay nga makapahigawad.

SNA Hackathon 2019 - Mga Teksto. Unang yugto

Ang tahas mao ang pagranggo sa mga post sa user sa social network sa Odnoklassniki base sa teksto nga anaa niini; dugang pa sa teksto, adunay pipila pa nga mga kinaiya sa post (pinulongan, tag-iya, petsa ug oras sa paglalang, petsa ug oras sa pagtan-aw. ).

Ingon nga klasikal nga mga pamaagi sa pagtrabaho sa teksto, akong ipasiugda ang duha ka kapilian:

  1. Pagmapa sa matag pulong ngadto sa n-dimensional nga vector space sa ingon nga susama nga mga pulong adunay susama nga mga vector (basaha ang dugang sa atong artikulo), dayon ang pagpangita sa kasagaran nga pulong alang sa teksto o paggamit sa mga mekanismo nga nagkonsiderar sa relatibong posisyon sa mga pulong (CNN, LSTM/GRU).
  2. Paggamit sa mga modelo nga mahimo dayon nga magamit sa tibuuk nga mga tudling-pulong. Pananglitan, si Bert. Sa teorya, kini nga pamaagi kinahanglan nga molihok nga mas maayo.

Tungod kay kini ang akong una nga kasinatian sa mga teksto, sayop ang pagtudlo sa usa ka tawo, mao nga tudloan ko ang akong kaugalingon. Kini ang mga tip nga akong ihatag sa akong kaugalingon sa pagsugod sa kompetisyon:

  1. Sa dili ka pa modagan aron itudlo ang usa ka butang, tan-awa ang datos! Dugang pa sa teksto mismo, ang mga datos adunay daghang mga kolum ug posible nga mapuga ang labi pa gikan kanila kaysa sa akong gibuhat. Ang pinakasimple nga butang mao ang paghimo sa gipasabot nga target encoding alang sa pipila ka mga kolum.
  2. Ayaw pagkat-on gikan sa tanan nga datos! Adunay daghang mga datos (mga 17 milyon nga mga laray) ug dili kinahanglan nga gamiton ang tanan aron masulayan ang mga pangagpas. Ang pagbansay ug preprocessing medyo hinay, ug ako klaro nga adunay panahon sa pagsulay sa mas makapaikag nga mga pangagpas.
  3. <Kontrobersyal nga tambag> Dili kinahanglan nga mangita alang sa usa ka mamumuno nga modelo. Gigugol nako ang dugay nga panahon aron mahibal-an si Elmo ug Bert, naglaum nga dad-on dayon nila ako sa taas nga lugar, ug ingon usa ka sangputanan gigamit nako ang FastText pre-trained embeddings para sa Russian nga pinulongan. Dili nako makab-ot ang mas maayo nga tulin uban ni Elmo, ug wala pa akoy panahon aron mahibal-an kini uban ni Bert.
  4. <Kontrobersyal nga tambag> Dili kinahanglan nga mangita alang sa usa ka bahin sa pagpatay. Sa pagtan-aw sa datos, akong namatikdan nga mga 1 porsyento sa mga teksto wala gyud adunay teksto! Apan adunay mga link sa pipila ka mga kapanguhaan, ug nagsulat ako usa ka yano nga parser nga nagbukas sa site ug gikuha ang titulo ug paghulagway. Ingon og usa ka maayo nga ideya, apan pagkahuman nadala ako ug nakahukom nga i-parse ang tanan nga mga link alang sa tanan nga mga teksto ug nawala usab ang daghang oras. Ang tanan nga kini wala maghatag usa ka hinungdanon nga pag-uswag sa katapusan nga sangputanan (bisan kung nahibal-an nako nga ang stemming, pananglitan).
  5. Ang klasiko nga mga bahin nagtrabaho. Kami sa Google, pananglitan, "mga feature sa text kaggle", basahon ug idugang ang tanan. Naghatag ang TF-IDF og pag-uswag, sama sa gihimo sa mga estadistika nga bahin sama sa gitas-on sa teksto, mga pulong, ug ang gidaghanon sa punctuation.
  6. Kung adunay mga kolum sa DateTime, angay nga i-parse kini sa daghang mga lahi nga bahin (oras, adlaw sa semana, ug uban pa). Unsa nga mga bahin ang kinahanglan i-highlight kinahanglan analisahon gamit ang mga graph/pipila ka sukatan. Dinhi, sa usa ka kapritso, gibuhat nako ang tanan sa husto ug gipasiugda ang kinahanglan nga mga bahin, apan ang usa ka normal nga pag-analisar dili makadaot (pananglitan, sama sa among gibuhat sa katapusan).

Dako nga Hadron Collider ug Odnoklassniki

Isip resulta sa kompetisyon, nagbansay ko og usa ka hard model nga may word convolution, ug laing usa base sa LSTM ug GRU. Silang duha migamit ug pre-trained FastText embeddings para sa Russian nga pinulongan (akong gisulayan ang daghang uban pang mga embeddings, apan kini ang labing nagtrabaho). Pagkahuman sa pag-average sa mga panagna, nakuha nako ang katapusang ika-7 nga puwesto gikan sa 76 nga mga partisipante.

Human sa unang yugto kini gimantala artikulo ni Nikolai Anokhin, kinsa mikuha sa ikaduhang dapit (miapil siya sa gawas sa kompetisyon), ug ang iyang solusyon hangtod sa pipila ka yugto gisubli sa akoa, apan mipadayon pa siya tungod sa mekanismo sa pagtagad sa pangutana-key-bili.

Ikaduha nga yugto OK & IDAO

Ang ikaduhang hugna sa mga kompetisyon nahitabo halos sunod-sunod, mao nga nakahukom ko nga tan-awon sila sa tingub.

Una, ako ug ang bag-ong nakuha nga team natapos sa impresibong opisina sa Mail.ru nga kompanya, diin ang among tahas mao ang paghiusa sa mga modelo sa tulo ka mga track gikan sa unang yugto - teksto, mga hulagway ug collab. Labaw pa sa 2 ka adlaw ang gigahin alang niini, nga nahimo’g gamay ra. Sa tinuud, nahimo ra namon nga gisubli ang among mga resulta gikan sa una nga yugto nga wala makadawat bisan unsang mga kadaugan gikan sa paghiusa. Sa katapusan, nakuha namo ang ika-5 nga dapit, apan wala namo magamit ang modelo sa teksto. Pagkahuman sa pagtan-aw sa mga solusyon sa ubang mga partisipante, ingon og angayan nga sulayan ang paghugpong sa mga teksto ug idugang kini sa modelo sa collab. Ang epekto sa kini nga yugto mao ang bag-ong mga impresyon, pagtagbo ug pagpakigsulti sa mga cool nga partisipante ug mga organizer, ingon man ang grabe nga kakulang sa pagkatulog, nga mahimo’g nakaapekto sa sangputanan sa katapusan nga yugto sa IDAO.

Ang tahas sa IDAO 2019 Katapusan nga yugto mao ang pagtagna sa oras sa paghulat alang sa usa ka order alang sa mga drayber sa taxi sa Yandex sa airport. Sa stage 2, 3 ka buluhaton = 3 ka airport ang giila. Alang sa matag tugpahanan, ang minuto-por-minuto nga datos sa gidaghanon sa mga order sa taxi sulod sa unom ka bulan gihatag. Ug ingon nga data sa pagsulay, ang sunod nga bulan ug minuto-por-minuto nga datos sa mga order sa miaging 2 ka semana gihatag. Adunay gamay nga oras (1,5 ka adlaw), ang tahas medyo espesipiko, usa ra ka tawo gikan sa team ang mianhi sa kompetisyon - ug ingon usa ka sangputanan, kini usa ka masulub-on nga lugar hangtod sa katapusan. Ang makapainteres nga mga ideya naglakip sa mga pagsulay sa paggamit sa eksternal nga datos: panahon, paghuot sa trapiko ug estadistika sa order sa taxi sa Yandex. Bisan kung wala gisulti sa mga organizer kung unsa kini nga mga tugpahanan, daghang mga partisipante ang nagtuo nga sila Sheremetyevo, Domodedovo ug Vnukovo. Bisan kung kini nga pangagpas gibalibaran pagkahuman sa kompetisyon, ang mga bahin, pananglitan, gikan sa datos sa panahon sa Moscow nagpauswag sa mga resulta sa validation ug sa leaderboard.

konklusyon

  1. Ang mga kompetisyon sa ML cool ug makapaikag! Dinhi imong makit-an ang paggamit sa mga kahanas sa pag-analisar sa datos, ug sa tuso nga mga modelo ug mga teknik, ug ang yano nga sentido komon giabiabi.
  2. Ang ML usa na ka dako nga pundok sa kahibalo nga daw nag-uswag pag-ayo. Gibutang nako ang akong kaugalingon nga usa ka katuyoan nga masinati ang lainlaing mga lugar (mga signal, litrato, lamesa, teksto) ug nakaamgo na kung unsa kadaghan ang kinahanglan nga tun-an. Pananglitan, human niini nga mga kompetisyon nakahukom ko nga magtuon: clustering algorithms, advanced nga mga teknik sa pagtrabaho uban sa gradient boosting nga mga librarya (sa partikular, pagtrabaho kauban ang CatBoost sa GPU), mga network sa kapsula, ang mekanismo sa pagtagad sa pangutana-key-bili.
  3. Dili sa kaggle lang! Adunay daghang uban pang mga kompetisyon diin mas dali ang pagkuha bisan usa ka T-shirt, ug adunay daghang mga higayon alang sa ubang mga premyo.
  4. Pakigkomunikar! Adunay na usa ka dako nga komunidad sa natad sa pagkat-on sa makina ug pagtuki sa datos, adunay mga tematik nga grupo sa telegrama, hinay, ug seryoso nga mga tawo gikan sa Mail.ru, Yandex ug uban pang mga kompanya sa pagtubag sa mga pangutana ug pagtabang sa mga nagsugod ug kadtong nagpadayon sa ilang dalan niini nga natad. sa kahibalo.
  5. Gitambagan nako ang tanan nga nadasig sa miaging punto nga bisitahan datafest - usa ka mayor nga libre nga komperensya sa Moscow, nga mahitabo sa Mayo 10-11.

Source: www.habr.com

Idugang sa usa ka comment