Gwo Hadron Collider ak Odnoklassniki

Kontinye tèm konpetisyon aprantisaj machin yo sou Habré, nou ta renmen prezante lektè yo de lòt platfòm. Yo sètènman pa gwo tankou kaggle, men yo definitivman merite atansyon.

Gwo Hadron Collider ak Odnoklassniki

Pèsonèlman, mwen pa renmen kaggle twòp pou plizyè rezon:

  • premyèman, konpetisyon la souvan dire pou plizyè mwa, ak patisipasyon aktif mande anpil efò;
  • dezyèmman, nwayo piblik (solisyon piblik). Aderan Kaggle konseye trete yo ak kalm relijyeu Tibeten yo, men an reyalite li se yon wont lè yon bagay ou te travay pou yon mwa oswa de toudenkou vire soti yo dwe mete deyò sou yon plato an ajan pou tout moun.

Erezman, konpetisyon aprantisaj machin yo fèt sou lòt platfòm, epi yo pral diskite sou yon koup nan konpetisyon sa yo.

IDAO SNA Hackathon 2019
Lang ofisyèl: Angle,
òganizatè: Yandex, Sberbank, HSE
Lang ofisyèl Ris,
òganizatè: Mail.ru Group
Fason sou entènèt: 15 janvye — 11 fevriye 2019;
Final sou plas: 4-6 avril 2019
sou entènèt - soti nan 7 fevriye rive 15 mas;
offline - soti 30 mas rive 1 avril.
Sèvi ak yon seri done sou yon patikil nan gwo kolizyon adron (trajèktwa, momantòm, ak lòt paramèt fizik olye konplèks), detèmine si li se yon muon oswa ou pa.
Soti nan deklarasyon sa a, yo te idantifye 2 travay:
- nan youn ou jis te oblije voye prediksyon ou a,
- ak nan lòt la - kòd la konplè ak modèl pou prediksyon, ak ekzekisyon an te sijè a restriksyon jistis strik sou tan kouri ak itilizasyon memwa
Pou konpetisyon SNA Hackathon, yo te kolekte mòso ekspozisyon kontni ki soti nan gwoup ouvè yo nan nouvèl itilizatè yo pou mwa fevriye-mas 2018. Seri tès la gen dènye semèn ak mwatye mwa Mas la. Chak antre nan boutèy demi lit la gen enfòmasyon sou sa yo te montre ak ki moun, ansanm ak ki jan itilizatè a te reyaji nan kontni sa a: evalye li, fè kòmantè, inyore li, oswa kache li nan manje a.
Sans nan travay SNA Hackathon a se klase chak itilizatè nan rezo sosyal Odnoklassniki manje l 'yo, ogmante pi wo ke posib pòs sa yo ki pral resevwa yon "klas".
Nan etap la sou entènèt, travay la te divize an 3 pati:
1. ran pòs selon plizyè karakteristik kolaborasyon
2. klase pòs ki baze sou imaj yo genyen
3. ran pòs selon tèks yo genyen
Konplèks metrik koutim, yon bagay tankou ROC-AUC Mwayèn ROC-AUC pa itilizatè
Prim pou premye etap la - mayo pou N kote, pasaj nan dezyèm etap la, kote yo te peye akomodasyon ak manje pandan konpetisyon an.
Dezyèm faz - ??? (Pou sèten rezon, mwen pa te prezan nan seremoni prim lan e mwen pa t 'kapab chèche konnen ki sa ki pri yo te nan fen). Yo te pwomèt laptops bay tout manm ekip ki genyen an
Prim pou premye etap la - T-shirts pou 100 pi bon patisipan yo, pasaj nan dezyèm etap la, kote yo te peye vwayaj nan Moskou, aranjman ak manje pandan konpetisyon an. Epitou, nan fen premye etap la, yo te anonse prim pou pi bon nan 3 travay nan etap 1: tout moun te genyen yon kat videyo RTX 2080 TI!
Dezyèm etap la se te yon etap ekip, ekip yo te konpoze de 2 a 5 moun, prim:
1ye plas - 300 rubles
2ye plas - 200 rubles
3ye plas - 100 rubles
pri jiri - 100 rubles
Gwoup telegram ofisyèl, ~190 patisipan, kominikasyon an angle, kesyon yo te oblije rete tann plizyè jou pou yon repons Gwoup ofisyèl nan telegram, ~ 1500 patisipan, diskisyon aktif sou travay ant patisipan yo ak òganizatè yo
Òganizatè yo bay de solisyon debaz, senp ak avanse. Senp mande mwens pase 16 GB RAM, ak memwa avanse pa t 'anfòm nan 16. An menm tan an, gade devan yon ti kras, patisipan yo pa t 'kapab siyifikativman depase solisyon an avanse. Pa te gen okenn difikilte nan lanse solisyon sa yo. Li ta dwe remake ke nan egzanp lan avanse te gen yon kòmantè ak yon allusion sou ki kote yo kòmanse amelyore solisyon an. Solisyon debaz primitif yo te bay pou chak nan travay yo, ki te fasil depase pa patisipan yo. Nan premye jou yo nan konpetisyon an, patisipan yo te rankontre plizyè difikilte: premyèman, done yo te bay nan fòma Apache Parquet, epi se pa tout konbinezon Python ak pake a partez te travay san erè. Dezyèm difikilte a te telechaje foto ki soti nan nwaj lapòs la; nan moman sa a pa gen okenn fason fasil telechaje yon gwo kantite done nan yon fwa. Kòm yon rezilta, pwoblèm sa yo te retade patisipan yo pou yon koup de jou.

IDAO. Premye etap

Travay la se te klasifye patikil muon/ki pa muon selon karakteristik yo. Karakteristik kle nan travay sa a te prezans nan yon kolòn pwa nan done fòmasyon yo, ki òganizatè yo tèt yo entèprete kòm konfyans nan repons lan pou liy sa a. Pwoblèm lan se te ke byen kèk ranje ki genyen pwa negatif.

Gwo Hadron Collider ak Odnoklassniki

Apre nou fin reflechi pou kèk minit sou liy ki gen allusion a (sijesyon an tou senpleman te atire atansyon sou karakteristik sa a nan kolòn pwa a) epi bati graf sa a, nou deside tcheke 3 opsyon:

1) Envèse sib la nan liy ki gen pwa negatif (ak pwa kòmsadwa)
2) chanje pwa yo nan valè minimòm pou yo kòmanse soti nan 0
3) pa sèvi ak pwa fisèl

Twazyèm opsyon a te vin pi mal la, men de premye yo amelyore rezilta a, pi bon an te opsyon nimewo 1, ki imedyatman mennen nou nan dezyèm plas aktyèl la nan premye travay la ak premye nan dezyèm lan.
Gwo Hadron Collider ak Odnoklassniki
Pwochen etap nou an se te revize done yo pou valè ki manke yo. Òganizatè yo te ban nou deja penyen done, kote te gen byen kèk valè ki manke, epi yo te ranplase pa -9999.

Nou te jwenn valè ki manke nan kolòn MatchedHit_{X,Y,Z}[N] ak MatchedHit_D{X,Y,Z}[N], epi sèlman lè N=2 oswa 3. Jan nou konprann, kèk patikil pa t '. pase tout 4 detektè yo, epi yo sispann swa sou 3yèm oswa 4yèm plak la. Done yo te genyen tou kolòn Lextra_{X,Y}[N], ki sanble dekri menm bagay ak MatchedHit_{X,Y,Z}[N], men lè l sèvi avèk kèk kalite ekstrapolasyon. Devine mèg sa yo sijere ke Lextra_{X,Y}[N] ta ka ranplase valè ki manke yo nan MatchedHit_{X,Y,Z}[N] (pou kowòdone X ak Y sèlman). MatchedHit_Z[N] te byen ranpli ak medyàn lan. Manipilasyon sa yo te pèmèt nou rive nan 1ye plas entèmedyè nan tou de travay yo.

Gwo Hadron Collider ak Odnoklassniki

Lè nou konsidere ke yo pa t bay anyen pou genyen premye etap la, nou te ka sispann la, men nou te kontinye, te trase kèk foto bèl ak te vini ak nouvo karakteristik.

Gwo Hadron Collider ak Odnoklassniki

Pa egzanp, nou te jwenn ke si nou trase pwen entèseksyon yon patikil ak chak nan kat plak detektè yo, nou ka wè ke pwen yo sou chak nan plak yo gwoupe nan 5 rektang ak yon rapò aspè de 4 a 5 ak santre nan pwen an (0,0), ak nan Pa gen okenn pwen nan premye rektang lan.

Plak nimewo / dimansyon rektang 1 2 3 4 5
Plak 1 500h625 1000h1250 2000h2500 4000h5000 8000h10000
Plak 2 520h650 1040h1300 2080h2600 4160h5200 8320h10400
Plak 3 560h700 1120h1400 2240h2800 4480h5600 8960h11200
Plak 4 600h750 1200h1500 2400h3000 4800h6000 9600h12000

Lè nou te detèmine dimansyon sa yo, nou te ajoute 4 nouvo karakteristik kategori pou chak patikil - kantite rektang kote li kwaze chak plak.

Gwo Hadron Collider ak Odnoklassniki

Nou menm tou nou remake ke patikil yo te sanble yo gaye sou kote sa yo soti nan sant la ak lide a leve nan yon jan kanmenm evalye "bon jan kalite" nan gaye sa a. Idealman, li ta pwobableman posib pou vini ak kèk kalite "ideyal" parabòl depann sou pwen an dekolaj ak estime devyasyon an soti nan li, men nou limite tèt nou nan "ideyal" liy dwat la. Lè nou te konstwi liy dwat ideyal sa yo pou chak pwen antre, nou te kapab kalkile devyasyon estanda trajectoire chak patikil ki soti nan liy dwat sa a. Depi devyasyon an mwayèn pou sib = 1 te 152, ak pou sib = 0 li te 390, nou pwovizwaman evalye karakteristik sa a kòm bon. Ak tout bon, karakteristik sa a imedyatman te fè li nan tèt yo ki pi itil yo.

Nou te kontan epi nou te ajoute devyasyon tout 4 pwen entèseksyon pou chak patikil ki soti nan liy dwat ideyal la kòm yon lòt 4 karakteristik (epi yo te travay byen tou).

Lyen ki mennen nan atik syantifik sou sijè konpetisyon an, òganizatè yo te ban nou, te pouse lide ke nou se lwen premye moun ki rezoud pwoblèm sa a e, petèt, gen kèk kalite lojisyèl espesyalize. Lè w te dekouvri yon depo sou github kote metòd IsMuonSimple, IsMuon, IsMuonLoose te aplike, nou transfere yo sou sit nou an ak ti chanjman. Metòd yo tèt yo te trè senp: pou egzanp, si enèji a se mwens pase yon sèten papòt, Lè sa a, li pa yon muon, otreman li se yon muon. Karakteristik senp sa yo evidamman pa t 'kapab bay yon ogmantasyon nan ka itilize gradyan ranfòse, kidonk nou te ajoute yon lòt "distans" enpòtan nan papòt la. Karakteristik sa yo tou te yon ti kras amelyore. Petèt, lè nou analize metòd ki egziste deja yo pi byen, li te posib jwenn metòd ki pi fò epi ajoute yo nan siy yo.

Nan fen konpetisyon an, nou yon ti kras ajiste solisyon "rapid" pou dezyèm pwoblèm nan; nan fen a, li diferan de liy debaz la nan pwen sa yo:

  1. Nan ranje ak pwa negatif sib la te ranvèse
  2. Ranpli valè ki manke nan MatchedHit_{X,Y,Z}[N]
  3. Pwofondè redwi a 7
  4. Redwi pousantaj aprantisaj a 0.1 (te 0.19)

Kòm yon rezilta, nou te eseye plis karakteristik (pa anpil siksè), chwazi paramèt ak antrene catboost, lightgbm ak xgboost, te eseye melanje diferan nan prediksyon ak anvan ou louvri prive a nou te genyen konfyans nan dezyèm travay la, ak sou premye a nou te nan mitan an. lidè yo.

Apre ouvèti prive a nou te nan plas 10yèm pou 1er travay la ak 3yèm pou dezyèm lan. Tout lidè yo te mele, ak vitès la an prive te pi wo pase sou libboard la. Li sanble ke done yo te mal stratifye (oswa pou egzanp pa te gen okenn ranje ak pwa negatif nan prive a) ak sa a te yon ti jan fwistre.

SNA Hackathon 2019 - Tèks. Premye etap

Travay la se te klase pòs itilizatè yo sou rezo sosyal Odnoklassniki a ki baze sou tèks yo te genyen an; anplis tèks la, te gen kèk karakteristik plis nan pòs la (lang, pwopriyetè, dat ak lè kreyasyon an, dat ak lè yo gade. ).

Kòm apwòch klasik nan travay ak tèks, mwen ta mete aksan sou de opsyon:

  1. Kate chak mo nan yon espas vektè n-dimansyon konsa ke mo menm jan an gen vektè menm jan an (li plis nan atik nou an), Lè sa a, swa jwenn mo an mwayèn pou tèks la oswa itilize mekanis ki pran an kont pozisyon relatif mo yo (CNN, LSTM/GRU).
  2. Sèvi ak modèl ki ka imedyatman travay ak fraz tout antye. Pou egzanp, Bert. Nan teyori, apwòch sa a ta dwe travay pi byen.

Piske sa a te premye eksperyans mwen ak tèks, li ta mal anseye yon moun, kidonk mwen pral anseye tèt mwen. Men konsèy mwen ta bay tèt mwen nan kòmansman konpetisyon an:

  1. Anvan ou kouri anseye yon bagay, gade done yo! Anplis de tèks la li menm, done yo te gen plizyè kolòn epi li te posib yo peze soti pi plis nan yo pase mwen te fè. Bagay ki pi senp se fè vle di kodaj sib pou kèk nan kolòn yo.
  2. Pa aprann nan tout done yo! Te gen yon anpil nan done (apeprè 17 milyon ranje) epi li pa t absoliman nesesè yo sèvi ak tout nan yo teste ipotèz. Fòmasyon ak preprocessing yo te byen dousman, e mwen evidamman ta gen tan teste ipotèz ki pi enteresan.
  3. <Konsèy kontwovèsyal> Pa bezwen chèche yon modèl asasen. Mwen te pase yon bon bout tan ap chèche konnen Elmo ak Bert, espere ke yo ta imedyatman mennen m 'nan yon kote ki wo, ak kòm rezilta mwen te itilize FastText pre-antreman embeddings pou lang Ris la. Mwen pa t 'kapab reyalize pi bon vitès ak Elmo, epi mwen toujou pa t' gen tan kalkile li soti ak Bert.
  4. <Konsèy kontwovèsyal> Pa bezwen chèche yon karakteristik asasen. Gade done yo, mwen remake ke anviwon 1 pousan nan tèks yo pa aktyèlman genyen tèks! Men, te gen lyen ki mennen nan kèk resous, epi mwen te ekri yon analizeur senp ki te louvri sit la ak rale soti tit la ak deskripsyon. Li te sanble tankou yon bon lide, men Lè sa a, mwen te pote ale ak deside analize tout lyen yo pou tout tèks yo epi ankò pèdi anpil tan. Tout bagay sa a pa t 'bay yon amelyorasyon siyifikatif nan rezilta final la (byenke mwen kalkile soti tij, pou egzanp).
  5. Karakteristik klasik yo travay. Nou Google, pou egzanp, "tèks karakteristik kaggle", li epi ajoute tout bagay. TF-IDF te bay yon amelyorasyon, menm jan ak karakteristik estatistik tankou longè tèks, mo, ak kantite ponktiyasyon.
  6. Si gen kolòn DateTime, li vo analize yo nan plizyè karakteristik separe (èdtan, jou nan semèn nan, elatriye). Ki karakteristik yo ta dwe mete aksan sou yo ta dwe analize lè l sèvi avèk graf/kèk mezi. Isit la, sou yon kapris, mwen te fè tout bagay kòrèkteman ak make karakteristik ki nesesè yo, men yon analiz nòmal pa ta fè mal (pa egzanp, jan nou te fè nan final la).

Gwo Hadron Collider ak Odnoklassniki

Kòm rezilta konpetisyon an, mwen te antrene yon modèl keras ak mo konvolusyon, ak yon lòt ki baze sou LSTM ak GRU. Tou de nan yo te itilize embeddings FastText pre-antre pou lang Ris la (mwen te eseye yon kantite lòt embeddings, men sa yo se yo menm ki te travay pi byen). Apre mwayèn prediksyon yo, mwen pran final 7yèm plas sou 76 patisipan yo.

Apre premye etap la li te pibliye atik pa Nikolai Anokhin, ki moun ki te pran dezyèm plas (li te patisipe nan konpetisyon), ak solisyon li jiska kèk etap repete m 'yo, men li te ale pi lwen akòz mekanis nan atansyon rechèch-kle-valè.

Dezyèm etap OK & IDAO

Dezyèm etap yo nan konpetisyon yo te dewoule prèske youn apre lòt, kidonk mwen te deside gade yo ansanm.

Premyèman, mwen menm ak ekip ki fèk akeri a te fini nan biwo a enpresyonan nan konpayi an Mail.ru, kote travay nou an te konbine modèl yo nan twa tren soti nan premye etap la - tèks, foto ak kolab. Yon ti kras plis pase 2 jou yo te bay pou sa a, ki te tounen soti yo trè ti kras. An reyalite, nou te sèlman kapab repete rezilta nou yo soti nan premye etap la san yo pa resevwa okenn pwogrè nan fizyon an. Nan fen a, nou te pran 5yèm plas, men nou pa t 'kapab itilize modèl tèks la. Apre w fin gade solisyon lòt patisipan yo, li sanble ke li te vo eseye gwoupe tèks yo epi ajoute yo nan modèl la kolab. Yon efè segondè nan etap sa a se te nouvo enpresyon, reyinyon ak kominike ak patisipan fre ak òganizatè, osi byen ke gwo mank de dòmi, ki ka te afekte rezilta a nan etap final la nan IDAO.

Travay la nan etap final IDAO 2019 la se te predi tan ap tann pou yon lòd pou chofè taksi Yandex nan ayewopò an. Nan etap 2, yo te idantifye 3 travay = 3 ayewopò. Pou chak ayewopò, yo bay done minit pa minit sou kantite lòd taksi pou sis mwa. Epi kòm done tès yo, yo te bay mwa pwochen an ak done minit pa minit sou lòd pou 2 semèn ki sot pase yo. Te gen ti tan (1,5 jou), travay la te byen espesifik, yon sèl moun nan ekip la te vin nan konpetisyon an - e kòm yon rezilta, li te yon kote ki tris nan direksyon pou fen an. Lide enteresan enkli tantativ pou itilize done ekstèn: move tan, anbouteyaj ak estatistik Yandex lòd taksi. Malgre ke òganizatè yo pa t 'di sa yo ayewopò sa yo te, anpil patisipan te sipoze ke yo te Sheremetyevo, Domodedovo ak Vnukovo. Malgre ke sipozisyon sa a te demanti apre konpetisyon an, karakteristik, pou egzanp, ki soti nan Moskou done move tan amelyore rezilta yo tou de sou validation ak sou leaderboard la.

Konklizyon

  1. Konpetisyon ML yo fre ak enteresan! La a ou pral jwenn itilizasyon ladrès nan analiz done, ak nan modèl atizan konn fè ak teknik, epi tou senpleman bon sans se akeyi.
  2. ML se deja yon gwo konesans ki sanble ap grandi eksponansyèlman. Mwen te fikse yon objektif pou m fè konesans ak diferan domèn (siyal, foto, tab, tèks) e mwen deja reyalize konbyen lajan gen pou m etidye. Pou egzanp, apre konpetisyon sa yo mwen deside etidye: algoritm clustering, teknik avanse pou travay ak bibliyotèk pou ranfòse gradyan (an patikilye, travay ak CatBoost sou GPU a), rezo kapsil, mekanis atansyon rechèch-kle-valè.
  3. Pa kaggle pou kont li! Gen anpil lòt konpetisyon kote li pi fasil pou jwenn omwen yon mayo, e gen plis chans pou lòt pri.
  4. Kominike! Gen deja yon gwo kominote nan domèn aprantisaj machin ak analiz done, gen gwoup tematik nan telegram, kanson, ak moun serye ki soti nan Mail.ru, Yandex ak lòt konpayi reponn kesyon epi ede débutan ak moun k ap kontinye chemen yo nan domèn sa a. nan konesans.
  5. Mwen konseye tout moun ki te enspire pa pwen anvan an vizite datafest — yon gwo konferans gratis nan Moskou, ki pral pran plas 10-11 me.

Sous: www.habr.com

Add nouvo kòmantè