Large Hadron Collider agus Odnoklassniki

Ag leanúint le téama na gcomórtas meaisínfhoghlama ar Habré, ba mhaith linn dhá ardán eile a chur in aithne do léitheoirí. Is cinnte nach bhfuil siad chomh mór le kaggle, ach is cinnte go bhfuil aird tuillte acu.

Large Hadron Collider agus Odnoklassniki

Go pearsanta, ní maith liom kaggle an iomarca ar chúiseanna éagsúla:

  • ar an gcéad dul síos, is minic a mhaireann comórtais ansin ar feadh roinnt míonna, agus teastaíonn go leor iarracht le rannpháirtíocht ghníomhach;
  • sa dara háit, kernels poiblí (poiblí réitigh). Moltar do lucht leanúna Kaggle caitheamh leo le suaimhneas na manach Tibéidis, ach i ndáiríre is mór an náire é nuair a bhíonn rud éigin a bhfuil tú ag obair chuige ar feadh míosa nó dhó go tobann leagtha amach ar phlait airgid do chách.

Ar ámharaí an tsaoil, reáchtáiltear comórtais meaisínfhoghlama ar ardáin eile, agus pléifear cúpla comórtas seo.

IDAO Hackathon SNA 2019
Teanga oifigiúil: Béarla,
eagraithe: Yandex, Sberbank, FSS
Rúisis teanga oifigiúil,
eagraithe: Grúpa Mail.ru
Babhta Ar Líne: 15 Eanáir - 11 Feabhra, 2019;
Cluiche Ceannais ar an Suíomh: 4-6 Aibreán, 2019
ar líne - ó 7 Feabhra go 15 Márta;
as líne - ó 30 Márta go 1 Aibreán.
Agus tú ag baint úsáide as sraith áirithe sonraí faoi cháithnín sa Imbhuailteoir Mór Hadron (trajectory, móiminteam, agus paraiméadair fhisiceacha sách casta), cinntigh an muon é nó nach bhfuil.
Ón ráiteas seo, aithníodh 2 thasc:
- i gceann amháin ní raibh ort ach do thuar a sheoladh,
- agus sa chás eile - an cód iomlán agus an tsamhail le haghaidh réamh-mheastacháin, agus bhí an cur i gcrích faoi réir srianta measartha dian ar am reatha agus úsáid cuimhne
Don chomórtas Hackathon CRS, bailíodh logaí de thaispeántais ábhair ó ghrúpaí oscailte i bhfothaí nuachta úsáideoirí le haghaidh Feabhra-Márta 2018. Cuimsíonn an tacar tástála an tseachtain seo caite go leith de Mhárta. Tá faisnéis i ngach iontráil sa loga faoi cad a taispeánadh agus cé dó, chomh maith leis an gcaoi ar fhreagair an t-úsáideoir don ábhar seo: rátáil sé, a dúirt sé, neamhaird a dhéanamh air, nó folaigh ón bhfotha é.
Is é croílár thascanna an CRS Hackathon ná gach úsáideoir den líonra sóisialta Odnoklassniki a fhothú a rangú, ag ardú chomh hard agus is féidir na poist sin a gheobhaidh “aicme”.
Ag an gcéim ar líne, roinneadh an tasc i 3 chuid:
1. poist céim de réir tréithe comhoibrithe éagsúla
2. céimigh postálacha bunaithe ar na híomhánna atá iontu
3. Déan na poist a rangú de réir an téacs atá iontu
Méadrach saincheaptha casta, rud éigin cosúil le ROC-AUC Meán ROC-AUC de réir úsáideora
Duaiseanna don chéad chéim - T-léinte le haghaidh N áiteanna, pasáiste go dtí an dara céim, áit ar íocadh lóistín agus béilí le linn an chomórtais
An dara céim - ??? (Ar chúiseanna áirithe, ní raibh mé i láthair ag an searmanas bronnta agus ní raibh mé in ann a fháil amach cad iad na duaiseanna sa deireadh). Gheall siad ríomhairí glúine do gach ball den fhoireann bhuacach
Duaiseanna don chéad chéim - Tléinte don 100 rannpháirtí is fearr, pasáiste go dtí an dara céim, áit ar íocadh taisteal go Moscó, lóistín agus béilí le linn an chomórtais. Chomh maith leis sin, i dtreo dheireadh na chéad chéime, fógraíodh duaiseanna don chuid is fearr i 3 thasc ag céim 1: bhuaigh gach duine cárta físeáin RTX 2080 TI!
Ba é an dara céim céim foirne, foirne comhdhéanta de 2 go 5 daoine, duaiseanna:
1ú áit - 300 rúbal
2ú áit - 200 rúbal
3ú áit - 100 rúbal
duais ghiúiré - 100 rúbal
Grúpa oifigiúil teileagram, ~190 rannpháirtí, cumarsáid i mBéarla, bhí ar cheisteanna fanacht roinnt laethanta le haghaidh freagra Grúpa oifigiúil i teileagram, ~1500 rannpháirtí, plé gníomhach ar thascanna idir rannpháirtithe agus lucht eagraithe
Chuir na heagraithe dhá réiteach bhunúsacha ar fáil, simplí agus cinn. Bhí níos lú ná 16 GB RAM de dhíth ar shimplí, agus níor luaigh ardchuimhne isteach i 16. Ag an am céanna, ag breathnú chun cinn beagán, ní raibh na rannpháirtithe in ann níos fearr ná an réiteach ardleibhéil a dhéanamh go suntasach. Ní raibh aon deacrachtaí ann na réitigh seo a sheoladh. Ba chóir a thabhairt faoi deara go raibh trácht sa réamhshampla le leid maidir le cén áit ar féidir tosú ar an réiteach a fheabhsú. Cuireadh réitigh bhunúsacha primitive ar fáil do gach ceann de na tascanna, rud a sháraigh na rannpháirtithe go héasca. I laethanta tosaigh an chomórtais, bhí roinnt deacrachtaí ag rannpháirtithe: ar an gcéad dul síos, tugadh na sonraí i bhformáid Apache Parquet, agus níor oibrigh gach teaglaim de Python agus an pacáiste iontlaise gan earráidí. Ba é an dara deacracht ná pictiúir a íoslódáil ón scamall ríomhphoist; faoi láthair níl aon bhealach éasca le méid mór sonraí a íoslódáil láithreach. Mar thoradh air sin, chuir na fadhbanna seo moill ar na rannpháirtithe ar feadh cúpla lá.

IDAO. An chéad chéim

Ba é an tasc ná cáithníní muóin/neamh-mhuóin a rangú de réir a saintréithe. Ba é príomhghné an taisc seo ná láithreacht colún meáchain sna sonraí oiliúna, rud a léirigh na heagraithe iad féin mar mhuinín sa fhreagra don líne seo. An fhadhb a bhí ann ná go raibh meáchain dhiúltacha i roinnt sraitheanna.

Large Hadron Collider agus Odnoklassniki

Tar éis cúpla nóiméad a bheith ag smaoineamh ar an líne leis an leid (dírigh an leid aird ar an ngné seo den cholún meáchain) agus an graf seo a thógáil, shocraigh muid 3 rogha a sheiceáil:

1) sprioc na línte le meáchain diúltacha a inbhéartú (agus meáchain dá réir)
2) aistrigh na meáchain go dtí an luach íosta ionas go dtosóidh siad ó 0
3) ná húsáid meáchain teaghrán

Ba é an tríú rogha an ceann is measa, ach d'fheabhsaigh an chéad dá toradh, ba é an rogha is fearr ná rogha Uimh.
Large Hadron Collider agus Odnoklassniki
Ba é an chéad chéim eile a bhí againn ná athbhreithniú a dhéanamh ar na sonraí le haghaidh luachanna a bhí in easnamh. Thug na heagraithe sonraí cíortha dúinn cheana féin, áit a raibh go leor luachanna in easnamh, agus cuireadh -9999 ina n-ionad.

Fuaireamar luachanna in easnamh sna colúin MatchedHit_{X,Y,Z}[N] agus MatchedHit_D{X,Y,Z}[N], agus nuair a bhí N=2 nó 3 amháin ann. De réir mar a thuigimid, ní raibh roinnt cáithníní ann pas a fháil go léir 4 brathadóirí , agus stop ceachtar ar an 3ú nó pláta 4 . Bhí colúin Lextra_{X,Y}[N] sna sonraí freisin, a chuireann síos ar an rud céanna le MatchedHit_{X,Y,Z}[N] de réir dealraimh, ach a úsáideann eachtarshuíomh de shaghas éigin. Mhol na meastacháin ghann seo go bhféadfaí Lextra_{X,Y}[N] a chur in ionad na luachanna atá in easnamh in MatchedHit_{X,Y,Z}[N] (do chomhordanáidí X agus Y amháin). Bhí MatchedHit_Z[N] líonta go maith leis an airmheán. Thug na hionramhálacha seo deis dúinn an 1ú áit idirmheánach a bhaint amach sa dá thasc.

Large Hadron Collider agus Odnoklassniki

Ag cur san áireamh nár thug siad rud ar bith as an gcéad chéim a bhuachan, d’fhéadfaimis a bheith stoptha ann, ach leanamar ar aghaidh, tharraing muid pictiúir áille agus tháinig gnéithe nua suas.

Large Hadron Collider agus Odnoklassniki

Mar shampla, fuaireamar amach má bhreacaimid na pointí trasnaithe de cháithnín le gach ceann de na ceithre phláta braite, is féidir linn a fheiceáil go bhfuil na pointí ar gach ceann de na plátaí grúpáilte i 5 dhronuilleog le cóimheas gné de 4 go 5 agus dírithe ar an pointe (0,0), agus i Níl aon phointí sa chéad dronuilleog.

Uimhir pláta / toisí dronuilleogacha 1 2 3 4 5
Pláta 1 500 × 625 1000 × 1250 2000 × 2500 4000 × 5000 8000 × 10000
Pláta 2 520 × 650 1040 × 1300 2080 × 2600 4160 × 5200 8320 × 10400
Pláta 3 560 × 700 1120 × 1400 2240 × 2800 4480 × 5600 8960 × 11200
Pláta 4 600 × 750 1200 × 1500 2400 × 3000 4800 × 6000 9600 × 12000

Tar éis na toisí seo a chinneadh, chuireamar 4 ghné chatagóireacha nua leis do gach cáithnín - uimhir na dronuilleoige ina dtrasnaíonn sé gach pláta.

Large Hadron Collider agus Odnoklassniki

Thugamar faoi deara freisin go raibh an chuma ar na cáithníní scaipthe go dtí na taobhanna ón lár agus tháinig an smaoineamh chun "cáilíocht" an scaipthe seo a mheas ar bhealach éigin. Go hidéalach, is dócha go mbeifí in ann teacht ar chineál éigin parabóil “idéalach” ag brath ar an bpointe éirí de thalamh agus meastachán a dhéanamh ar an imeacht uaidh, ach theorainneamar féin go dtí an líne dhíreach “idéalach”. Tar éis línte díreacha idéalacha den sórt sin a thógáil do gach pointe iontrála, bhíomar in ann diall caighdeánach conair gach cáithnín ón líne dhíreach seo a ríomh. Ós rud é gurbh é 1 an meán-diall le haghaidh sprice = 152, agus 0 i gcás sprice = 390, mheasamar go sealadach go raibh an ghné seo go maith. Agus go deimhin, rinne an ghné seo láithreach go barr na cinn is úsáidí.

Bhí an-áthas orainn agus chuir muid imeacht na 4 phointe trasnaithe do gach cáithnín ón líne dhíreach idéalach mar 4 ghné breise (agus d'oibrigh siad go maith freisin).

Spreag naisc le hailt eolaíocha ar ábhar an chomórtais, a thug na heagraithe dúinn, an smaoineamh go bhfuil muid i bhfad ón gcéad duine chun an fhadhb seo a réiteach agus, b'fhéidir, go bhfuil cineál éigin bogearraí speisialaithe ann. Tar éis dúinn stór a fháil ar github inar cuireadh na modhanna IsMuonSimple, IsMuon, IsMuonLoose i bhfeidhm, d'aistrigh muid iad chuig ár suíomh le mionathruithe. Bhí na modhanna féin an-simplí: mar shampla, má tá an fuinneamh níos lú ná tairseach áirithe, ansin ní muon é, ar shlí eile is muon é. Is léir nach bhféadfadh gnéithe simplí den sórt sin méadú a thabhairt ar chásanna treisithe grádáin, agus mar sin chuireamar “achar” suntasach eile leis an tairseach. Tá na gnéithe seo feabhsaithe beagán freisin. B'fhéidir, trí anailís níos mine a dhéanamh ar na modhanna atá ann cheana féin, go bhféadfaí modhanna níos láidre a aimsiú agus iad a chur leis na comharthaí.

Ag deireadh an chomórtais, rinneamar beagán tweaked ar an réiteach “tapa” don dara fadhb; sa deireadh, bhí sé difriúil ón mbunlíne sna pointí seo a leanas:

  1. I sraitheanna le meáchan diúltach a bhí an sprioc inbhéartaithe
  2. Líonadh na luachanna atá in easnamh in MatchedHit_{X,Y,Z}[N]
  3. Doimhneacht laghdaithe go 7
  4. Ráta foghlama laghdaithe go 0.1 (0.19)

Mar thoradh air sin, rinneamar iarracht gnéithe níos mó (ní an-rathúil), paraiméadair roghnaithe agus catboost oilte, lightgbm agus xgboost, iarracht a dhéanamh ar chumasc éagsúla tuar agus roimh oscailt an príobháideach bhuaigh muid go muiníneach ar an dara tasc, agus ar an gcéad bhí muid i measc na ceannairí.

Tar éis an príobháideach a oscailt bhíomar sa 10ú háit don 1ú tasc agus sa 3ú háit don dara ceann. Bhí na ceannairí go léir measctha suas, agus bhí an luas go príobháideach ní b'airde ná ar an libboard. Dealraíonn sé go raibh na sonraí srathaithe go dona (nó mar shampla ní raibh aon sraitheanna le meáchain diúltacha sa phríobháideach) agus bhí sé seo beagán frustrachas.

Hackathon SNA 2019 - Téacsanna. An chéad chéim

Ba é an tasc a bhí ann ná postálacha úsáideoirí a rangú ar líonra sóisialta Odnoklassniki bunaithe ar an téacs a bhí iontu; chomh maith leis an téacs, bhí cúpla saintréithe eile ag an bpostáil (teanga, úinéir, dáta agus am cruthaithe, dáta agus am féachana ).

Mar chuir chuige chlasaiceach maidir le bheith ag obair le téacs, leagfainn béim ar dhá rogha:

  1. Gach focal a mhapáil isteach i spás veicteora n-tríthoiseach ionas go mbeidh veicteoirí cosúla ag focail chomhchosúla (léigh tuilleadh i ár n-alt), ansin meánfhocal an téacs a aimsiú nó meicníochtaí a úsáid a chuireann suíomh coibhneasta na bhfocal san áireamh (CNN, LSTM/GRU).
  2. Ag baint úsáide as samhlacha a fhéadfaidh oibriú láithreach le habairtí iomlána. Mar shampla, Bert. Go teoiriciúil, ba cheart go n-oibreodh an cur chuige seo níos fearr.

Ós rud é gurb é seo mo chéad taithí le téacsanna, bheadh ​​​​sé mícheart duine éigin a mhúineadh, mar sin beidh mé ag múineadh mé féin. Seo iad na leideanna a thabharfainn dom féin ag tús an chomórtais:

  1. Sula ritheann tú chun rud éigin a mhúineadh, féach ar na sonraí! Chomh maith leis an téacs féin, bhí roinnt colún ar na sonraí agus bhíothas in ann i bhfad níos mó a bhaint astu ná mar a rinne mé. Is é an rud is simplí ná meán-ionchódú sprice a dhéanamh do chuid de na colúin.
  2. Ná foghlaim ó na sonraí go léir! Bhí go leor sonraí ann (thart ar 17 milliún sraitheanna) agus níor ghá iad go léir a úsáid chun hipitéisí a thástáil. Bhí an oiliúint agus an réamhphróiseáil mall go leor, agus is léir go mbeadh am agam hipitéisí níos suimiúla a thástáil.
  3. <Comhairle chonspóideach> Níl gá a chuardach le haghaidh samhail killer. Chaith mé tamall fada ag déanamh amach Elmo agus Bert, ag súil go dtógfaidís go dtí áit ard mé láithreach, agus mar thoradh air sin d'úsáid mé leabaithe réamhoilte FastText don Rúisis. Ní raibh mé in ann luas níos fearr a bhaint amach le Elmo, agus fós ní raibh am agam é a dhéanamh amach le Bert.
  4. <Comhairle chonspóideach> Níl gá a chuardach le haghaidh gné killer amháin. Ag féachaint ar na sonraí, thug mé faoi deara nach bhfuil téacs i ndáiríre i thart ar 1 faoin gcéad de na téacsanna! Ach bhí naisc le roinnt acmhainní, agus scríobh mé parsálaí simplí a d'oscail an suíomh agus a tharraing amach an teideal agus cur síos. Ba smaoineamh maith a bhí ann, ach ansin d’éirigh mé as agus chinn mé na naisc go léir a pharsáil do na téacsanna go léir agus chaill mé go leor ama arís. Níor chuir sé seo go léir feabhas suntasach ar an toradh deiridh (cé go ndearna mé figiúr amach ag éirí as, mar shampla).
  5. Oibríonn gnéithe clasaiceacha. Táimid ag Google, mar shampla, “gnéithe téacs a mhúscailt”, a léamh agus a chur leis gach rud. Chuir TF-IDF feabhas ar fáil, mar a rinne gnéithe staitistiúla ar nós fad téacs, focail, agus méid na poncaíochta.
  6. Má tá colúin DateTime ann, is fiú iad a pharsáil i roinnt gnéithe ar leith (uaireanta, laethanta na seachtaine, etc.). Cé na gnéithe ar chóir a aibhsiú ar cheart anailís a dhéanamh orthu agus graif/roinnt méadrachta á n-úsáid. Anseo, ar a whim, rinne mé gach rud i gceart agus leag mé béim ar na gnéithe riachtanacha, ach ní ghortódh gnáth-anailís (mar shampla, mar a rinneamar sa chluiche ceannais).

Large Hadron Collider agus Odnoklassniki

Mar thoradh ar an gcomórtas, thraenáil mé múnla keras amháin le convolution focal, agus ceann eile bunaithe ar LSTM agus GRU. Bhain an bheirt acu úsáid as leabaithe FastText réamh-oilte don teanga Rúisis (rinne mé iarracht ar roinnt leabaithe eile, ach ba iad seo na cinn a d’oibrigh is fearr). Tar éis meánú na dtuartha, bhain mé an 7ú háit deiridh as 76 rannpháirtí.

Tar éis an chéad chéim a foilsíodh é alt le Nikolai Anokhin, a bhain an dara háit amach (ghlac sé páirt as an iomaíocht), agus a réiteach suas go dtí céim éigin arís agus arís eile mianach, ach chuaigh sé níos faide mar gheall ar an meicníocht aird ceist-eochair-luach.

An dara céim OK & IDAO

Tharla an dara céim de na comórtais beagnach i ndiaidh a chéile, agus mar sin chinn mé breathnú orthu le chéile.

Ar dtús, chríochnaigh mé féin agus an fhoireann nua-fhaighte suas in oifig mhórthaibhseach na cuideachta Mail.ru, áit a raibh an tasc againn na samhlacha de thrí rianta ón gcéad chéim a chur le chéile - téacs, pictiúir agus collab. Leithroinneadh beagán níos mó ná 2 lá le haghaidh seo, rud a d'éirigh go han-bheag. Go deimhin, ní raibh muid in ann ach ár dtorthaí a dhéanamh arís ón gcéad chéim gan aon ghnóthachain a fháil ón gcumasc. Sa deireadh, ghlacamar an 5ú háit, ach ní raibh muid in ann an múnla téacs a úsáid. Tar éis féachaint ar réitigh rannpháirtithe eile, is cosúil gur fiú iarracht a dhéanamh na téacsanna a bhraisliú agus iad a chur leis an tsamhail chomhoibrithe. Taobh-éifeacht na céime seo ba ea imprisean nua, bualadh le rannpháirtithe agus eagraithe fionnuara agus cumarsáid a dhéanamh leo, chomh maith le droch-easpa codlata, a d'fhéadfadh tionchar a bheith aige ar thoradh na céime deiridh den IDAO.

Ba é an tasc ag céim Dheiridh IDAO 2019 ná an t-am feithimh le haghaidh ordú do thiománaithe tacsaí Yandex ag an aerfort a thuar. Ag céim 2, aithníodh 3 thasc = 3 aerfort. I gcás gach aerfoirt, tugtar sonraí nóiméad ar nóiméad ar líon na n-orduithe tacsaí ar feadh sé mhí. Agus mar shonraí tástála, tugadh sonraí na míosa seo chugainn agus nóiméad-ar-nóiméad ar orduithe le 2 sheachtain anuas. Ní raibh mórán ama ann (1,5 lá), bhí an tasc sách sonrach, níor tháinig ach duine amháin ón bhfoireann go dtí an comórtas – agus mar thoradh air sin, áit brónach a bhí ann i dtreo an deireadh. I measc na smaointe suimiúla bhí iarrachtaí chun sonraí seachtracha a úsáid: aimsir, subha tráchta agus staitisticí ar ordú tacsaí Yandex. Cé nár dúirt na heagraithe cad a bhí sna haerfoirt seo, ghlac go leor rannpháirtithe leis gurbh iad Sheremetyevo, Domodedovo agus Vnukovo a bhí iontu. Cé gur diúltaíodh an toimhde seo tar éis an chomórtais, chuir gnéithe, mar shampla, ó shonraí aimsire Moscó feabhas ar na torthaí ar bhailíochtú agus ar an gclár ceannairí.

Conclúid

  1. Tá comórtais ML fionnuar agus suimiúil! Anseo gheobhaidh tú úsáid scileanna in anailís sonraí, agus i múnlaí agus teicnící cunning, agus tá fáilte roimh chiall choiteann.
  2. Is corp ollmhór eolais é ML cheana féin agus is cosúil go bhfuil sé ag fás go heaspónantúil. Shocraigh mé sprioc dom féin dul i dtaithí ar réimsí éagsúla (comharthaí, pictiúir, táblaí, téacs) agus thuig mé cheana féin cé mhéad atá le déanamh chun staidéar a dhéanamh. Mar shampla, tar éis na gcomórtas seo chinn mé staidéar a dhéanamh ar: algartaim braisle, ardteicníochtaí chun oibriú le leabharlanna treisithe grádáin (go háirithe, ag obair le CatBoost ar an GPU), líonraí capsúil, an mheicníocht aird ceist-eochair-luacha.
  3. Ní trí kaggle amháin! Tá go leor comórtais eile ann ina bhfuil sé níos éasca ar a laghad T-léine a fháil, agus tá seans níos mó ann do dhuaiseanna eile.
  4. Déan cumarsáid! Tá pobal mór ann cheana féin i réimse na meaisínfhoghlama agus anailíse sonraí, tá grúpaí téamacha ann i teileagram, bog, agus daoine tromchúiseacha ó Mail.ru, Yandex agus cuideachtaí eile ceisteanna a fhreagairt agus cabhrú le tosaitheoirí agus iad siúd atá ag leanúint ar aghaidh lena gcosán sa réimse seo. an eolais.
  5. Molaim do gach duine a spreag an pointe roimhe seo cuairt a thabhairt datafest — mórchomhdháil saor in aisce i Moscó, a bheidh ar siúl ar an 10-11 Bealtaine.

Foinse: will.com

Add a comment