SNA Hackathon 2019

Ka Hlakola-Mots'eanong 2019, tlholisano e ile ea tšoaroa ho beha maemo a phepelo ea marang-rang a sechaba SNA Hackathon 2019, moo sehlopha sa rona se ileng sa nka sebaka sa pele. Sehloohong seo ke tla bua ka mokhatlo oa tlhōlisano, mekhoa eo re e lekileng, le litlhophiso tsa catboost bakeng sa koetliso ea data e kholo.

SNA Hackathon 2019

SNA Hackathon

Lena ke lekhetlo la boraro hackathon e tlas'a lebitso lena e tšoaroa. E hlophisitsoe ke marang-rang a sechaba ok.ru, ka ho latellana, mosebetsi le data li amana ka kotloloho le sebaka sena sa marang-rang.
SNA (tlhahlobo ea marang-rang ea sechaba) ntlheng ena e utloisisoa ka nepo eseng joalo ka tlhahlobo ea graph ea sechaba, empa joalo ka tlhahlobo ea marang-rang a sechaba.

  • Ka 2014, mosebetsi e ne e le ho bolela esale pele hore na poso e tla fumana eng.
  • Ka 2016 - mosebetsi oa VVZ (mohlomong u tloaelane), haufi le tlhahlobo ea graph ea sechaba.
  • Ka 2019, beha maemo a phepelo ea mosebelisi ho latela monyetla oa hore mosebelisi a rate poso.

Ha ke khone ho bua ka 2014, empa ka 2016 le 2019, ho phaella ho bokhoni ba ho hlahloba lintlha, tsebo ea ho sebetsa le data e kholo le eona e ne e hlokahala. Ke nahana hore e ne e le motsoako oa ho ithuta mochine le mathata a maholo a ho sebetsana le lintlha tse ileng tsa nkhahla litlhōlisanong tsena, 'me phihlelo ea ka libakeng tsena e nthusitse ho hlōla.

mlbootcamp

Ka 2019, tlholisano e ile ea hlophisoa sethaleng https://mlbootcamp.ru.

Tlholisano e qalile inthaneteng ka la 7 Hlakola mme e ne e e-na le mesebetsi e 3. Mang kapa mang a ka ingolisa setšeng, jarolla motheo ebe o laela koloi ea hau ka lihora tse 'maloa. Qetellong ea sethala sa Marang-rang ka la 15 Hlakubele, ba 15 ba holimo ketsahalong e 'ngoe le e 'ngoe ea ho qhomela ba ile ba memeloa ofising ea Mail.ru bakeng sa sethala sa offline, se etsahetseng ho tloha ka la 30 Hlakubele ho fihlela la 1 Mmesa.

Sepheo

Lintlha tsa mohloli li fana ka li-ID tsa mosebelisi (userId) le li-ID tsa poso (objectId). Haeba mosebelisi a bonts'itsoe poso, data e na le mohala o nang le userId, objectId, maikutlo a basebelisi posong ena (maikutlo) le likarolo tse fapaneng kapa likhokahano tsa litšoantšo le litemana.

Theneketso objectId ownerId ditshwaelo litšoantšo
3555 22 5677 [e ratile, e tobetse] [hash1]
12842 55 32144 [sa rate] [hash2, hash3]
13145 35 5677 [e tobetse, ea arolelanoa] [hash2]

Sete ea data ea teko e na le sebopeho se ts'oanang, empa karolo ea maikutlo ha e eo. Mosebetsi ke ho bolela esale pele boteng ba maikutlo a 'ratang' sebakeng sa maikutlo.
Faele ea tlhahiso e na le sebopeho se latelang:

Theneketso SortedList[objectId]
123 78,13,54,22
128 35,61,55
131 35,68,129,11

Metric ke karolelano ea ROC AUC bakeng sa basebelisi.

Tlhaloso e qaqileng haholoanyane ea data e ka fumanoa ho websaeteng ea lekhotla. U ka boela ua khoasolla data moo, ho kenyelletsa liteko le litšoantšo.

Sethala sa Marang-rang

Boemong ba marang-rang, mosebetsi o arotsoe likarolo tse 3

  • Sistimi e kopanetsoeng - e kenyeletsa likarolo tsohle ntle le litšoantšo le litemana;
  • Litšoantšo - e kenyelletsa feela tlhahisoleseling mabapi le litšoantšo;
  • Litemana — e kenyeletsa tlhahisoleseding e mabapi le dingolwa feela.

Sethala sa offline

Boemong ba kantle ho naha, data e ne e kenyelletsa likarolo tsohle, athe litemana le litšoantšo li ne li fokola. Ho ne ho e-na le mela e mengata ka makhetlo a 1,5 ho dataset, eo ho eona ho neng ho se ho ntse ho le ngata.

Tharollo ea bothata

Kaha ke etsa CV mosebetsing, ke ile ka qala leeto la ka tlhōlisanong ena ka mosebetsi oa "Litšoantšo". Lintlha tse fanoeng e ne e le userId, objectId, ownerId (sehlopha seo poso e hatisitsoeng ho sona), litempe tsa linako tsa ho theha le ho hlahisa poso, 'me, ehlile, setšoantšo sa poso ena.
Kamora ho hlahisa likarolo tse 'maloa ho ipapisitsoe le litempe tsa linako, mohopolo o latelang e ne e le ho nka karolo ea pele ea neuron e koetlisitsoeng pele ho imagenet le ho romela tse kenyellelitsoeng ho matlafatsoa.

SNA Hackathon 2019

Liphello e ne e se tse khahlehang. Ke nahana hore lintho tse kenngoeng ho tsoa ho imagenet neuron ha li na thuso, ke ile ka nahana hore ke hloka ho iketsetsa autoencoder.

SNA Hackathon 2019

Ho nkile nako e ngata mme sephetho ha sea ka sa ntlafala.

Feature generation

Ho sebetsa ka litšoantšo ho nka nako e ngata, kahoo ke ile ka etsa qeto ea ho etsa ntho e bonolo haholoanyane.
Joalokaha u ka bona hang-hang, ho na le likarolo tse 'maloa tsa likarolo ho dataset,' me e le hore ke se ke ka khathatseha haholo, ke mpa ke nka catboost. Tharollo e ne e le ntle haholo, ntle le litlhophiso tsa hang-hang ke ile ka fihla moleng oa pele oa boardboard.

Ho na le data e ngata haholo mme e behiloe ka sebopeho sa parquet, kahoo ntle le ho nahana habeli, ke ile ka nka scala mme ka qala ho ngola ntho e ngoe le e ngoe ka spark.

Likarolo tse bonolo tse faneng ka kholo ho feta tse kentsoeng litšoantšong:

  • ke makhetlo a makae objectId, userId le ownerId li hlahileng ho data (li lokela ho amahanngoa le botumo);
  • ke li-post tse kae tseo userId a li boneng ho tsoa ho ownerId (li lokela ho amahanngoa le thahasello ea mosebedisi sehlopheng);
  • hore na ke li-userIds tse kae tse ikhethileng tse boneng lipapatso ho tsoa ho ownerId (e bonts'a boholo ba bamameli ba sehlopha).

Ho tsoa litempeng tsa linako ho ne ho khoneha ho fumana nako ea letsatsi eo mosebelisi a shebelletseng phepelo ka eona (hoseng/thapama/mantsiboea/bosiu). Ka ho kopanya mekhahlelo ena, o ka tsoela pele ho hlahisa likarolo:

  • userId o kene ka makhetlo a makae mantsiboea;
  • ka nako efe poso ena e atisa ho bontšoa (objectId) joalo-joalo.

Sena sohle se ile sa ntlafatsa butle-butle metrics. Empa boholo ba dataset ea koetliso e ka ba lirekoto tsa 20M, kahoo ho eketsa likarolo ho ile ha fokotsa koetliso haholo.

Ke fetotse mokhoa oa ka oa ho sebelisa data. Le hoja data e itšetlehile ka nako, ha kea bona boitsebiso leha e le bofe bo hlakileng bo lutla "nakong e tlang", leha ho le joalo, haeba ho ka etsahala, ke ile ka e senya ka tsela ena:

SNA Hackathon 2019

Sehlopha sa koetliso seo re ileng ra se fuoa (February le libeke tse 2 tsa March) se ile sa aroloa likarolo tse peli.
Mohlala o koetlisitsoe ka lintlha tsa matsatsi a N a fetileng. Likopano tse hlalositsoeng ka holimo li hahiloe holim'a lintlha tsohle, ho kenyeletsoa le teko. Ka nako e ts'oanang, data e hlahile moo ho ka khonehang ho aha li-encodings tse fapaneng tsa sepheo se fapaneng. Mokhoa o bonolo ka ho fetisisa ke oa ho sebelisa khoutu e seng e ntse e theha likarolo tse ncha, 'me u e fepe data eo e ke keng ea koetlisoa le ho tsepamisa maikutlo ho eona = 1.

Kahoo, re na le likarolo tse tšoanang:

  • Ke makhetlo a makae userId a boneng poso ho ownerId ea sehlopha;
  • Ke makhetlo a makae userId a ratileng poso ho mong'a sehlopha;
  • Peresente ea liphatlalatso tseo userId a li ratileng ho tsoa ho ownerId.

Ke hore, ho ile ha etsahala bolela khouto ya sepheo karolong ea dataset bakeng sa motsoako o fapaneng oa likarolo tsa likarolo. Ha e le hantle, catboost e boetse e haha ​​​​encoding ea sepheo 'me ho tloha ntlheng ena ha ho na molemo, empa, mohlala, ho ile ha khoneha ho bala palo ea basebelisi ba ikhethang ba neng ba rata melaetsa ea sehlopha sena. Ka nako e ts'oanang, sepheo se seholo se ile sa finyelloa - dataset ea ka e fokotsehile ka makhetlo a 'maloa,' me ho ne ho khoneha ho tsoela pele ho hlahisa likarolo.

Leha catboost e ka theha khouto e ipapisitse le karabelo e ratileng, maikutlo a na le maikutlo a mang: e arolelanoeng hape, e sa ratoang, e sa rateheng, e tobetse, e hlokomolohuoe, likhoutullo tse ka etsoang ka letsoho. Ke ile ka bala mefuta eohle ea li-aggregate mme ka tlosa likarolo tse nang le bohlokoa bo tlase e le hore ke se ke ka senya dataset.

Ka nako eo ke ne ke le sebakeng sa pele ka moeli o moholo. Ntho feela e neng e ferekanya ke hore litšoantšo tse kentsoeng li ne li bontša hoo e batlang e se na khōlo. Khopolo e ile ea tla ea ho fana ka ntho e 'ngoe le e' ngoe ho catboost. Re kopanya litšoantšo tsa Kmeans 'me re fumana setšoantšo se secha sa likarolo tsa Cat.

Mona ke lihlopha tse ling ka mor'a ho sefa ka letsoho le ho kopanya lihlopha tse fumanoang ho tsoa ho KMeans.

SNA Hackathon 2019

Ho ipapisitsoe le setšoantšoCat re hlahisa:

  • Likarolo tse ncha tsa sehlopha:
    • Ke setšoantšo sefe se neng se shejoa hangata ke userId;
    • Ke setšoantšo sefe saKatse hangata se bontšang mong'aId;
    • Ke setšoantšo sefe se neng se ratoa hangata ke userId;
  • Li-counters tse fapaneng:
    • Ke litšoantšo tse kae tse ikhethangKatse e shebileng userId;
    • Hoo e ka bang likarolo tse 15 tse ts'oanang le khouto ea sepheo joalo ka ha ho hlalositsoe ka holimo.

Litemana

Liphetho tsa tlholisano ea litšoantšo li ne li ntšoanela 'me ke ile ka etsa qeto ea ho leka lingoloa. Ha ke so sebetse haholo ka litemana pele, 'me, ka booatla, ke bolaile letsatsi ka tf-idf le svd. Eaba ke bona baseline le doc2vec, e etsang hantle seo ke se hlokang. Ha ke se ke fetotse liparamente tsa doc2vec hanyane, ke ile ka kenya mongolo.

'Me ka mor'a moo ke ile ka sebelisa khoutu ea litšoantšo hape, moo ke ileng ka nkela litšoantšo tse kenngoeng sebakeng sa mengolo. Ka lebaka leo, ke ile ka nka sebaka sa 2 tlhōlisanong ea mongolo.

Sistimi e kopanetsoeng

Ho ne ho setse tlholisano e le 'ngoe eo ke neng ke e-s'o "e hlabe" ka molamu, 'me ho ahlola ke AUC holim'a boto ea baetapele, liphetho tsa tlholisano ena e khethehileng li ne li tlameha ho ba le tšusumetso e kholo sethaleng sa kantle ho marang-rang.
Ke ile ka nka likarolo tsohle tse neng li le mohloling oa boitsebiso, ka khetha likarolo tse fapaneng 'me ka bala likarolo tse tšoanang le tsa litšoantšo, ntle le likarolo tse thehiloeng litšoantšong ka botsona. Ho beha sena ka har'a catboost ho entse hore ke fihle sebakeng sa bobeli.

Mehato ea pele ea catboost optimization

Sebaka se le seng sa pele le sa bobeli sa bobeli se ile sa nthabisa, empa ho ne ho e-na le kutloisiso ea hore ha kea etsa letho le khethehileng, ho bolelang hore nka lebella ho lahleheloa ke maemo.

Mosebetsi oa tlholisano ke ho beha maemo ka har'a mosebelisi, 'me nako ena eohle ke ne ke rarolla bothata ba ho hlophisa, ke hore, ho ntlafatsa metric e fosahetseng.

E-re ke u fe mohlala o bonolo:

Theneketso objectId ho bolela esale pele nnete ya motheo
1 10 0.9 1
1 11 0.8 1
1 12 0.7 1
1 13 0.6 1
1 14 0.5 0
2 15 0.4 0
2 16 0.3 1

Ha re etseng tlhophiso e nyane

Theneketso objectId ho bolela esale pele nnete ya motheo
1 10 0.9 1
1 11 0.8 1
1 12 0.7 1
1 13 0.6 0
2 16 0.5 1
2 15 0.4 0
1 14 0.3 1

Re fumana liphetho tse latelang:

Mohlala AUC User1 AUC User2 AUC e bolela AUC
Khetho ea 1 0,8 1,0 0,0 0,5
Khetho ea 2 0,7 0,75 1,0 0,875

Joalokaha u bona, ho ntlafatsa metric ea AUC ka kakaretso ha ho bolele ho ntlafatsa metric ea AUC e tloaelehileng kahare ho mosebelisi.

Katboost o tseba ho ntlafatsa metrics ea maemo ho tloha lebokoseng. Ke balile ka metrics ea maemo, litaba tsa katleho ha u sebelisa catboost 'me u behe YetiRankPairwise ho ikoetlisa bosiu bo le bong. Phello e ne e se e tsotehang. Ha ke etsa qeto ea hore ke ne ke sa ruteha, ke ile ka fetola mosebetsi oa phoso ho QueryRMSE, eo, ho latela litokomane tsa catboost, e fetohang ka potlako. Qetellong, ke ile ka fumana liphello tse tšoanang le ha ke koetlisetsoa ho arola lihlopha, empa li-ensembles tsa mefuta ena e 'meli li ile tsa fana ka keketseho e ntle, e leng se ileng sa ntlisa sebakeng sa pele litlhōlisanong tsohle tse tharo.

Metsotso ea 5 pele ho koaloa sethaleng sa marang-rang sa tlhōlisano ea "Collaborative Systems", Sergey Shalnov o ile a nkisa sebakeng sa bobeli. Re ile ra tsamaea tseleng e tsoelang pele hammoho.

Ho itokisetsa sethaleng sa offline

Re ile ra tiisetsoa tlhōlo sethaleng sa marang-rang ka karete ea video ea RTX 2080 TI, empa moputso o ka sehloohong oa li-ruble tsa 300 'me, mohlomong, esita le sebaka sa pele sa ho qetela se ile sa re qobella ho sebetsa libeke tsena tsa 000.

Ha e le hantle, Sergey o ile a boela a sebelisa catboost. Re ile ra fapanyetsana maikutlo le litšobotsi, 'me ke ile ka ithuta ka tlaleho ea Anna Veronica Dorogush e neng e e-na le likarabo tsa lipotso tsa ka tse ngata, esita le tseo ke neng ke e-s’o be le tsona ka nako eo.

Ho shebella tlaleho ho ile ha nkisa khopolong ea hore re hloka ho khutlisetsa litekanyetso tsohle ho boleng ba kamehla, 'me re etse litlhophiso ka hloko haholo le ka mor'a ho lokisa sete sa likarolo. Joale koetliso e le 'ngoe e nkile lihora tse ka bang 15, empa mofuta o le mong o ile oa khona ho fumana lebelo le betere ho feta le neng le fumanoa ka har'a sehlopha se nang le maemo.

Feature generation

Tlholisanong ea Litsamaiso tse Kopanetsoeng, palo e kholo ea likarolo li hlahlojoa e le tsa bohlokoa bakeng sa mohlala. Ka mohlala, auditweights_spark_svd - pontšo ea bohlokoa ka ho fetisisa, empa ha ho na tlhahisoleseding mabapi le seo e se bolelang. Ke ne ke nahana hore ho tla ba molemo ho bala likarolo tse fapaneng tse thehiloeng ho likarolo tsa bohlokoa. Mohlala, ka karolelano auditweights_spark_svd ka mosebelisi, ka sehlopha, ka ntho. E tšoanang e ka baloa ho sebelisoa data eo ho seng koetliso e etsoang ho eona le sepheo = 1, ke hore, karolelano auditweights_spark_svd ka mosebedisi ka dintho tseo a di ratileng. Lipontšo tsa bohlokoa ntle le auditweights_spark_svd, ho ne ho e-na le tse ’maloa. Tse ling tsa tsona ke tsena:

  • auditweightsCtrGender
  • auditweightsCTrHigh
  • userOwnerCounterCreateLikes

Ka mohlala, karolelano auditweightsCtrGender ho latela userId e bile karolo ea bohlokoa, joalo ka boleng bo tloaelehileng userOwnerCounterCreateLikes ka userId+ownerId. Sena se lokela ho etsa hore o nahane hore o hloka ho utloisisa moelelo oa masimo.

Hape likarolo tsa bohlokoa li ne li auditweightsLikesCount и auditweightsShowsCount. Ho arola e ’ngoe ka e ’ngoe, ho ile ha fumanoa tšobotsi ea bohlokoa le ho feta.

Ho dutla ha data

Tlholisano le mohlala oa tlhahiso ke mesebetsi e fapaneng haholo. Ha u lokisetsa lintlha, ho thata haholo ho ela hloko lintlha tsohle le ho se fetise boitsebiso bo seng bo sa reng letho ka sepheo se fapaneng sa teko. Haeba re theha tharollo ea tlhahiso, re tla leka ho qoba ho sebelisa ho lutla ha data ha re koetlisa mohlala. Empa haeba re batla ho hapa tlholisano, ho lutla ha data ke likarolo tse ntle ka ho fetisisa.

Ha u se u ithutile data, u ka bona hore ho latela boleng ba objectId auditweightsLikesCount и auditweightsShowsCount phetoho, ho bolelang hore karo-karolelano ea boleng bo phahameng ba likarolo tsena e tla bonts'a phetoho ea poso e betere haholo ho feta karo-karolelano nakong ea pontšo.

Leak ea pele eo re e fumaneng ke auditweightsLikesCountMax/auditweightsShowsCountMax.
Empa ho thoe'ng haeba re sheba data ka hloko haholoanyane? Ha re hlophe ho latela letsatsi la pontšo 'me re fumane:

objectId Theneketso auditweightsShowsCount auditweightsLikesCount target (ea ratoa)
1 1 12 3 mohlomong ha ho joalo
1 2 15 3 mohlomong ho joalo
1 3 16 4

E ne e le ntho e makatsang ha ke fumana mohlala oa pele o joalo 'me ho ile ha fumaneha hore boprofeta ba ka ha boa phethahala. Empa, ho ela hloko taba ea hore boleng bo phahameng ba litšoaneleho tsena ka har'a ntho bo ile ba eketseha, ha rea ​​ka ra ba botsoa mme ra etsa qeto ea ho fumana. auditweightsShowsCountNext и auditweightsLikesCountNext, ke hore, litekanyetso nakong e tlang ka nako. Ka ho eketsa tšobotsi
(auditweightsShowsCountNext-auditweightsShowsCount)/(auditweightsLikesCount-auditweightsLikesCountNext) re ile ra qhoma ka bohale ka potlako.
Lits'oants'o tse ts'oanang li ka sebelisoa ka ho fumana lintlha tse latelang tsa userOwnerCounterCreateLikes ka har'a userId+ownerId le, mohlala, auditweightsCtrGender ka hare ho objectId+userGender. Re fumane masimo a 6 a ts'oanang a nang le ho lutla mme ra ntša lintlha tse ngata kamoo ho ka khonehang ho tsona.

Ka nako eo, re ne re kentse tlhahisoleseling e ngata kamoo ho ka khonehang ho tsoa lits'ebetsong tse kopanetsoeng, empa ha rea ​​ka ra khutlela tlholisanong ea litšoantšo le mongolo. Ke bile le mohopolo o motle oa ho hlahloba: likarolo li fana ka bokae ka kotloloho ho latela litšoantšo kapa lingoloa litlholisanong tse amehang?

Ho ne ho se na ho lutla litlholisanong tsa setšoantšo le mongolo, empa ka nako eo ke ne ke khutlisitse li-parameter tsa kamehla tsa catboost, ke hloekisitse khoutu mme ka eketsa likarolo tse 'maloa. Kakaretso e ne e le:

u etsa qeto ea haufinyane
Boholo ka litšoantšo 0.6411
Boholo ha bo na litšoantšo 0.6297
Sephetho sa boemo ba bobeli 0.6295

u etsa qeto ea haufinyane
Boholo ka litemana 0.666
Boholo ntle le litemana 0.660
Sephetho sa boemo ba bobeli 0.656

u etsa qeto ea haufinyane
Boholo ka kopanelo 0.745
Sephetho sa boemo ba bobeli 0.723

Ho ile ha totobala hore ho ne ho se bonolo hore re khone ho pepeta haholo litemana le litšoantšo, 'me ka mor'a ho leka likhopolo tse' maloa tse thahasellisang, re ile ra khaotsa ho sebetsa le tsona.

Tsoelo-pele ea likarolo tsamaisong e kopanetsoeng ha ea ka ea fana ka keketseho, 'me re ile ra qala ho beha maemo. Sethaleng sa Marang-rang, sehlopha le sehlopha sa maemo se ile sa mpha keketseho e nyane, joalo ka ha ho bile joalo hobane ke ne ke nyenyefatsa maemo. Ha ho le e 'ngoe ea liphoso tse sebetsang, ho kenyelletsa le YetiRanlPairwise, e hlahisitseng kae kapa kae haufi le sephetho seo LogLoss e se entseng (0,745 vs. 0,725). Ho ne ho ntse ho e-na le tšepo bakeng sa QueryCrossEntropy, e neng e sa khone ho qalisoa.

Sethala sa offline

Boemong ba kantle ho marang-rang, sebopeho sa data se ile sa lula se tšoana, empa ho bile le liphetoho tse nyane:

  • li-identifiersId, objectId, ownerId li entsoe bocha;
  • lipontšo tse ’maloa li ile tsa tlosoa ’me tse ’maloa tsa rehoa mabitso;
  • data e eketsehile ka makhetlo a ka bang 1,5.

Ntle le mathata a thathamisitsoeng, ho ne ho e-na le phaello e le 'ngoe e kholo: sehlopha se ne se abetsoe seva se seholo se nang le RTX 2080TI. Ke thabetse htop nako e telele.
SNA Hackathon 2019

Ho ne ho e-na le mohopolo o le mong feela - ho hlahisa se seng se ntse se le teng. Kamora ho qeta lihora tse 'maloa re theha tikoloho ho seva, butle-butle re ile ra qala ho netefatsa hore liphetho li ka hlahisoa hape. Bothata bo boholo boo re tobaneng le bona ke ho eketseha ha palo ea data. Re nkile qeto ea ho fokotsa moroalo hanyane ebe re beha parameter ea catboost ctr_complexity=1. Sena se theola lebelo hanyane, empa mohlala oa ka o ile oa qala ho sebetsa, sephetho se ne se le ntle - 0,733. Sergey, ho fapana le 'na, ha aa ka a arola lintlha ka likarolo tsa 2 mme a koetlisetsoa ho data eohle, le hoja sena se ile sa fana ka liphello tse ntle ka ho fetisisa sethaleng sa inthanete, sethaleng sa offline ho ne ho e-na le mathata a mangata. Haeba re ka nka likarolo tsohle tseo re li hlahisitseng mme ra leka ho li sutumelletsa ka har'a catboost, ha ho letho le neng le tla sebetsa sethaleng sa inthanete. Sergey o ile a thaepa optimization, ho etsa mohlala, ho fetolela mefuta ea float64 ho float32. Sehloohong sena, U ka fumana tlhahisoleseling mabapi le ts'ebetso ea memori ho li-pandas. Ka lebaka leo, Sergey o ile a koetlisa CPU a sebelisa lintlha tsohle mme a fumana hoo e ka bang 0,735.

Liphetho tsena li ne li lekane ho hlola, empa re ile ra pata lebelo la rona la 'nete mme re ne re sa tsebe hore na lihlopha tse ling ha li etse joalo.

Loana ho fihlela qetellong

Tokiso ea Catboost

Tharollo ea rona e ile ea hlahisoa hape ka botlalo, re kentse likarolo tsa data ea mongolo le litšoantšo, kahoo se neng se setse e ne e le ho hlophisa liparamente tsa catboost. Sergey o koetliselitsoe ho CPU ka palo e fokolang ea ho pheta-pheta, 'me ke koetliselitse ho e nang le ctr_complexity=1. Ho ne ho setse letsatsi le le leng, 'me haeba u ka eketsa likhatiso kapa u eketsa ctr_complexity, joale hoseng u ka fumana lebelo le betere le ho feta le ho tsamaea letsatsi lohle.

Boemong ba kantle ho marang-rang, lebelo le ka patoa habonolo feela ka ho khetha eseng tharollo e molemohali sebakeng sa marang-rang. Re ne re lebelletse hore ho be le liphetoho tse kholo ka har'a boardboard metsotsong e fetileng pele likopo li koaloa 'me ra etsa qeto ea ho se emise.

Ho tsoa videong ea Anna, ke ithutile hore ho ntlafatsa boleng ba mohlala, ho molemo ho khetha litekanyo tse latelang:

  • thuto_tekanyo - Theko ea kamehla e baloa ho latela boholo ba dataset. Ho eketsa_rate ea ho ithuta ho hloka ho eketsa palo ea ho pheta-pheta.
  • l2_lekhasi_reg - Regularization coefficient, default value 3, ka ho khetheha khetha ho tloha 2 ho ea ho 30. Ho fokotseha ha boleng ho lebisa ho eketseha ha overfit.
  • mekotla_mocheso - eketsa randomization ho boima ba lintho tse sampuling. Boleng ba kamehla ke 1, moo litekanyo li huloang ho tloha kabong ea exponential. Ho fokotseha ha boleng ho lebisa ho eketseha ha chelete e ngata.
  • random_matla - E ama khetho ea ho arohana ka nako e itseng. Ha random_strength e phahame, ho na le monyetla oa hore ho khethoe karohano ea bohlokoa bo tlaase. Ka nako e 'ngoe le e' ngoe e latelang, boemo bo fokotseha. Ho fokotseha ha boleng ho lebisa ho eketseha ha chelete e ngata.

Likarolo tse ling li na le phello e nyane haholo sephethong sa ho qetela, kahoo ha kea leka ho li khetha. Koetliso e 'ngoe ho dataset ea ka ea GPU e nang le ctr_complexity=1 e nkile metsotso e 20, mme liparamente tse khethiloeng ho dataset e fokotsehileng li ne li fapane hanyane le tse nepahetseng ho dataset e felletseng. Qetellong, ke ile ka etsa liphetolelo tse ka bang 30 ho 10% ea data, 'me ka mor'a moo ka makhetlo a 10 ho lintlha tsohle. Ho ile ha etsahala ntho e kang ena:

  • thuto_tekanyo Ke eketsehile ka 40% ho tloha ho ea kamehla;
  • l2_lekhasi_reg e tlohetse e le jwalo;
  • mekotla_mocheso и random_matla e fokotsehile ho 0,8.

Re ka fihlela qeto ea hore mohlala o ne o nyenyefalitsoe ka li-parameter tsa kamehla.

Ke ile ka makala haholo ha ke bona sephetho letlapeng la baetapele:

Mohlala ea mohlala 1 ea mohlala 2 ea mohlala 3 kopanya
Ntle le tokiso 0.7403 0.7404 0.7404 0.7407
Ka tokiso 0.7406 0.7405 0.7406 0.7408

Ke ile ka iketsetsa qeto ea hore haeba tšebeliso e potlakileng ea mohlala e sa hlokahale, joale ho molemo ho nkela khetho ea li-parameter sebaka ka kopano ea mefuta e mengata e sebelisang li-parameter tse sa ntlafatsoang.

Sergey o ne a ntlafatsa boholo ba dataset ho e tsamaisa ho GPU. Khetho e bonolo ka ho fetisisa ke ho khaola karolo ea data, empa sena se ka etsoa ka mekhoa e mengata:

  • butle-butle tlosa lintlha tsa khale ka ho fetisisa (ho qala ka February) ho fihlela dataset e qala ho kena mohopolong;
  • tlosa likarolo tse nang le bohlokoa bo tlase;
  • tlosa li-userIds tseo ho kenoang ka tsona feela;
  • siea feela li-userIds tse tekong.

'Me qetellong, etsa ensemble ho tsoa likhethong tsohle.

Sehlopha sa ho qetela

Mantsiboeeng a letsatsi la ho qetela, re ne re thehile sehlopha sa mehlala ea rona e hlahisitseng 0,742. Ka bosiu bo le bong ke ile ka tsebisa mohlala oa ka ka ctr_complexity=2 mme sebakeng sa metsotso e 30 e ikoetliselitse lihora tse 5. Ke ka 4 hoseng feela e ileng ea baloa, 'me ke ile ka etsa sehlopha sa ho qetela, se ileng sa fana ka 0,7433 letlapeng la baetapele ba sechaba.

Ka lebaka la mekhoa e fapaneng ea ho rarolla bothata, likhakanyo tsa rona li ne li sa hokahane ka matla, tse faneng ka keketseho e ntle ho sehlopha. Ho fumana kopano e ntle, ho molemo ho sebelisa likhakanyo tsa mohlala tse tala (prediction_type='RawFormulaVal') le ho seta scale_pos_weight=neg_count/pos_count.

SNA Hackathon 2019

Webosaeteng eo u ka e bonang liphetho tsa ho qetela ho boardboard ea poraefete.

Litharollo tse ling

Lihlopha tse ngata li ile tsa latela li-canon tsa li-algorithms tsa tsamaiso. 'Na, ha ke setsebi lefapheng lena, ha ke khone ho li hlahloba, empa ke hopola litharollo tse 2 tse thahasellisang.

  • Tharollo ea Nikolay Anokhin. Nikolay, e leng mosebeletsi oa Mail.ru, ha aa ka a etsa kopo ea moputso, kahoo sepheo sa hae e ne e se ho finyella lebelo le phahameng, empa ho fumana tharollo e bonolo.
  • Qeto ea sehlopha se hapileng Moputso oa Jury e thehiloeng ho sengoloa sena se tsoang ho facebook, e lumelletsoe ho kopanya litšoantšo tse ntle haholo ntle le mosebetsi oa matsoho.

fihlela qeto e

Ke eng e ileng ea lula mohopolong oa ka haholo:

  • Haeba ho na le likarolo tsa categorical ho data, 'me u tseba ho etsa encoding ea sepheo ka nepo, ho ntse ho le molemo ho leka catboost.
  • Haeba u nka karolo tlholisanong, ha ua lokela ho senya nako ka ho khetha liparamente ntle le ho ithuta_rate le ho pheta-pheta. Tharollo e potlakileng ke ho etsa ensemble ea mefuta e mengata.
  • Boostings e ka ithuta ho GPU. Catboost e ka ithuta kapele haholo ho GPU, empa e ja mohopolo o mongata.
  • Nakong ea nts'etsopele le tlhahlobo ea mehopolo, ho molemo ho beha rsm ~ = 0.2 e nyane (CPU feela) le ctr_complexity = 1.
  • Ho fapana le lihlopha tse ling, sehlopha sa mehlala ea rona se fane ka keketseho e kholo. Re ne re fapanyetsana maikutlo feela ’me re ngola ka lipuo tse sa tšoaneng. Re ne re e-na le mokhoa o fapaneng oa ho arola lintlha, 'me ke nahana hore e mong le e mong o ne a e-na le likokoana-hloko tsa hae.
  • Ha ho hlake hore na hobaneng ntlafatso ea maemo e sebelitse hampe ho feta ntlafatso ea likarolo.
  • Ke fumane boiphihlelo ba ho sebetsa ka litemana le kutloisiso ea hore na litsamaiso tsa li-compoter li etsoa joang.

SNA Hackathon 2019

Ke leboha bahlophisi bakeng sa maikutlo, tsebo le meputso e fumanoeng.

Source: www.habr.com

Eketsa ka tlhaloso