Large Hadron Collider සහ Odnoklassniki

Habré හි යන්ත්‍ර ඉගෙනීමේ තරඟ තේමාව දිගටම කරගෙන යමින්, අපි පාඨකයන්ට තවත් වේදිකා දෙකක් හඳුන්වා දීමට කැමැත්තෙමු. ඔවුන් නිසැකවම කග්ගල් තරම් විශාල නොවේ, නමුත් ඔවුන් අනිවාර්යයෙන්ම අවධානය යොමු කළ යුතුය.

Large Hadron Collider සහ Odnoklassniki

පුද්ගලිකව, මම හේතු කිහිපයක් නිසා kaggle වලට වැඩිය කැමති නැහැ:

  • පළමුව, එහි තරඟ බොහෝ විට මාස කිහිපයක් පවතින අතර ක්‍රියාකාරී සහභාගීත්වය සඳහා විශාල උත්සාහයක් අවශ්‍ය වේ;
  • දෙවනුව, පොදු කර්නල් (පොදු විසඳුම්). Kaggle අනුගාමිකයින් ඔවුන්ට ටිබෙට් භික්ෂූන් වහන්සේලාගේ සන්සුන් භාවයෙන් සැලකීමට උපදෙස් දෙයි, නමුත් යථාර්ථයේ දී ඔබ මාසයක් හෝ දෙකක් තිස්සේ වැඩ කරමින් සිටි දෙයක් හදිසියේම සෑම කෙනෙකුටම රිදී තැටියක තැබූ විට එය ලැජ්ජාවකි.

වාසනාවකට මෙන්, යන්ත්‍ර ඉගෙනීමේ තරඟ වෙනත් වේදිකාවල පවත්වනු ලබන අතර, මෙම තරඟ කිහිපයක් සාකච්ඡා කරනු ඇත.

IDAO SNA Hackathon 2019
නිල භාෂාව: ඉංග්රීසි,
සංවිධායකයින්: Yandex, Sberbank, HSE
නිල රුසියානු භාෂාව,
සංවිධායකයින්: Mail.ru සමූහය
මාර්ගගත වටය: ජනවාරි 15 ​​— 11 පෙබරවාරි 2019;
On-Site Final: 4 අප්‍රේල් 6-2019
මාර්ගගතව - පෙබරවාරි 7 සිට මාර්තු 15 දක්වා;
නොබැඳි - මාර්තු 30 සිට අප්රේල් 1 දක්වා.
Large Hadron Collider (පථය, ගම්‍යතාවය සහ වෙනත් තරමක් සංකීර්ණ භෞතික පරාමිතීන්) හි අංශුවක් පිළිබඳ නිශ්චිත දත්ත කට්ටලයක් භාවිතා කරමින්, එය Muon එකක්ද නැද්ද යන්න තීරණය කරන්න.
මෙම ප්‍රකාශයෙන්, කාර්යයන් 2 ක් හඳුනාගෙන ඇත:
- එකකින් ඔබට ඔබේ අනාවැකිය යැවීමට සිදු විය,
- සහ අනෙක් - පුරෝකථනය සඳහා සම්පූර්ණ කේතය සහ ආකෘතිය, සහ ක්‍රියාත්මක කිරීම ධාවන කාලය සහ මතක භාවිතය සම්බන්ධයෙන් තරමක් දැඩි සීමාවන්ට යටත් විය.
SNA Hackathon තරඟය සඳහා, 2018 පෙබරවාරි-මාර්තු සඳහා පරිශීලක පුවත් සංග්‍රහවල විවෘත කණ්ඩායම් වලින් අන්තර්ගත සංදර්ශක ලඝු-සටහන් එකතු කරන ලදී. පරීක්ෂණ කට්ටලයේ මාර්තු අවසාන සති එකහමාරක් අඩංගු වේ. ලොගයේ ඇති සෑම ප්‍රවේශයක්ම පෙන්වූයේ කුමක්ද සහ කාටද යන්න මෙන්ම පරිශීලකයා මෙම අන්තර්ගතයට ප්‍රතිචාර දැක්වූයේ කෙසේද යන්න පිළිබඳ තොරතුරු අඩංගු වේ: එය ශ්‍රේණිගත කිරීම, අදහස් දැක්වීම, නොසලකා හැරීම හෝ සංග්‍රහයෙන් සැඟවීම.
SNA Hackathon හි කර්තව්‍යයේ සාරය නම් Odnoklassniki සමාජ ජාලයේ සෑම පරිශීලකයෙකුම ඔහුගේ සංග්‍රහය ශ්‍රේණිගත කිරීම, “පන්තියක්” ලැබෙන තනතුරු හැකිතාක් ඉහළ නැංවීමයි.
සබැඳි අදියරේදී, කාර්යය කොටස් 3 කට බෙදා ඇත:
1. විවිධ සහයෝගීතා ලක්ෂණ අනුව තනතුරු ශ්‍රේණිගත කිරීම
2. ඒවායේ අඩංගු පින්තූර මත පදනම්ව පළ කිරීම් ශ්‍රේණිගත කරන්න
3. ඒවායේ අඩංගු පෙළ අනුව තනතුරු ශ්‍රේණිගත කරන්න
සංකීර්ණ අභිරුචි මෙට්‍රික්, ROC-AUC වැනි දෙයක් පරිශීලක විසින් සාමාන්‍ය ROC-AUC
පළමු අදියර සඳහා ත්‍යාග - N ස්ථාන සඳහා ටී-ෂර්ට්, දෙවන අදියර දක්වා ගමන් කිරීම, තරඟය අතරතුර නවාතැන් සහ ආහාර සඳහා ගෙවන ලදී.
දෙවන අදියර - ??? (යම් යම් හේතු නිසා මම සම්මාන උළෙලට නොපැමිණි අතර අවසානයේ ලැබුණු ත්‍යාග මොනවාදැයි සොයා ගැනීමට නොහැකි විය). ඔවුන් ජයග්‍රාහී කණ්ඩායමේ සියලුම සාමාජිකයින්ට ලැප්ටොප් පරිගණක ලබා දීමට පොරොන්දු විය
පළමු අදියර සඳහා ත්‍යාග - හොඳම සහභාගිවන්නන් 100 දෙනෙකු සඳහා ටී-ෂර්ට්, දෙවන අදියර වෙත ගමන් කිරීම, මොස්කව් වෙත ගමන් කිරීම, තරඟය අතරතුර නවාතැන් සහ ආහාර ගෙවන ලදී. එසේම, පළමු අදියරේ අවසානය වන විට, 3 අදියරේදී කාර්යයන් 1 ක හොඳම දේ සඳහා ත්‍යාග ප්‍රකාශයට පත් කරන ලදී: සියලු දෙනා RTX 2080 TI වීඩියෝ කාඩ්පතක් දිනා ගත්හ!
දෙවන අදියර කණ්ඩායම් වේදිකාවක් විය, කණ්ඩායම් 2 සිට 5 දක්වා පුද්ගලයින්ගෙන් සමන්විත විය, ත්‍යාග:
1 ස්ථානය - 300 rubles
2 ස්ථානය - 200 rubles
3 ස්ථානය - 100 rubles
ජූරි ත්යාගය - රූබල් 100
නිල විදුලි පණිවුඩ කණ්ඩායම, ~190 සහභාගිවන්නන්, ඉංග්‍රීසි භාෂාවෙන් සන්නිවේදනය, ප්‍රශ්නවලට පිළිතුරක් සඳහා දින කිහිපයක් බලා සිටීමට සිදු විය. විදුලි පණිවුඩයේ නිල කණ්ඩායම, ~ 1500 සහභාගිවන්නන්, සහභාගිවන්නන් සහ සංවිධායකයින් අතර කාර්යයන් පිළිබඳ ක්රියාකාරී සාකච්ඡාව
සංවිධායකයින් සරල සහ උසස් මූලික විසඳුම් දෙකක් ලබා දුන්නේය. සරල සඳහා 16 GB ට අඩු RAM ප්‍රමාණයක් අවශ්‍ය වන අතර උසස් මතකය 16 ට නොගැලපේ. ඒ අතරම, මඳක් ඉදිරියෙන් බැලූ විට, උසස් විසඳුම සැලකිය යුතු ලෙස ඉක්මවා යාමට සහභාගිවන්නන්ට නොහැකි විය. මෙම විසඳුම් දියත් කිරීමේදී කිසිදු දුෂ්කරතාවයක් නොතිබුණි. උසස් උදාහරණයේ විසඳුම වැඩිදියුණු කිරීම ආරම්භ කළ යුත්තේ කොතැනින්ද යන්න පිළිබඳ ඉඟියක් සමඟ අදහස් දැක්වීමක් ඇති බව සැලකිල්ලට ගත යුතුය. එක් එක් කාර්යය සඳහා මූලික ප්‍රාථමික විසඳුම් ලබා දී ඇති අතර ඒවා සහභාගිවන්නන් විසින් පහසුවෙන් අභිබවා යා හැකි විය. තරඟයේ මුල් දිනවල, සහභාගිවන්නන්ට දුෂ්කරතා කිහිපයකට මුහුණ දීමට සිදු විය: පළමුව, දත්ත Apache Parquet ආකෘතියෙන් ලබා දී ඇති අතර, Python සහ parquet පැකේජයේ සියලුම සංයෝජන දෝෂයකින් තොරව ක්‍රියා කළේ නැත. දෙවන දුෂ්කරතාවය වූයේ තැපැල් වලාකුළෙන් පින්තූර බාගත කිරීමයි; මේ මොහොතේ විශාල දත්ත ප්‍රමාණයක් එකවර බාගත කිරීමට පහසු ක්‍රමයක් නොමැත. එහි ප්‍රතිඵලයක් ලෙස, මෙම ගැටලු නිසා සහභාගිවන්නන් දින කිහිපයක් ප්‍රමාද විය.

IDAO. පළමු අදියර

කාර්යය වූයේ Muon/Muon නොවන අංශු ඒවායේ ලක්ෂණ අනුව වර්ගීකරණය කිරීමයි. මෙම කාර්යයේ ප්රධාන ලක්ෂණය වූයේ පුහුණු දත්තවල බර තීරුවක් තිබීමයි, සංවිධායකයින් විසින්ම මෙම රේඛාව සඳහා පිළිතුර පිළිබඳ විශ්වාසය ලෙස අර්ථකථනය කරන ලදී. ගැටලුව වූයේ පේළි කිහිපයක සෘණ බර තිබීමයි.

Large Hadron Collider සහ Odnoklassniki

ඉඟිය සහිත රේඛාව ගැන මිනිත්තු කිහිපයක් සිතා බැලීමෙන් පසු (ඉඟිය බර තීරුවේ මෙම අංගය වෙත අවධානය යොමු කළේය) සහ මෙම ප්‍රස්ථාරය ගොඩනඟා, අපි විකල්ප 3 ක් පරීක්ෂා කිරීමට තීරණය කළෙමු:

1) සෘණ බර සහිත රේඛාවල ඉලක්කය පෙරළන්න (සහ ඒ අනුව බර)
2) 0 සිට ආරම්භ වන පරිදි බර අවම අගයට මාරු කරන්න
3) නූල් බර භාවිතා නොකරන්න

තුන්වන විකල්පය නරකම බවට පත් විය, නමුත් පළමු දෙක ප්රතිඵලය වැඩිදියුණු විය, හොඳම විකල්පය අංක 1, එය වහාම පළමු කාර්යයේ වත්මන් දෙවන ස්ථානයට සහ දෙවන ස්ථානයේ පළමු ස්ථානයට ගෙන එයි.
Large Hadron Collider සහ Odnoklassniki
අපගේ ඊළඟ පියවර වූයේ නැතිවූ අගයන් සඳහා දත්ත සමාලෝචනය කිරීමයි. සංවිධායකයින් අපට දැනටමත් දත්ත ලබා දී ඇත, එහිදී අස්ථානගත වූ අගයන් කිහිපයක් තිබූ අතර ඒවා -9999 මගින් ප්‍රතිස්ථාපනය විය.

අපි MatchedHit_{X,Y,Z}[N] සහ MatchedHit_D{X,Y,Z}[N] තීරුවල නැතිවූ අගයන් සොයා ගත් අතර, N=2 හෝ 3 විට පමණි. අපට වැටහෙන පරිදි, සමහර අංශු එසේ නොවීය. සියලු අනාවරක 4 පසුකර, 3 වන හෝ 4 වන තහඩුව මත නතර කරන්න. දත්තවල Lextra_{X,Y}[N] තීරු ද අඩංගු වූ අතර, එය පැහැදිලිවම MatchedHit_{X,Y,Z}[N] ලෙස එකම දේ විස්තර කරන නමුත්, යම් ආකාරයක අතිරේකයක් භාවිතා කරයි. මෙම සොච්චම් අනුමාන යෝජනා කළේ Lextra_{X,Y}[N] MatchedHit_{X,Y,Z}[N] හි නැතිවූ අගයන් සඳහා ආදේශ කළ හැකි බවයි (X සහ Y ඛණ්ඩාංක සඳහා පමණි). MatchedHit_Z[N] මධ්‍යස්ථයෙන් හොඳින් පිරී තිබුණි. මෙම උපාමාරු මගින් කාර්යයන් දෙකෙහිම 1 වන අතරමැදි ස්ථානයට පැමිණීමට අපට හැකි විය.

Large Hadron Collider සහ Odnoklassniki

පළමු අදියරේ ජයග්‍රහණය සඳහා ඔවුන් කිසිවක් ලබා නොදුන් බව සලකමින්, අපට එතැනින් නතර විය හැකි නමුත්, අපි දිගටම, ලස්සන පින්තූර කිහිපයක් ඇඳගෙන නව විශේෂාංග සමඟ පැමිණියෙමු.

Large Hadron Collider සහ Odnoklassniki

උදාහරණයක් ලෙස, අපි අංශුවක ඡේදනය වීමේ ලක්ෂ්‍ය එක් එක් අනාවරක තහඩු හතරෙන් සැලසුම් කළහොත්, එක් එක් තහඩුවෙහි ඇති ලක්ෂ්‍ය 5 සිට 4 දක්වා දර්ශන අනුපාතයක් සහිත සෘජුකෝණාස්‍ර 5 කට කාණ්ඩ කර ඇති බව අපට දැකගත හැකිය. ලක්ෂ්යය (0,0), සහ පළමු සෘජුකෝණාස්රයේ ලකුණු නොමැත.

තහඩු අංකය / සෘජුකෝණාස්රාකාර මානයන් 1 2 3 4 5
තහඩුව 1 ඩී ඩී ඩී ඩී ඩී
තහඩුව 2 ඩී ඩී ඩී ඩී ඩී
තහඩුව 3 ඩී ඩී ඩී ඩී ඩී
තහඩුව 4 ඩී ඩී ඩී ඩී ඩී

මෙම මානයන් තීරණය කිරීමෙන් පසු, අපි එක් එක් අංශුව සඳහා නව වර්ගීකරණ ලක්ෂණ 4 ක් එකතු කළෙමු - එය එක් එක් තහඩුව ඡේදනය වන සෘජුකෝණාස්රයේ අංකය.

Large Hadron Collider සහ Odnoklassniki

අංශු මධ්‍යයේ සිට දෙපැත්තට විසිරී යන බව අපට පෙනී ගිය අතර මෙම විසිරීමේ “ගුණාත්මකභාවය” කෙසේ හෝ තක්සේරු කිරීමේ අදහස මතු විය. ඉතා මැනවින්, ගුවන්ගත වීමේ ලක්ෂ්‍යය මත පදනම්ව යම් ආකාරයක “පරමාදර්ශී” පරාවලයක් ඉදිරිපත් කිරීමට සහ එයින් අපගමනය තක්සේරු කිරීමට හැකි වනු ඇත, නමුත් අපි “පරමාදර්ශී” සරල රේඛාවට සීමා විය. එක් එක් ඇතුල් වීමේ ලක්ෂ්‍ය සඳහා එවැනි පරමාදර්ශී සරල රේඛා තැනීමෙන්, මෙම සරල රේඛාවෙන් එක් එක් අංශුවේ ගමන් පථයේ සම්මත අපගමනය ගණනය කිරීමට අපට හැකි විය. ඉලක්කය = 1 සඳහා සාමාන්‍ය අපගමනය 152 වූ අතර ඉලක්කය = 0 සඳහා එය 390 වූ බැවින්, අපි මෙම විශේෂාංගය හොඳ යැයි තාවකාලිකව තක්සේරු කළෙමු. ඇත්ත වශයෙන්ම, මෙම අංගය වහාම එය වඩාත් ප්‍රයෝජනවත් ඒවා අතර ඉහළට ගෙන ගියේය.

අපි සතුටට පත් වූ අතර, එක් එක් අංශුව සඳහා ඡේදනය වීමේ ලක්ෂ්‍ය 4ම පරමාදර්ශී සරල රේඛාවෙන් අමතර විශේෂාංග 4ක් ලෙස එකතු කළෙමු (ඒවා ද හොඳින් ක්‍රියාත්මක විය).

තරඟයේ මාතෘකාව පිළිබඳ විද්‍යාත්මක ලිපි වලට සබැඳි, සංවිධායකයින් විසින් අපට ලබා දී ඇති අතර, මෙම ගැටළුව විසඳීමට අප පළමුවැන්නාට වඩා දුරින් සිටින අතර, සමහර විට, විශේෂිත මෘදුකාංගයක් තිබේ යන අදහස ඇති කළේය. IsMuonSimple, IsMuon, IsMuonLoose යන ක්‍රම ක්‍රියාත්මක කරන ලද github හි ගබඩාවක් සොයා ගැනීමෙන් පසු, අපි ඒවා සුළු වෙනස් කිරීම් සමඟ අපගේ වෙබ් අඩවියට මාරු කළෙමු. ක්‍රම ඉතා සරල විය: නිදසුනක් ලෙස, ශක්තිය නිශ්චිත සීමාවකට වඩා අඩු නම්, එය මුඕනයක් නොවේ, එසේ නොමැතිනම් එය මියුඕනයකි. එවැනි සරල විශේෂාංග පැහැදිලිවම ශ්‍රේණිය වැඩි කිරීම භාවිතා කිරීමේදී වැඩි වීමක් ලබා දිය නොහැකි බැවින් අපි එළිපත්තට තවත් සැලකිය යුතු “දුරක්” එක් කළෙමු. මෙම විශේෂාංග ද තරමක් වැඩි දියුණු කර ඇත. සමහර විට, පවතින ක්රම වඩාත් හොඳින් විශ්ලේෂණය කිරීමෙන්, ශක්තිමත් ක්රම සොයා ගැනීමට සහ සංඥා වලට එකතු කිරීමට හැකි විය.

තරඟය අවසානයේ, අපි දෙවන ගැටළුව සඳහා "ඉක්මන්" විසඳුම තරමක් වෙනස් කළෙමු; අවසානයේ, එය පහත සඳහන් කරුණු වල මූලික මට්ටමට වඩා වෙනස් විය:

  1. සෘණ බර සහිත පේළිවල ඉලක්කය ප්‍රතිලෝම විය
  2. MatchedHit_{X,Y,Z}[N] හි නැතිවූ අගයන් පුරවා ඇත
  3. ගැඹුර 7 දක්වා අඩු කර ඇත
  4. ඉගෙනීමේ අනුපාතය 0.1 දක්වා අඩු කරන ලදී (0.19 විය)

එහි ප්‍රතිඵලයක් වශයෙන්, අපි තවත් විශේෂාංග (ඉතා සාර්ථක නොවේ), තෝරාගත් පරාමිති සහ පුහුණු කළ catboost, lightgbm සහ xgboost, විවිධ අනාවැකි මිශ්‍ර කිරීම උත්සාහ කළ අතර පුද්ගලිකය විවෘත කිරීමට පෙර අපි දෙවන කාර්යය විශ්වාසයෙන් ජයග්‍රහණය කළ අතර පළමුවැන්නා අතරට ගියෙමු. නායකයන්.

Private එක open කරලා අපි 10st task එකට 1th තැනයි, second එකට 3rd එකයි. සියලුම නායකයින් පටලවා ගත් අතර පුද්ගලික වේගය ලිබ්බෝඩ් එකට වඩා වැඩි විය. දත්ත දුර්වල ලෙස ස්ථරීකරණය වී ඇති බව පෙනේ (හෝ උදාහරණයක් ලෙස පුද්ගලිකයේ සෘණ බර සහිත පේළි නොතිබුණි) සහ මෙය ටිකක් කලකිරීමට පත් විය.

SNA Hackathon 2019 - පෙළ. පළමු අදියර

කර්තව්‍යය වූයේ ඔඩ්නොක්ලාස්නිකි සමාජ ජාලයේ පරිශීලක සටහන් ඒවායේ අඩංගු පෙළ මත පදනම්ව ශ්‍රේණිගත කිරීමයි; පෙළට අමතරව, පෝස්ටයේ තවත් ලක්ෂණ කිහිපයක් (භාෂාව, හිමිකරු, නිර්මාණය කළ දිනය සහ වේලාව, නැරඹූ දිනය සහ වේලාව )

පෙළ සමඟ වැඩ කිරීම සඳහා සම්භාව්ය ප්රවේශයන් ලෙස, මම විකල්ප දෙකක් ඉස්මතු කරමි:

  1. සමාන වචනවලට සමාන දෛශික ඇති පරිදි සෑම වචනයක්ම n-මාන දෛශික අවකාශයකට සිතියම්ගත කිරීම (තවත් කියවන්න අපේ ලිපිය), ඉන්පසු එක්කෝ පෙළ සඳහා සාමාන්‍ය වචනය සොයා ගැනීම හෝ වචනවල සාපේක්ෂ පිහිටීම සැලකිල්ලට ගන්නා යාන්ත්‍රණ භාවිතා කිරීම (CNN, LSTM/GRU).
  2. සම්පූර්ණ වාක්යයන් සමඟ වහාම වැඩ කළ හැකි ආකෘති භාවිතා කිරීම. උදාහරණයක් ලෙස, බර්ට්. න්යායාත්මකව, මෙම ප්රවේශය වඩා හොඳින් ක්රියා කළ යුතුය.

මෙය මගේ පළමු පෙළ අත්දැකීම වූ බැවින්, යමෙකුට ඉගැන්වීම වැරදියි, එබැවින් මමම උගන්වමි. තරඟය ආරම්භයේදී මම මට ලබා දෙන උපදෙස් මෙන්න:

  1. ඔබ යමක් ඉගැන්වීමට ධාවනය කිරීමට පෙර, දත්ත බලන්න! පෙළට අමතරව, දත්තවල තීරු කිහිපයක් තිබූ අතර ඒවායින් මට වඩා බොහෝ දේ මිරිකා ගැනීමට හැකි විය. සරලම දෙය නම් සමහර තීරු සඳහා ඉලක්ක කේතනය කිරීමයි.
  2. සියලුම දත්ත වලින් ඉගෙන ගන්න එපා! බොහෝ දත්ත (පේළි මිලියන 17 ක් පමණ) තිබූ අතර උපකල්පන පරීක්ෂා කිරීම සඳහා ඒවා සියල්ලම භාවිතා කිරීම අවශ්ය නොවේ. පුහුණුව සහ පෙර සැකසුම් තරමක් මන්දගාමී වූ අතර, වඩාත් රසවත් උපකල්පන පරීක්ෂා කිරීමට මට පැහැදිලිවම කාලය තිබුණි.
  3. <මතභේදාත්මක උපදෙස්> මිනීමරු මොඩලයක් හොයන්න ඕන නෑ. මම එල්මෝ සහ බර්ට් හඳුනා ගැනීමට බොහෝ කාලයක් ගත කළෙමි, ඔවුන් වහාම මාව ඉහළ ස්ථානයකට ගෙන යනු ඇතැයි බලාපොරොත්තු වූ අතර, එහි ප්‍රතිඵලයක් ලෙස මම රුසියානු භාෂාව සඳහා FastText පෙර පුහුණු වූ කාවැද්දීම් භාවිතා කළෙමි. මට එල්මෝ සමඟ වඩා හොඳ වේගයක් ලබා ගැනීමට නොහැකි වූ අතර, බර්ට් සමඟ එය තේරුම් ගැනීමට මට තවමත් වෙලාවක් නොතිබුණි.
  4. <මතභේදාත්මක උපදෙස්> එක මිනීමරු විශේෂාංගයක් සෙවීමට අවශ්‍ය නැත. දත්ත දෙස බලන විට, පෙළවලින් සියයට 1 ක් පමණ ඇත්ත වශයෙන්ම පෙළ අඩංගු නොවන බව මම දුටුවෙමි! නමුත් සමහර සම්පත් වලට සබැඳි තිබූ අතර, මම වෙබ් අඩවිය විවෘත කර මාතෘකාව සහ විස්තරය ඉවත් කරන ලද සරල විග්‍රහයක් ලිවීය. එය හොඳ අදහසක් ලෙස පෙනුනද, පසුව මම ඉවතට ගොස් සියලුම පෙළ සඳහා සියලු සබැඳි විග්‍රහ කිරීමට තීරණය කළ අතර නැවතත් බොහෝ කාලයක් අහිමි විය. මේ සියල්ල අවසාන ප්‍රතිඵලයේ සැලකිය යුතු දියුණුවක් ලබා දුන්නේ නැත (උදාහරණයක් ලෙස, මම ප්‍රබෝධමත් බව තේරුම් ගත්තද).
  5. ක්ලැසික් විශේෂාංග වැඩ. අපි Google, උදාහරණයක් ලෙස, "පෙළ විශේෂාංග kaggle", සියල්ල කියවා එකතු කරන්න. TF-IDF විසින් පෙළ දිග, වචන සහ විරාම ලකුණු ප්‍රමාණය වැනි සංඛ්‍යානමය විශේෂාංග මෙන්ම වැඩිදියුණු කිරීමක් ලබා දුන්නේය.
  6. DateTime තීරු තිබේ නම්, ඒවා වෙනම විශේෂාංග කිහිපයකට විග්‍රහ කිරීම වටී (පැය, සතියේ දින, ආදිය). උද්දීපනය කළ යුතු ලක්ෂණ ප්‍රස්ථාර/සමහර ප්‍රමිතික භාවිතයෙන් විශ්ලේෂණය කළ යුතුය. මෙන්න, කැමැත්තක් මත, මම සෑම දෙයක්ම නිවැරදිව කළ අතර අවශ්‍ය අංග ඉස්මතු කළ නමුත් සාමාන්‍ය විශ්ලේෂණයක් හානියක් නොවනු ඇත (නිදසුනක් ලෙස, අපි අවසන් තරඟයේදී කළාක් මෙන්).

Large Hadron Collider සහ Odnoklassniki

තරඟයේ ප්‍රතිඵලයක් ලෙස, මම එක් keras ආකෘතියක් වචන ව්‍යාප්තිය සමඟත්, තවත් එකක් LSTM සහ GRU මතත් පුහුණු කළෙමි. ඔවුන් දෙදෙනාම රුසියානු භාෂාව සඳහා පෙර පුහුණු වූ FastText කාවැද්දීම් භාවිතා කළහ (මම වෙනත් කාවැද්දීම් ගණනාවක් උත්සාහ කළ නමුත් මේවා වඩාත් හොඳින් ක්‍රියාත්මක වූ ඒවා විය). අනාවැකි සාමාන්‍යකරණය කිරීමෙන් පසු, මම සහභාගී වූවන් 7 දෙනෙකුගෙන් අවසාන 76 වන ස්ථානය ලබා ගත්තෙමි.

පළමු අදියරෙන් පසුව එය ප්රකාශයට පත් විය නිකොලායි අනොකින්ගේ ලිපිය, දෙවන ස්ථානයට පත් වූ (ඔහු තරඟයෙන් පිටතට සහභාගී විය), සහ ඔහුගේ විසඳුම යම් වේදිකාවක් දක්වා නැවත නැවතත් මගේ, නමුත් විමසුම්-යතුරු-අගය අවධානය යොමු කිරීමේ යාන්ත්රණය හේතුවෙන් ඔහු තවදුරටත් ඉදිරියට ගියේය.

දෙවන අදියර හරි සහ IDAO

තරඟවල දෙවන අදියර අඛණ්ඩව පාහේ සිදු වූ බැවින් මම ඒවා එකට බැලීමට තීරණය කළෙමි.

පළමුව, මම සහ අලුතින් අත්පත් කරගත් කණ්ඩායම Mail.ru සමාගමේ ආකර්ෂණීය කාර්යාලයේ අවසන් වූ අතර, අපගේ කාර්යය වූයේ පළමු අදියරේ සිට ධාවන පථ තුනක ආකෘති - පෙළ, පින්තූර සහ සහයෝගීතාවය ඒකාබද්ධ කිරීමයි. මේ සඳහා දින 2 කට වඩා ටිකක් වැඩි කාලයක් ලබා දී ඇති අතර එය ඉතා සුළු විය. ඇත්ත වශයෙන්ම, අපට ඒකාබද්ධයෙන් කිසිදු ප්‍රතිලාභයක් ලබා නොගෙන පළමු අදියරේ සිට අපගේ ප්‍රතිඵල නැවත කිරීමට පමණක් හැකි විය. අවසානයේදී, අපි 5 වන ස්ථානය ලබා ගත්තෙමු, නමුත් අපට පෙළ ආකෘතිය භාවිතා කිරීමට නොහැකි විය. අනෙකුත් සහභාගිවන්නන්ගේ විසඳුම් දෙස බැලීමෙන් පසුව, පෙළ පොකුරු කිරීමට උත්සාහ කිරීම සහ ඒවා කොලබ් ආකෘතියට එකතු කිරීම වටී. මෙම අදියරේ අතුරු ආබාධයක් වූයේ නව හැඟීම්, සිසිල් සහභාගිවන්නන් සහ සංවිධායකයින් හමුවීම සහ සන්නිවේදනය කිරීම මෙන්ම IDAO හි අවසාන අදියරේ ප්‍රතිඵලයට බලපෑ හැකි දැඩි නින්දක් නොමැතිකමයි.

IDAO 2019 අවසාන අදියරේ කාර්යය වූයේ ගුවන් තොටුපලේ Yandex කුලී රථ රියදුරන් සඳහා ඇණවුමක් සඳහා පොරොත්තු කාලය පුරෝකථනය කිරීමයි. 2 වන අදියරේදී කාර්යයන් 3 ක් = ගුවන් තොටුපල 3 ක් හඳුනා ගන්නා ලදී. සෑම ගුවන් තොටුපලක් සඳහාම, මාස හයක් සඳහා කුලී රථ ඇණවුම් ගණන පිළිබඳ විනාඩියෙන් විනාඩි දත්ත ලබා දෙනු ලැබේ. තවද පරීක්ෂණ දත්ත ලෙස, පසුගිය සති 2 සඳහා ඇණවුම් පිළිබඳ ඊළඟ මාසයේ සහ මිනිත්තුවෙන් මිනිත්තු දත්ත ලබා දෙන ලදී. සුළු කාලයක් තිබුණි (දින 1,5), කාර්යය තරමක් නිශ්චිත විය, කණ්ඩායමෙන් එක් අයෙකු පමණක් තරඟයට පැමිණියේය - එහි ප්‍රති result ලයක් ලෙස එය අවසානය දක්වා දුක්බර ස්ථානයක් විය. සිත්ගන්නා අදහස් බාහිර දත්ත භාවිතා කිරීමට උත්සාහයන් ඇතුළත් විය: කාලගුණය, මාර්ග තදබදය සහ Yandex කුලී රථ ඇණවුම් සංඛ්යා ලේඛන. මෙම ගුවන් තොටුපළවල් මොනවාදැයි සංවිධායකයින් ප්‍රකාශ නොකළද, බොහෝ සහභාගිවන්නන් උපකල්පනය කළේ ඒවා Sheremetyevo, Domodedovo සහ Vnukovo බවයි. තරඟයෙන් පසු මෙම උපකල්පනය ප්‍රතික්ෂේප කළද, විශේෂාංග, උදාහරණයක් ලෙස, මොස්කව් කාලගුණ දත්ත වල වලංගුකරණය සහ ප්‍රමුඛ පුවරුව යන දෙකෙහිම ප්‍රතිඵල වැඩිදියුණු විය.

නිගමනය

  1. ML තරඟ සිසිල් සහ රසවත්! මෙහිදී ඔබට දත්ත විශ්ලේෂණයේ සහ කපටි මාදිලියේ සහ ශිල්පීය ක්‍රමවල කුසලතා භාවිතය සොයා ගත හැකි අතර සාමාන්‍ය බුද්ධිය සාදරයෙන් පිළිගනී.
  2. ML යනු දැනටමත් ඝාතීය ලෙස වර්ධනය වන බව පෙනෙන දැවැන්ත දැනුමකි. මම විවිධ ක්ෂේත්‍ර (සංඥා, පින්තූර, වගු, පෙළ) සමඟ දැන හඳුනා ගැනීමට ඉලක්කයක් තබා ගත් අතර අධ්‍යයනය කිරීමට කොපමණ ප්‍රමාණයක් තිබේදැයි දැනටමත් අවබෝධ කරගෙන සිටිමි. උදාහරණයක් ලෙස, මෙම තරඟ වලින් පසුව මම අධ්‍යයනය කිරීමට තීරණය කළෙමි: පොකුරු ඇල්ගොරිතම, ශ්‍රේණිය වැඩි කිරීමේ පුස්තකාල සමඟ වැඩ කිරීමේ උසස් තාක්ෂණික ක්‍රම (විශේෂයෙන්, GPU මත CatBoost සමඟ වැඩ කිරීම), කැප්සියුල ජාල, විමසුම්-ප්‍රධාන අගය අවධානය යොමු කිරීමේ යාන්ත්‍රණය.
  3. තනියම කගල් එකෙන් නෙවෙයි! අඩුම තරමේ ටී ෂර්ට් එකක්වත් ගන්න ලේසි වෙන තරඟ ගොඩක් තියෙනවා, අනික් ත්‍යාග වලට වැඩි අවස්ථා තියෙනවා.
  4. සන්නිවේදනය කරන්න! යන්ත්‍ර ඉගෙනීමේ සහ දත්ත විශ්ලේෂණ ක්ෂේත්‍රයේ දැනටමත් විශාල ප්‍රජාවක් ඇත, Mail.ru, Yandex සහ වෙනත් සමාගම්වල විදුලි පණිවුඩ, මන්දගාමී සහ බැරෑරුම් පුද්ගලයින් තුළ තේමාත්මක කණ්ඩායම් ඇත, ප්‍රශ්නවලට පිළිතුරු සපයන අතර ආරම්භකයින්ට සහ මෙම ක්ෂේත්‍රයේ ඔවුන්ගේ මාවත දිගටම කරගෙන යන අයට උදව් කරයි. දැනුමෙන්.
  5. පෙර කරුණෙන් ආභාෂය ලැබූ සෑම කෙනෙකුටම සංචාරය කිරීමට මම උපදෙස් දෙමි datafest - මැයි 10-11 දිනවල පැවැත්වෙන මොස්කව්හි ප්රධාන නිදහස් සම්මන්ත්රණයක්.

මූලාශ්රය: www.habr.com

අදහස් එක් කරන්න