பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

Habré இல் இயந்திர கற்றல் போட்டிகளின் கருப்பொருளைத் தொடர்ந்து, வாசகர்களுக்கு மேலும் இரண்டு தளங்களுக்கு அறிமுகப்படுத்த விரும்புகிறோம். அவை நிச்சயமாக கக்கிலைப் போல பெரியவை அல்ல, ஆனால் அவை நிச்சயமாக கவனத்திற்கு தகுதியானவை.

பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

தனிப்பட்ட முறையில், பல காரணங்களுக்காக நான் கக்கிளை அதிகம் விரும்புவதில்லை:

  • முதலாவதாக, அங்கு போட்டிகள் பெரும்பாலும் பல மாதங்கள் நீடிக்கும், மேலும் செயலில் பங்கேற்பதற்கு நிறைய முயற்சி தேவைப்படுகிறது;
  • இரண்டாவதாக, பொது கர்னல்கள் (பொது தீர்வுகள்). திபெத்திய துறவிகளின் நிதானத்துடன் அவர்களை நடத்துமாறு Kaggle ஆதரவாளர்கள் அறிவுறுத்துகிறார்கள், ஆனால் உண்மையில் நீங்கள் ஒரு மாத அல்லது இரண்டு மாதங்களாக உழைத்த ஒன்று திடீரென்று அனைவருக்கும் ஒரு வெள்ளித் தட்டில் வைக்கப்படுவது மிகவும் அவமானகரமானது.

அதிர்ஷ்டவசமாக, இயந்திர கற்றல் போட்டிகள் மற்ற தளங்களில் நடத்தப்படுகின்றன, மேலும் இந்த இரண்டு போட்டிகள் விவாதிக்கப்படும்.

ஐடிஏஓ SNA ஹேக்கத்தான் 2019
அதிகாரப்பூர்வ மொழி: ஆங்கிலம்,
அமைப்பாளர்கள்: Yandex, Sberbank, HSE
அதிகாரப்பூர்வ ரஷ்ய மொழி,
அமைப்பாளர்கள்: Mail.ru குழு
ஆன்லைன் சுற்று: ஜனவரி 15 — பிப்ரவரி 11, 2019;
ஆன்-சைட் பைனல்: ஏப். 4-6, 2019
ஆன்லைன் - பிப்ரவரி 7 முதல் மார்ச் 15 வரை;
ஆஃப்லைனில் - மார்ச் 30 முதல் ஏப்ரல் 1 வரை.
லார்ஜ் ஹாட்ரான் மோதலில் (பாதை, வேகம் மற்றும் பிற சிக்கலான இயற்பியல் அளவுருக்கள்) ஒரு துகள் பற்றிய ஒரு குறிப்பிட்ட தொகுப்பைப் பயன்படுத்தி, அது ஒரு மியூவானா இல்லையா என்பதைத் தீர்மானிக்கவும்.
இந்த அறிக்கையிலிருந்து, 2 பணிகள் அடையாளம் காணப்பட்டன:
- ஒன்றில் நீங்கள் உங்கள் கணிப்பை அனுப்ப வேண்டும்,
- மற்றும் மற்றொன்றில் - கணிப்புக்கான முழுமையான குறியீடு மற்றும் மாதிரி, மற்றும் செயல்படுத்தல் இயங்கும் நேரம் மற்றும் நினைவக பயன்பாட்டில் மிகவும் கடுமையான கட்டுப்பாடுகளுக்கு உட்பட்டது.
SNA ஹேக்கத்தான் போட்டிக்காக, பிப்ரவரி-மார்ச் 2018க்கான பயனர் செய்தி ஊட்டங்களில் திறந்த குழுக்களில் இருந்து உள்ளடக்க காட்சிகளின் பதிவுகள் சேகரிக்கப்பட்டன. சோதனைத் தொகுப்பில் மார்ச் கடைசி ஒன்றரை வாரங்கள் உள்ளன. பதிவில் உள்ள ஒவ்வொரு உள்ளீட்டிலும் என்ன காட்டப்பட்டது, யாருக்கு, பயனர் இந்த உள்ளடக்கத்திற்கு எவ்வாறு பதிலளித்தார்: மதிப்பிட்டார், கருத்துத் தெரிவித்தார், புறக்கணித்தார் அல்லது ஊட்டத்தில் இருந்து மறைத்தார்.
SNA Hackathon இன் பணிகளின் சாராம்சம், சமூக வலைப்பின்னல் Odnoklassniki இன் ஒவ்வொரு பயனருக்கும் அவரது ஊட்டத்தை தரவரிசைப்படுத்துவது, "வகுப்பு" பெறும் அந்த இடுகைகளை முடிந்தவரை உயர்த்துவது.
ஆன்லைன் கட்டத்தில், பணி 3 பகுதிகளாக பிரிக்கப்பட்டது:
1. பல்வேறு கூட்டுப் பண்புகளின்படி பதவிகளை வரிசைப்படுத்துங்கள்
2. அவை கொண்டிருக்கும் படங்களின் அடிப்படையில் இடுகைகளை வரிசைப்படுத்தவும்
3. இடுகைகளை அவற்றில் உள்ள உரையின்படி தரவரிசைப்படுத்தவும்
சிக்கலான தனிப்பயன் மெட்ரிக், ROC-AUC போன்றவை பயனரின் சராசரி ROC-AUC
முதல் கட்டத்திற்கான பரிசுகள் - N இடங்களுக்கான டி-ஷர்ட்கள், போட்டியின் போது தங்குமிடம் மற்றும் உணவு வழங்கப்பட்ட இரண்டாம் கட்டத்திற்கு செல்லும்.
இரண்டாம் கட்டம் - ??? (சில காரணங்களால், நான் விருது வழங்கும் விழாவில் கலந்து கொள்ளவில்லை, இறுதியில் பரிசுகள் என்னவென்று கண்டுபிடிக்க முடியவில்லை). வெற்றி பெற்ற அணியில் உள்ள அனைத்து உறுப்பினர்களுக்கும் மடிக்கணினிகள் வழங்கப்படும் என உறுதியளித்தனர்
முதல் கட்டத்திற்கான பரிசுகள் - 100 சிறந்த பங்கேற்பாளர்களுக்கான டி-ஷர்ட்கள், இரண்டாம் கட்டத்திற்கான பத்தியில், மாஸ்கோவிற்கு பயணம், போட்டியின் போது தங்குமிடம் மற்றும் உணவு வழங்கப்பட்டது. மேலும், முதல் கட்டத்தின் முடிவில், நிலை 3 இல் 1 பணிகளில் சிறந்தவர்களுக்கு பரிசுகள் அறிவிக்கப்பட்டன: அனைவரும் RTX 2080 TI வீடியோ அட்டையை வென்றனர்!
இரண்டாவது கட்டம் ஒரு குழு நிலை, அணிகள் 2 முதல் 5 பேர், பரிசுகள்:
1 வது இடம் - 300 ரூபிள்
2 வது இடம் - 200 ரூபிள்
3 வது இடம் - 100 ரூபிள்
நடுவர் பரிசு - 100 ரூபிள்
அதிகாரப்பூர்வ தந்தி குழு, ~ 190 பங்கேற்பாளர்கள், ஆங்கிலத்தில் தொடர்பு, கேள்விகள் பதிலுக்காக பல நாட்கள் காத்திருக்க வேண்டியிருந்தது தந்தியில் உத்தியோகபூர்வ குழு, ~1500 பங்கேற்பாளர்கள், பங்கேற்பாளர்கள் மற்றும் அமைப்பாளர்களிடையே பணிகளின் செயலில் கலந்துரையாடல்
அமைப்பாளர்கள் எளிய மற்றும் மேம்பட்ட இரண்டு அடிப்படை தீர்வுகளை வழங்கினர். எளிமையானது 16 GB க்கும் குறைவான ரேம் தேவைப்படுகிறது, மேலும் மேம்பட்ட நினைவகம் 16 க்கு பொருந்தாது. அதே நேரத்தில், சற்று முன்னோக்கிப் பார்த்தால், பங்கேற்பாளர்களால் மேம்பட்ட தீர்வை கணிசமாக விஞ்ச முடியவில்லை. இந்த தீர்வுகளைத் தொடங்குவதில் எந்த சிரமமும் இல்லை. மேம்பட்ட எடுத்துக்காட்டில் தீர்வை மேம்படுத்த எங்கு தொடங்குவது என்பது பற்றிய குறிப்புடன் ஒரு கருத்து இருந்தது என்பதை கவனத்தில் கொள்ள வேண்டும். ஒவ்வொரு பணிகளுக்கும் அடிப்படை பழமையான தீர்வுகள் வழங்கப்பட்டன, அவை பங்கேற்பாளர்களால் எளிதில் முறியடிக்கப்பட்டன. போட்டியின் ஆரம்ப நாட்களில், பங்கேற்பாளர்கள் பல சிரமங்களை எதிர்கொண்டனர்: முதலாவதாக, தரவு அப்பாச்சி பார்க்வெட் வடிவத்தில் வழங்கப்பட்டது, மேலும் பைதான் மற்றும் பார்க்வெட் தொகுப்பின் அனைத்து சேர்க்கைகளும் பிழைகள் இல்லாமல் வேலை செய்யவில்லை. இரண்டாவது சிரமம் அஞ்சல் மேகத்திலிருந்து படங்களைப் பதிவிறக்குவது; இந்த நேரத்தில் ஒரே நேரத்தில் அதிக அளவிலான தரவைப் பதிவிறக்க எளிதான வழி இல்லை. இதன் விளைவாக, இந்த சிக்கல்கள் பங்கேற்பாளர்களை இரண்டு நாட்களுக்கு தாமதப்படுத்தியது.

IDAO. முதல் கட்டம்

மியூன்/மியூன் அல்லாத துகள்களை அவற்றின் குணாதிசயங்களின்படி வகைப்படுத்துவதே பணி. இந்த பணியின் முக்கிய அம்சம் பயிற்சி தரவுகளில் எடை நெடுவரிசையின் முன்னிலையில் இருந்தது, இது அமைப்பாளர்கள் இந்த வரிக்கான பதிலில் நம்பிக்கை என்று விளக்கினர். பிரச்சனை என்னவென்றால், சில வரிசைகளில் எதிர்மறை எடைகள் இருந்தன.

பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

குறிப்புடன் கூடிய வரியைப் பற்றி சில நிமிடங்கள் யோசித்த பிறகு (குறிப்பு வெறுமனே எடை நெடுவரிசையின் இந்த அம்சத்திற்கு கவனத்தை ஈர்த்தது) மற்றும் இந்த வரைபடத்தை உருவாக்கிய பிறகு, 3 விருப்பங்களைச் சரிபார்க்க முடிவு செய்தோம்:

1) எதிர்மறை எடைகள் கொண்ட கோடுகளின் இலக்கைத் தலைகீழாக மாற்றவும் (மற்றும் அதற்கேற்ப எடைகள்)
2) எடைகளை குறைந்தபட்ச மதிப்புக்கு மாற்றவும், இதனால் அவை 0 இலிருந்து தொடங்கும்
3) சரம் எடைகளைப் பயன்படுத்த வேண்டாம்

மூன்றாவது விருப்பம் மோசமானதாக மாறியது, ஆனால் முதல் இரண்டு முடிவை மேம்படுத்தியது, சிறந்தது விருப்பம் எண் 1, இது உடனடியாக முதல் பணியில் தற்போதைய இரண்டாவது இடத்திற்கும், இரண்டாவது இரண்டாவது இடத்திற்கும் கொண்டு வந்தது.
பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி
எங்களின் அடுத்த படி, விடுபட்ட மதிப்புகளுக்கான தரவை மதிப்பாய்வு செய்வதாகும். அமைப்பாளர்கள் எங்களிடம் ஏற்கனவே இணைக்கப்பட்ட தரவை வழங்கினர், அங்கு சில காணாமல் போன மதிப்புகள் இருந்தன, மேலும் அவை -9999 ஆல் மாற்றப்பட்டன.

MatchedHit_{X,Y,Z}[N] மற்றும் MatchedHit_D{X,Y,Z}[N] நெடுவரிசைகளில், N=2 அல்லது 3 இல் மட்டுமே மதிப்புகள் விடுபட்டுள்ளன. நாங்கள் புரிந்துகொண்டபடி, சில துகள்கள் இல்லை அனைத்து 4 டிடெக்டர்களையும் கடந்து, 3வது அல்லது 4வது தட்டில் நிறுத்தப்பட்டது. தரவு லெக்ஸ்ட்ரா_{X,Y}[N] நெடுவரிசைகளையும் கொண்டுள்ளது, இது MatchedHit_{X,Y,Z}[N] போன்றவற்றையே விவரிக்கிறது, ஆனால் சில வகையான எக்ஸ்ட்ராபோலேஷனைப் பயன்படுத்துகிறது. இந்த அற்ப யூகங்கள், MatchedHit_{X,Y,Z}[N] இல் விடுபட்ட மதிப்புகளுக்கு Lextra_{X,Y}[N] மாற்றியமைக்கப்படலாம் (X மற்றும் Y ஆயத்தொகுப்புகளுக்கு மட்டும்). MatchedHit_Z[N] மீடியனால் நன்றாக நிரப்பப்பட்டது. இந்த கையாளுதல்கள் இரண்டு பணிகளிலும் 1 வது இடைநிலை இடத்தை அடைய அனுமதித்தன.

பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

முதல் கட்டத்தை வென்றதற்கு அவர்கள் எதுவும் கொடுக்கவில்லை என்று கருதி, நாங்கள் அங்கேயே நிறுத்தியிருக்கலாம், ஆனால் நாங்கள் தொடர்ந்து, சில அழகான படங்களை வரைந்து புதிய அம்சங்களைக் கொண்டு வந்தோம்.

பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

எடுத்துக்காட்டாக, நான்கு டிடெக்டர் தகடுகள் ஒவ்வொன்றிலும் ஒரு துகள் வெட்டும் புள்ளிகளை வரைந்தால், ஒவ்வொரு தகடுகளிலும் உள்ள புள்ளிகள் 5 முதல் 4 வரையிலான விகிதத்துடன் 5 செவ்வகங்களாகத் தொகுக்கப்பட்டு மையமாக இருப்பதைக் காணலாம். புள்ளி (0,0), மற்றும் முதல் செவ்வகத்தில் புள்ளிகள் இல்லை.

தட்டு எண் / செவ்வக பரிமாணங்கள் 1 2 3 4 5
தட்டு 1 500h625 1000h1250 2000h2500 4000h5000 8000h10000
தட்டு 2 520h650 1040h1300 2080h2600 4160h5200 8320h10400
தட்டு 3 560h700 1120h1400 2240h2800 4480h5600 8960h11200
தட்டு 4 600h750 1200h1500 2400h3000 4800h6000 9600h12000

இந்த பரிமாணங்களைத் தீர்மானித்த பிறகு, ஒவ்வொரு துகளுக்கும் 4 புதிய வகை அம்சங்களைச் சேர்த்துள்ளோம் - அது ஒவ்வொரு தட்டையும் வெட்டும் செவ்வகத்தின் எண்ணிக்கை.

பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

துகள்கள் மையத்திலிருந்து பக்கவாட்டில் சிதறுவதையும் நாங்கள் கவனித்தோம், மேலும் இந்த சிதறலின் "தரத்தை" எப்படியாவது மதிப்பிட வேண்டும் என்ற எண்ணம் எழுந்தது. வெறுமனே, டேக்-ஆஃப் புள்ளியைப் பொறுத்து ஒருவித "சிறந்த" பரவளையத்தைக் கொண்டு வரலாம் மற்றும் அதிலிருந்து விலகலை மதிப்பிடலாம், ஆனால் நாங்கள் "சிறந்த" நேர்கோட்டிற்கு நம்மை மட்டுப்படுத்தினோம். ஒவ்வொரு நுழைவுப் புள்ளிக்கும் இதுபோன்ற சிறந்த நேர்கோடுகளை உருவாக்கி, இந்த நேர்கோட்டிலிருந்து ஒவ்வொரு துகளின் பாதையின் நிலையான விலகலைக் கணக்கிட முடிந்தது. இலக்கு = 1 க்கான சராசரி விலகல் 152 ஆகவும், இலக்கு = 0 க்கு 390 ஆகவும் இருந்ததால், இந்த அம்சம் நல்லது என்று நாங்கள் தற்காலிகமாக மதிப்பிட்டோம். உண்மையில், இந்த அம்சம் உடனடியாக மிகவும் பயனுள்ளவற்றில் முதலிடம் பிடித்தது.

நாங்கள் மகிழ்ச்சியடைந்தோம், மேலும் 4 அம்சங்களாக சிறந்த நேர்கோட்டிலிருந்து ஒவ்வொரு துகளுக்கும் 4 குறுக்குவெட்டு புள்ளிகளின் விலகலைச் சேர்த்தோம் (மேலும் அவை நன்றாக வேலை செய்தன).

போட்டியின் தலைப்பில் அறிவியல் கட்டுரைகளுக்கான இணைப்புகள், அமைப்பாளர்களால் எங்களுக்கு வழங்கப்பட்டன, இந்த சிக்கலைத் தீர்ப்பதில் நாங்கள் முதலில் இருந்து வெகு தொலைவில் இருக்கிறோம் என்ற எண்ணத்தைத் தூண்டியது, ஒருவேளை, ஒருவித சிறப்பு மென்பொருள் உள்ளது. Github இல் IsMuonSimple, IsMuon, IsMuonLoose முறைகள் செயல்படுத்தப்பட்ட ஒரு களஞ்சியத்தைக் கண்டுபிடித்த பிறகு, அவற்றை சிறிய மாற்றங்களுடன் எங்கள் தளத்திற்கு மாற்றினோம். முறைகள் மிகவும் எளிமையானவை: எடுத்துக்காட்டாக, ஆற்றல் ஒரு குறிப்பிட்ட வரம்பை விட குறைவாக இருந்தால், அது ஒரு மியூன் அல்ல, இல்லையெனில் அது ஒரு மியூன். இத்தகைய எளிமையான அம்சங்கள், சாய்வு ஊக்கத்தைப் பயன்படுத்துவதில் அதிகரிப்பைக் கொடுக்க முடியாது, எனவே வாசலில் மற்றொரு குறிப்பிடத்தக்க "தூரத்தை" சேர்த்துள்ளோம். இந்த அம்சங்களும் சற்று மேம்படுத்தப்பட்டுள்ளன. ஒருவேளை, ஏற்கனவே உள்ள முறைகளை இன்னும் முழுமையாக பகுப்பாய்வு செய்வதன் மூலம், வலுவான முறைகளைக் கண்டறிந்து அவற்றை அறிகுறிகளில் சேர்க்க முடிந்தது.

போட்டியின் முடிவில், இரண்டாவது சிக்கலுக்கான "விரைவான" தீர்வை சிறிது மாற்றியமைத்தோம்; இறுதியில், இது பின்வரும் புள்ளிகளில் அடிப்படையிலிருந்து வேறுபட்டது:

  1. எதிர்மறை எடை கொண்ட வரிசைகளில் இலக்கு தலைகீழாக மாற்றப்பட்டது
  2. MatchedHit_{X,Y,Z}[N] இல் விடுபட்ட மதிப்புகள் நிரப்பப்பட்டுள்ளன
  3. ஆழம் 7 ஆக குறைக்கப்பட்டது
  4. கற்றல் விகிதம் 0.1 ஆக குறைக்கப்பட்டது (0.19 ஆக இருந்தது)

இதன் விளைவாக, நாங்கள் பல அம்சங்களை முயற்சித்தோம் (மிகவும் வெற்றிகரமாக இல்லை), தேர்ந்தெடுக்கப்பட்ட அளவுருக்கள் மற்றும் பயிற்சி பெற்ற கேட்பூஸ்ட், லைட்ஜிபிஎம் மற்றும் எக்ஸ்ஜிபூஸ்ட், வெவ்வேறு கணிப்புகளின் கலவையை முயற்சித்தோம், மேலும் தனிப்பட்டதைத் திறப்பதற்கு முன் நாங்கள் இரண்டாவது பணியில் நம்பிக்கையுடன் வெற்றி பெற்றோம். தலைவர்கள்.

பிரைவேட் திறந்த பிறகு 10வது டாஸ்க்கில் 1வது இடத்திலும், இரண்டாவதாக 3வது இடத்திலும் இருந்தோம். எல்லாத் தலைவர்களும் கலந்துவிட்டார்கள், தனிப்பட்ட வேகம் லிபோர்டை விட அதிகமாக இருந்தது. தரவு மோசமாக அடுக்கப்பட்டதாகத் தெரிகிறது (அல்லது எடுத்துக்காட்டாக, தனிப்பட்ட முறையில் எதிர்மறை எடைகள் கொண்ட வரிசைகள் எதுவும் இல்லை) மேலும் இது சற்று வெறுப்பாக இருந்தது.

SNA ஹேக்கத்தான் 2019 - உரைகள். முதல் கட்டம்

Odnoklassniki சமூக வலைப்பின்னலில் பயனர் இடுகைகளை உள்ளடக்கிய உரையின் அடிப்படையில் தரவரிசைப்படுத்துவதே பணி; உரைக்கு கூடுதலாக, இடுகையின் மேலும் சில பண்புகள் (மொழி, உரிமையாளர், உருவாக்கிய தேதி மற்றும் நேரம், தேதி மற்றும் பார்க்கும் நேரம் )

உரையுடன் வேலை செய்வதற்கான கிளாசிக்கல் அணுகுமுறைகளாக, நான் இரண்டு விருப்பங்களை முன்னிலைப்படுத்துவேன்:

  1. ஒவ்வொரு வார்த்தையையும் n-பரிமாண வெக்டார் ஸ்பேஸில் மேப்பிங் செய்வது, அதாவது ஒத்த சொற்கள் ஒரே மாதிரியான திசையன்களைக் கொண்டிருக்கும் (மேலும் படிக்கவும் எங்கள் கட்டுரை), பின்னர் உரைக்கான சராசரி வார்த்தையைக் கண்டறிதல் அல்லது சொற்களின் ஒப்பீட்டு நிலையை (CNN, LSTM/GRU) கணக்கில் எடுத்துக்கொள்ளும் வழிமுறைகளைப் பயன்படுத்துதல்.
  2. முழு வாக்கியங்களுடனும் உடனடியாக வேலை செய்யக்கூடிய மாதிரிகளைப் பயன்படுத்துதல். உதாரணமாக, பெர்ட். கோட்பாட்டில், இந்த அணுகுமுறை சிறப்பாக செயல்பட வேண்டும்.

இது எனது முதல் அனுபவம் என்பதால், ஒருவருக்கு கற்பிப்பது தவறு, எனவே நானே கற்பிப்பேன். போட்டியின் தொடக்கத்தில் நான் எனக்குக் கொடுக்கும் குறிப்புகள் இவை:

  1. நீங்கள் ஏதாவது கற்பிக்க ஓடுவதற்கு முன், தரவைப் பாருங்கள்! உரைக்கு கூடுதலாக, தரவு பல நெடுவரிசைகளைக் கொண்டிருந்தது மற்றும் நான் செய்ததை விட அவற்றிலிருந்து அதிகமானவற்றைக் கசக்க முடிந்தது. எளிய விஷயம் என்னவென்றால், சில நெடுவரிசைகளுக்கு இலக்கு குறியாக்கம் செய்வது.
  2. எல்லா தரவுகளிலிருந்தும் கற்றுக்கொள்ள வேண்டாம்! நிறைய தரவு இருந்தது (சுமார் 17 மில்லியன் வரிசைகள்) மற்றும் கருதுகோள்களை சோதிக்க அவை அனைத்தையும் பயன்படுத்த வேண்டிய அவசியமில்லை. பயிற்சி மற்றும் முன் செயலாக்கம் மிகவும் மெதுவாக இருந்தது, மேலும் சுவாரஸ்யமான கருதுகோள்களை சோதிக்க எனக்கு நேரம் கிடைத்திருக்கும்.
  3. <சர்ச்சைக்குரிய ஆலோசனை> கொலைகாரன் மாதிரி தேட வேண்டியதில்லை. எல்மோ மற்றும் பெர்ட்டைக் கண்டறிவதில் நான் நீண்ட நேரம் செலவிட்டேன், அவர்கள் உடனடியாக என்னை உயரமான இடத்திற்கு அழைத்துச் செல்வார்கள் என்று நம்பினேன், இதன் விளைவாக நான் ரஷ்ய மொழிக்கான FastText முன் பயிற்சி பெற்ற உட்பொதிவுகளைப் பயன்படுத்தினேன். எல்மோவுடன் என்னால் சிறந்த வேகத்தை அடைய முடியவில்லை, பெர்ட்டுடன் அதைக் கண்டுபிடிக்க எனக்கு இன்னும் நேரம் இல்லை.
  4. <சர்ச்சைக்குரிய ஆலோசனை> ஒரு கொலையாளி அம்சத்தைத் தேட வேண்டிய அவசியமில்லை. தரவுகளைப் பார்க்கும்போது, ​​சுமார் 1 சதவீத நூல்கள் உண்மையில் உரையைக் கொண்டிருக்கவில்லை என்பதை நான் கவனித்தேன்! ஆனால் சில ஆதாரங்களுக்கான இணைப்புகள் இருந்தன, மேலும் தளத்தைத் திறந்து தலைப்பு மற்றும் விளக்கத்தை வெளியே இழுக்கும் எளிய பாகுபடுத்தி எழுதினேன். இது ஒரு நல்ல யோசனையாகத் தோன்றியது, ஆனால் பின்னர் நான் இழுத்துச் செல்லப்பட்டு, அனைத்து நூல்களுக்கான அனைத்து இணைப்புகளையும் அலச முடிவு செய்தேன், மீண்டும் நிறைய நேரத்தை இழந்தேன். இவை அனைத்தும் இறுதி முடிவில் குறிப்பிடத்தக்க முன்னேற்றத்தை அளிக்கவில்லை (உதாரணமாக, ஸ்டெம்மிங் இருப்பதை நான் கண்டுபிடித்தேன் என்றாலும்).
  5. கிளாசிக் அம்சங்கள் வேலை செய்கின்றன. நாங்கள் Google, எடுத்துக்காட்டாக, "உரை அம்சங்கள் kaggle", எல்லாம் படித்து சேர்க்க. TF-IDF ஆனது உரையின் நீளம், சொற்கள் மற்றும் நிறுத்தற்குறிகளின் அளவு போன்ற புள்ளிவிவர அம்சங்களைப் போலவே ஒரு மேம்பாட்டை வழங்கியது.
  6. DateTime நெடுவரிசைகள் இருந்தால், அவற்றை பல தனித்தனி அம்சங்களாக (மணிநேரம், வாரத்தின் நாட்கள், முதலியன) அலசுவது மதிப்பு. வரைபடங்கள்/சில அளவீடுகளைப் பயன்படுத்தி எந்த அம்சங்களை முன்னிலைப்படுத்த வேண்டும் என்பதை பகுப்பாய்வு செய்ய வேண்டும். இங்கே, ஒரு விருப்பப்படி, நான் எல்லாவற்றையும் சரியாகச் செய்தேன் மற்றும் தேவையான அம்சங்களை முன்னிலைப்படுத்தினேன், ஆனால் ஒரு சாதாரண பகுப்பாய்வு காயப்படுத்தாது (உதாரணமாக, நாங்கள் இறுதிப் போட்டியில் செய்ததைப் போல).

பெரிய ஹாட்ரான் மோதல் மற்றும் ஒட்னோக்ளாஸ்னிகி

போட்டியின் விளைவாக, நான் ஒரு கெராஸ் மாதிரியை வார்த்தை மாற்றத்துடன் பயிற்சி செய்தேன், மற்றொன்று LSTM மற்றும் GRU அடிப்படையிலானது. இருவரும் ரஷ்ய மொழிக்கு முன் பயிற்சி பெற்ற FastText உட்பொதிப்புகளைப் பயன்படுத்தினர் (நான் பல உட்பொதிப்புகளை முயற்சித்தேன், ஆனால் இவையே சிறப்பாகச் செயல்பட்டன). கணிப்புகளின் சராசரியைப் பார்த்த பிறகு, 7 பங்கேற்பாளர்களில் நான் இறுதி 76வது இடத்தைப் பிடித்தேன்.

முதல் கட்டத்திற்குப் பிறகு அது வெளியிடப்பட்டது நிகோலாய் அனோகின் கட்டுரை, அவர் இரண்டாவது இடத்தைப் பிடித்தார் (அவர் போட்டியில் கலந்து கொண்டார்), மேலும் சில கட்டங்கள் வரை அவரது தீர்வு என்னுடையதை மீண்டும் மீண்டும் செய்தது, ஆனால் வினவல்-முக்கிய மதிப்பு கவனத்தின் பொறிமுறையின் காரணமாக அவர் மேலும் சென்றார்.

இரண்டாம் நிலை சரி & IDAO

போட்டிகளின் இரண்டாம் கட்டங்கள் கிட்டத்தட்ட தொடர்ச்சியாக நடந்தன, எனவே அவற்றை ஒன்றாகப் பார்க்க முடிவு செய்தேன்.

முதலில், நானும் புதிதாக வாங்கிய குழுவும் Mail.ru நிறுவனத்தின் ஈர்க்கக்கூடிய அலுவலகத்தில் முடிந்தது, அங்கு எங்கள் பணி முதல் கட்டத்திலிருந்து மூன்று தடங்களின் மாதிரிகளை இணைப்பதாகும் - உரை, படங்கள் மற்றும் கூட்டு. இதற்கு 2 நாட்களுக்கு மேல் ஒதுக்கப்பட்டது, இது மிகக் குறைவாக மாறியது. உண்மையில், இணைப்பிலிருந்து எந்த ஆதாயமும் பெறாமல், முதல் நிலையிலிருந்து மட்டுமே எங்களால் எங்கள் முடிவுகளை மீண்டும் செய்ய முடிந்தது. இறுதியில், நாங்கள் 5 வது இடத்தைப் பிடித்தோம், ஆனால் எங்களால் உரை மாதிரியைப் பயன்படுத்த முடியவில்லை. மற்ற பங்கேற்பாளர்களின் தீர்வுகளைப் பார்த்த பிறகு, உரைகளை கிளஸ்டர் செய்து அவற்றை கொலாப் மாதிரியில் சேர்க்க முயற்சிப்பது மதிப்புக்குரியது என்று தெரிகிறது. இந்த கட்டத்தின் பக்க விளைவு புதிய பதிவுகள், குளிர் பங்கேற்பாளர்கள் மற்றும் அமைப்பாளர்களுடன் சந்திப்பு மற்றும் தொடர்பு, அத்துடன் கடுமையான தூக்கமின்மை, இது IDAO இன் இறுதி கட்டத்தின் முடிவை பாதித்திருக்கலாம்.

ஐடிஏஓ 2019 இன் இறுதிக் கட்டத்தில், விமான நிலையத்தில் யாண்டெக்ஸ் டாக்ஸி ஓட்டுநர்களுக்கான ஆர்டருக்கான காத்திருப்பு நேரத்தைக் கணிப்பது. நிலை 2 இல், 3 பணிகள் = 3 விமான நிலையங்கள் அடையாளம் காணப்பட்டன. ஒவ்வொரு விமான நிலையத்திற்கும், ஆறு மாதங்களுக்கான டாக்ஸி ஆர்டர்களின் எண்ணிக்கையில் நிமிடத்திற்கு நிமிடம் தரவு கொடுக்கப்பட்டுள்ளது. மேலும் சோதனைத் தரவுகளாக, கடந்த 2 வாரங்களுக்கான ஆர்டர்களின் அடுத்த மாதம் மற்றும் நிமிடத்திற்கு நிமிடம் தரவுகள் வழங்கப்பட்டன. சிறிது நேரம் இருந்தது (1,5 நாட்கள்), பணி மிகவும் குறிப்பிட்டது, அணியில் இருந்து ஒருவர் மட்டுமே போட்டிக்கு வந்தார் - இதன் விளைவாக, அது இறுதியில் ஒரு சோகமான இடமாக இருந்தது. சுவாரஸ்யமான யோசனைகளில் வெளிப்புறத் தரவைப் பயன்படுத்துவதற்கான முயற்சிகள் அடங்கும்: வானிலை, போக்குவரத்து நெரிசல்கள் மற்றும் யாண்டெக்ஸ் டாக்ஸி ஆர்டர் புள்ளிவிவரங்கள். இந்த விமான நிலையங்கள் என்ன என்று அமைப்பாளர்கள் கூறவில்லை என்றாலும், பல பங்கேற்பாளர்கள் அவை ஷெரெமெட்டியோ, டோமோடெடோவோ மற்றும் வ்னுகோவோ என்று கருதினர். போட்டிக்குப் பிறகு இந்த அனுமானம் நிராகரிக்கப்பட்டது என்றாலும், அம்சங்கள், எடுத்துக்காட்டாக, மாஸ்கோ வானிலை தரவு சரிபார்ப்பு மற்றும் லீடர்போர்டில் முடிவுகளை மேம்படுத்தியது.

முடிவுக்கு

  1. ML போட்டிகள் அருமையாகவும் சுவாரஸ்யமாகவும் உள்ளன! தரவு பகுப்பாய்வு மற்றும் தந்திரமான மாதிரிகள் மற்றும் நுட்பங்களில் திறன்களைப் பயன்படுத்துவதை இங்கே நீங்கள் காணலாம், மேலும் பொது அறிவு வரவேற்கத்தக்கது.
  2. ML ஏற்கனவே ஒரு பெரிய அறிவாற்றல் அமைப்பு, அது அதிவேகமாக வளர்ந்து வருகிறது. வெவ்வேறு பகுதிகளுடன் (சிக்னல்கள், படங்கள், அட்டவணைகள், உரை) பழகுவதற்கு நான் ஒரு இலக்கை நிர்ணயித்தேன், மேலும் எவ்வளவு படிக்க வேண்டும் என்பதை ஏற்கனவே உணர்ந்தேன். எடுத்துக்காட்டாக, இந்த போட்டிகளுக்குப் பிறகு நான் படிக்க முடிவு செய்தேன்: கிளஸ்டரிங் அல்காரிதம்கள், கிரேடியன்ட் பூஸ்டிங் லைப்ரரிகளுடன் பணிபுரிவதற்கான மேம்பட்ட நுட்பங்கள் (குறிப்பாக, GPU இல் CatBoost உடன் பணிபுரிதல்), காப்ஸ்யூல் நெட்வொர்க்குகள், வினவல்-முக்கிய-மதிப்பு கவனம் நுட்பம்.
  3. கக்கிளால் மட்டும் அல்ல! இன்னும் பல போட்டிகள் உள்ளன, அங்கு குறைந்தபட்சம் ஒரு டி-ஷர்ட்டைப் பெறுவது எளிது, மேலும் பிற பரிசுகளுக்கு அதிக வாய்ப்புகள் உள்ளன.
  4. தொடர்புகொள்! இயந்திர கற்றல் மற்றும் தரவு பகுப்பாய்வு துறையில் ஏற்கனவே ஒரு பெரிய சமூகம் உள்ளது, Mail.ru, Yandex மற்றும் பிற நிறுவனங்களின் டெலிகிராம், மந்தமான மற்றும் தீவிரமான நபர்களில் கருப்பொருள் குழுக்கள் உள்ளன, கேள்விகளுக்கு பதிலளிக்கவும், ஆரம்பநிலை மற்றும் இந்தத் துறையில் தங்கள் பாதையைத் தொடர்பவர்களுக்கு உதவவும் அறிவின்.
  5. முந்தைய புள்ளியால் ஈர்க்கப்பட்ட அனைவரையும் பார்வையிடுமாறு நான் அறிவுறுத்துகிறேன் டேட்டாஃபெஸ்ட் - மாஸ்கோவில் ஒரு பெரிய இலவச மாநாடு, இது மே 10-11 அன்று நடைபெறும்.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்