ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

በሃበሬ ላይ የማሽን መማሪያ ውድድርን ጭብጥ በመቀጠል፣ አንባቢዎችን ወደ ሁለት ተጨማሪ መድረኮች ማስተዋወቅ እንፈልጋለን። እነሱ በእርግጥ እንደ kaggle ግዙፍ አይደሉም ፣ ግን በእርግጠኝነት ትኩረት ሊሰጣቸው ይገባል።

ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

በግሌ በብዙ ምክንያቶች ካግላን በጣም አልወድም፡-

  • በመጀመሪያ ፣ እዚያ ያሉ ውድድሮች ብዙውን ጊዜ ለብዙ ወራት ይቆያሉ ፣ እና ንቁ ተሳትፎ ብዙ ጥረት ይጠይቃል።
  • በሁለተኛ ደረጃ, የህዝብ ከርነሎች (የህዝብ መፍትሄዎች). የ Kaggle ተከታዮች እነሱን በቲቤት መነኮሳት መረጋጋት እንዲታከሙ ይመክራሉ ፣ ግን በእውነቱ ለአንድ ወይም ለሁለት ወር ሲሰሩበት የነበረው ነገር በድንገት ለሁሉም ሰው በብር ሳህን ላይ ሲቀመጥ በጣም አሳፋሪ ነው።

እንደ እድል ሆኖ፣ የማሽን መማሪያ ውድድሮች በሌሎች መድረኮች ይካሄዳሉ፣ እና ከእነዚህ ውድድሮች መካከል ሁለቱ ይብራራሉ።

አይዲኦ ኤስኤንኤ ሃካቶን 2019
ኦፊሴላዊ ቋንቋ: እንግሊዝኛ,
አዘጋጆች: Yandex, Sberbank, HSE
ኦፊሴላዊ የሩሲያ ቋንቋ ፣
አዘጋጆች: Mail.ru ቡድን
የመስመር ላይ ዙር፡ ጥር 15 - ፌብሩዋሪ 11፣ 2019;
የጣቢያው የመጨረሻ፡ ኤፕሪል 4-6፣ 2019
በመስመር ላይ - ከየካቲት 7 እስከ ማርች 15;
ከመስመር ውጭ - ከማርች 30 እስከ ኤፕሪል 1።
በትልቁ ሃድሮን ኮሊደር (ትራጀክተር፣ ሞመንተም እና ሌሎች ውስብስብ አካላዊ መመዘኛዎች) ውስጥ ስላለው ቅንጣት የተወሰነ የውሂብ ስብስብ በመጠቀም ሙኦን መሆኑን ወይም አለመሆኑን ይወስኑ።
ከዚህ መግለጫ 2 ተግባራት ተለይተዋል፡-
- በአንድ ውስጥ ትንበያዎን መላክ ነበረብዎት ፣
- እና በሌላ ውስጥ - የተሟላው ኮድ እና የትንበያ ሞዴል ፣ እና አፈፃፀሙ ጊዜን እና የማስታወስ አጠቃቀምን በተመለከተ ጥብቅ ገደቦች ተጋርጦባቸዋል።
ለኤስኤንኤ Hackathon ውድድር፣ በየካቲት-መጋቢት 2018 የተጠቃሚ ዜና ምግቦች ውስጥ በክፍት ቡድኖች የይዘት ማሳያዎች ምዝግብ ማስታወሻዎች ተሰብስበዋል። የሙከራው ስብስብ የመጋቢት የመጨረሻ ሳምንት ተኩል ይዟል። በምዝግብ ማስታወሻው ውስጥ ያለው እያንዳንዱ ግቤት ምን እንደታየ እና ለማን እንዲሁም ተጠቃሚው ለዚህ ይዘት እንዴት ምላሽ እንደሰጠ መረጃ ይዟል፡ ደረጃ ሰጥቶታል፣ አስተያየት ሰጥቷል፣ ችላ ብሎታል ወይም ከምግቡ ደበቀው።
የ SNA Hackathon ተግባራት ዋናው ነገር እያንዳንዱን የማህበራዊ አውታረ መረብ ተጠቃሚ Odnoklassniki ምግቡን ደረጃ መስጠት ነው, በተቻለ መጠን "ክፍል" የሚቀበሉትን ልጥፎች ከፍ በማድረግ.
በኦንላይን ደረጃ, ተግባሩ በ 3 ክፍሎች ተከፍሏል.
1. በተለያዩ የትብብር ባህሪያት መሰረት ልጥፎችን ደረጃ ይስጡ
2. በያዙት ምስሎች መሰረት ልጥፎችን ደረጃ ይስጡ
3. በያዙት ጽሑፍ መሰረት ልጥፎችን ደረጃ ይስጡ
ውስብስብ ብጁ ሜትሪክ፣ እንደ ROC-AUC ያለ ነገር አማካይ ROC-AUC በተጠቃሚ
ለመጀመሪያው ደረጃ ሽልማቶች - ቲ-ሸሚዞች ለ N ቦታዎች ፣ ወደ ሁለተኛው ደረጃ ማለፍ ፣ በውድድሩ ወቅት መጠለያ እና ምግብ ይከፈሉ ነበር
ሁለተኛ ደረጃ - ??? (በተወሰኑ ምክንያቶች በሽልማት ሥነ ሥርዓቱ ላይ አልተገኘሁም እና ሽልማቶቹ በመጨረሻ ምን እንደነበሩ ለማወቅ አልቻልኩም). ላፕቶፖች ለአሸናፊው ቡድን አባላት በሙሉ ቃል ገብተዋል።
ለመጀመሪያው ደረጃ ሽልማቶች - ቲ-ሸሚዞች ለ 100 ምርጥ ተሳታፊዎች, ወደ ሁለተኛው ደረጃ ማለፍ, ወደ ሞስኮ ጉዞ, ማረፊያ እና በውድድሩ ወቅት ምግቦች ተከፍለዋል. እንዲሁም በመጀመሪያው ደረጃ መጨረሻ ላይ በ 3 ደረጃ በ 1 ተግባራት ውስጥ ለተሻሉ ሽልማቶች ተነግሯል-ሁሉም ሰው የ RTX 2080 TI ቪዲዮ ካርድ አሸንፏል!
ሁለተኛው ደረጃ የቡድን ደረጃ ነበር ፣ ቡድኖቹ ከ 2 እስከ 5 ሰዎችን ያቀፉ ፣ ሽልማቶች-
1 ኛ ደረጃ - 300 ሩብልስ
2 ኛ ደረጃ - 200 ሩብልስ
3 ኛ ደረጃ - 100 ሩብልስ
የፍርድ ቤት ሽልማት - 100 ሩብልስ
ኦፊሴላዊ የቴሌግራም ቡድን ~ 190 ተሳታፊዎች ፣ በእንግሊዝኛ መገናኘት ፣ ጥያቄዎች መልስ ለማግኘት ብዙ ቀናት መጠበቅ ነበረባቸው በቴሌግራም ውስጥ ኦፊሴላዊ ቡድን ፣ ~ 1500 ተሳታፊዎች ፣ በተሳታፊዎች እና በአዘጋጆች መካከል ስላለው ተግባር ንቁ ውይይት
አዘጋጆቹ ሁለት መሠረታዊ መፍትሄዎችን ቀላል እና የላቀ አቅርበዋል. ቀላል የሚፈለገው ከ16 ጂቢ ራም በታች ነው፣ እና የላቀ ማህደረ ትውስታ ከ16 ጋር አልገባም። በተመሳሳይ ጊዜ, ትንሽ ወደ ፊት በመመልከት, ተሳታፊዎቹ የላቀውን መፍትሄ በከፍተኛ ሁኔታ ማሳደግ አልቻሉም. እነዚህን መፍትሄዎች ለመጀመር ምንም ችግሮች አልነበሩም. በላቀ ምሳሌ ውስጥ መፍትሄውን ማሻሻል የት መጀመር እንዳለበት ፍንጭ ያለው አስተያየት እንደነበረ ልብ ሊባል ይገባል። ለእያንዳንዱ ተግባራት መሰረታዊ የጥንት መፍትሄዎች ተሰጥተዋል, ይህም በተሳታፊዎች በቀላሉ አልፏል. በውድድሩ የመጀመሪያ ቀናት ተሳታፊዎች ብዙ ችግሮች አጋጥሟቸዋል-በመጀመሪያ ፣ መረጃው በአፓቼ ፓርኬት ቅርጸት ተሰጥቷል ፣ እና ሁሉም የ Python እና የፓኬት ጥቅል ጥምረት ያለ ምንም ስህተት አልሰሩም። ሁለተኛው ችግር ምስሎችን ከደብዳቤ ደመና ማውረድ ነበር ፣ በአሁኑ ጊዜ ብዙ ውሂብን በአንድ ጊዜ ለማውረድ ቀላል መንገድ የለም። በውጤቱም, እነዚህ ችግሮች ተሳታፊዎችን ለሁለት ቀናት ያህል ዘግይተዋል.

አይዲኦ የመጀመሪያ ደረጃ

ተግባሩ የ muon/muon ያልሆኑ ቅንጣቶችን እንደየባህሪያቸው መመደብ ነበር። የዚህ ተግባር ቁልፍ ባህሪ በስልጠናው መረጃ ውስጥ የክብደት አምድ መኖሩ ነው, አዘጋጆቹ እራሳቸው ለዚህ መስመር መልስ እንደ እምነት ተተርጉመዋል. ችግሩ ጥቂት ረድፎች አሉታዊ ክብደቶች መያዛቸው ነበር።

ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

ስለ ፍንጭው መስመር ለጥቂት ደቂቃዎች ካሰብን በኋላ (ፍንጭው በቀላሉ ወደዚህ የክብደት አምድ ባህሪ ትኩረት ስቧል) እና ይህንን ግራፍ ከገነባን በኋላ 3 አማራጮችን ለማየት ወሰንን ።

1) የመስመሮችን ዒላማ ከአሉታዊ ክብደት ጋር ገልብጥ (እና በዚህ መሠረት ክብደቶች)
2) ክብደቶቹን ከ 0 ጀምሮ እንዲጀምሩ ወደ ዝቅተኛው እሴት ይለውጡ
3) የሕብረቁምፊ ክብደትን አይጠቀሙ

ሦስተኛው አማራጭ በጣም መጥፎ ሆኖ ተገኝቷል, ነገር ግን የመጀመሪያዎቹ ሁለቱ ውጤቱን አሻሽለዋል, በጣም ጥሩው አማራጭ ቁጥር 1 ነበር, ይህም ወዲያውኑ በአንደኛው ሥራ እና በመጀመሪያ በሁለተኛው ውስጥ አሁን ወዳለው ሁለተኛ ደረጃ አመጣን.
ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ
ቀጣዩ እርምጃችን የጎደሉ እሴቶችን መረጃ መገምገም ነበር። አዘጋጆቹ ጥቂቶች የሚጎድሉ እሴቶች ባሉበት አስቀድሞ የተቀመረ መረጃ ሰጡን እና በ -9999 ተተኩ።

የጎደሉ እሴቶችን በMatchedHit_{X,Y,Z}[N] እና MatchedHit_D{X,Y,Z}[N] አምዶች ውስጥ እና N=2 ወይም 3 ሲሆኑ ብቻ አግኝተናል። እንደምንረዳው አንዳንድ ቅንጣቶች አላገኙም። ሁሉንም 4 መመርመሪያዎች ማለፍ እና በ 3 ኛ ወይም 4 ኛ ሳህን ላይ አቁሟል። ውሂቡ በተጨማሪም Lextra_{X,Y}[N] አምዶችን ይዟል፣ እነሱም እንደ MatchedHit_{X,Y,Z}[N] ተመሳሳይ ነገርን ይገልጻሉ፣ ነገር ግን አንድ አይነት ኤክስትራፖላሽን በመጠቀም። እነዚህ ጥቃቅን ግምቶች Lextra_{X,Y}[N] በ MatchedHit_{X,Y,Z}[N] (ለX እና Y መጋጠሚያዎች ብቻ) ላሉ እሴቶች ሊተካ እንደሚችል ጠቁመዋል። MatchedHit_Z[N] በሜዲያን በደንብ ተሞልቷል። እነዚህ ማታለያዎች በሁለቱም ተግባራት 1 ኛ መካከለኛ ቦታ ላይ እንድንደርስ አስችሎናል.

ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

የመጀመሪያውን ደረጃ ለማሸነፍ ምንም ነገር እንዳልሰጡ ግምት ውስጥ በማስገባት, እዚያ ማቆም እንችል ነበር, ነገር ግን ቀጠልን, ቆንጆ ስዕሎችን እና አዲስ ባህሪያትን አመጣን.

ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

ለምሳሌ የአንድን ቅንጣት መጋጠሚያ ነጥቦች በእያንዳንዱ አራት ፈላጊ ሰሌዳዎች ላይ ብናሰላው በእያንዳንዱ ሰሌዳ ላይ ያሉት ነጥቦች በ 5 ሬክታንግል የተከፋፈሉ እና ከ 4 እስከ 5 ምጥጥነ ገጽታ እና በመሃል ላይ መሆናቸውን እናያለን ። ነጥቡ (0,0), እና በ ውስጥ በመጀመሪያው ሬክታንግል ውስጥ ምንም ነጥቦች የሉም.

የጠፍጣፋ ቁጥር / አራት ማዕዘን ልኬቶች 1 2 3 4 5
ሳህን 1 500 x 625 1000 x 1250 2000 x 2500 4000 x 5000 8000 x 10000
ሳህን 2 520 x 650 1040 x 1300 2080 x 2600 4160 x 5200 8320 x 10400
ሳህን 3 560 x 700 1120 x 1400 2240 x 2800 4480 x 5600 8960 x 11200
ሳህን 4 600 x 750 1200 x 1500 2400 x 3000 4800 x 6000 9600 x 12000

እነዚህን መመዘኛዎች ከወሰንን በኋላ ለእያንዳንዱ ቅንጣት 4 አዳዲስ ምድብ ባህሪያትን ጨምረናል - እያንዳንዱን ሳህን የሚያቋርጥበት አራት ማዕዘኑ ቁጥር።

ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

በተጨማሪም ቅንጦቹ ከመሃል ወደ ጎን የተበታተኑ መስለው እና የዚህን ብተና "ጥራት" እንደምንም ለመገምገም ሃሳቡ መነሳቱን አስተውለናል። በሐሳብ ደረጃ፣ እንደ የመውጫ ነጥቡ ላይ በመመስረት አንድ ዓይነት “ተስማሚ” ፓራቦላ ማምጣት ይቻል ይሆናል እና ከሱ ያለውን ልዩነት ይገምታል፣ ነገር ግን እራሳችንን “በጥሩ” ቀጥተኛ መስመር ላይ ብቻ ወሰንን። ለእያንዳንዱ የመግቢያ ነጥብ እንደዚህ አይነት ተስማሚ ቀጥታ መስመሮችን ከገነባን፣ የእያንዳንዱን ቅንጣት አቅጣጫ መደበኛ መዛባት ከዚህ ቀጥታ መስመር ማስላት ችለናል። የዒላማ = 1 አማካኝ ልዩነት 152 ነበር፣ እና ለዒላማ = 0 390 ስለነበር፣ ይህንን ባህሪ በጊዜያዊነት ገምግመነዋል። እና በእርግጥ, ይህ ባህሪ ወዲያውኑ በጣም ጠቃሚ ወደሆኑት ከፍተኛ ደረጃ ላይ ደርሷል.

ተደስተን ነበር እና ለእያንዳንዱ ቅንጣት የ4ቱን መገናኛ ነጥቦች ልዩነት ከትክክለኛው ቀጥተኛ መስመር እንደ ተጨማሪ 4 ባህሪያት ጨምረናል (እንዲሁም ጥሩ ሰርተዋል)።

በውድድሩ ርዕስ ላይ ወደ ሳይንሳዊ መጣጥፎች የሚወስዱ አገናኞች በአዘጋጆቹ የተሰጡን ፣ ይህንን ችግር ለመፍታት ከመጀመሪያው በጣም ርቀናል የሚለውን ሀሳብ ያነሳሱ እና ምናልባትም አንድ ዓይነት ልዩ ሶፍትዌር አለ። IsMuonSimple፣ IsMuon፣ IsMuonLoose የሚሉት ዘዴዎች የተተገበሩበት በgithub ላይ ማከማቻ ካገኘን በኋላ በጥቃቅን ማሻሻያዎች ወደ ጣቢያችን አስተላልፈናቸዋል። ዘዴዎቹ እራሳቸው በጣም ቀላል ነበሩ-ለምሳሌ, ጉልበቱ ከተወሰነ ገደብ ያነሰ ከሆነ, እሱ muon አይደለም, አለበለዚያ ግን ሙዮን ነው. እንደዚህ ያሉ ቀላል ባህሪያት ቀስ በቀስ መጨመርን የመጠቀም ሁኔታ ላይ መጨመር እንደማይችሉ ግልጽ ነው, ስለዚህ ሌላ ጉልህ የሆነ "ርቀት" በመግቢያው ላይ ጨምረናል. እነዚህ ባህሪያት እንዲሁ በትንሹ ተሻሽለዋል. ምናልባትም, ያሉትን ዘዴዎች በጥልቀት በመተንተን, ጠንካራ ዘዴዎችን ማግኘት እና ወደ ምልክቶች መጨመር ተችሏል.

በውድድሩ ማብቂያ ላይ ለሁለተኛው ችግር “ፈጣን” መፍትሄን በትንሹ አስተካክለናል ፣ በመጨረሻም ፣ በሚከተሉት ነጥቦች ከመነሻው ተለየ ።

  1. አሉታዊ ክብደት ባላቸው ረድፎች ኢላማው ተገልብጧል
  2. በ MatchedHit_{X,Y,Z}[N] ውስጥ የጎደሉ እሴቶች ተሞልተዋል
  3. ጥልቀት ወደ 7 ቀንሷል
  4. የተቀነሰ የትምህርት መጠን ወደ 0.1 (0.19 ነበር)

በውጤቱም ፣ ተጨማሪ ባህሪያትን ሞክረን (በጣም በተሳካ ሁኔታ አይደለም) ፣ የተመረጡ መለኪያዎች እና የሰለጠነ ካትቦስት ፣ lightgbm እና xgboost ፣ የተለያዩ የትንበያ ድብልቅን ሞክረን እና ግሉን ከመክፈታችን በፊት በሁለተኛው ተግባር ላይ በልበ ሙሉነት አሸንፈናል ፣ እና በመጀመሪያ እኛ ከመካከላቸው ነበርን። መሪዎች.

የግል ቤቱን ከከፈትን በኋላ ለ 10 ኛ ተግባር እና ለሁለተኛው 1 ኛ 3 ኛ ደረጃ ላይ ነበር. ሁሉም መሪዎች ተደባለቁ, እና በድብቅ ያለው ፍጥነት ከሊብቦርዱ የበለጠ ነበር. ውሂቡ በደንብ ያልተስተካከለ ይመስላል (ወይም ለምሳሌ በግል ውስጥ አሉታዊ ክብደት ያላቸው ረድፎች አልነበሩም) እና ይህ ትንሽ ተስፋ አስቆራጭ ነበር።

SNA Hackathon 2019 - ጽሑፎች። የመጀመሪያ ደረጃ

ሥራው በያዙት ጽሑፍ ላይ በመመስረት የተጠቃሚ ልጥፎችን በኦድኖክላሲኒኪ ማህበራዊ አውታረ መረብ ላይ ደረጃ መስጠት ነበር ፣ ከጽሑፉ በተጨማሪ ፣ የልጥፉ ጥቂት ባህሪዎች (ቋንቋ ፣ ባለቤት ፣ ቀን እና ጊዜ ፣ ​​የእይታ ቀን እና ሰዓት) ነበሩ ። ).

ከጽሑፍ ጋር ለመስራት እንደ ክላሲካል አቀራረቦች ፣ ሁለት አማራጮችን አጉላለሁ-

  1. ተመሳሳይ ቃላት ተመሳሳይ ቬክተር እንዲኖራቸው እያንዳንዱን ቃል ወደ n-dimensional vector space በመቅረጽ (በተጨማሪ አንብብ በ ጽሑፋችን), ከዚያም የጽሑፉን አማካኝ ቃል መፈለግ ወይም የቃላትን አንጻራዊ አቀማመጥ (CNN, LSTM/GRU) ያገናዘበ ዘዴዎችን መጠቀም.
  2. ወዲያውኑ ከጠቅላላው ዓረፍተ ነገሮች ጋር ሊሠሩ የሚችሉ ሞዴሎችን መጠቀም. ለምሳሌ, በርት. በንድፈ ሀሳብ, ይህ አካሄድ በተሻለ ሁኔታ መስራት አለበት.

ይህ የመጀመሪያ ልምዴ በጽሑፍ ስለነበር፣ አንድን ሰው ማስተማር ስህተት ነው፣ ስለዚህ ራሴን አስተምራለሁ። በውድድሩ መጀመሪያ ላይ ለራሴ የምሰጣቸው ምክሮች እነዚህ ናቸው፡-

  1. የሆነ ነገር ለማስተማር ከመሮጥዎ በፊት መረጃውን ይመልከቱ! ከጽሑፉ ራሱ በተጨማሪ ውሂቡ ብዙ ዓምዶች ነበሩት እና እኔ ካደረግሁት የበለጠ ከእነሱ ብዙ ማውጣት ይቻል ነበር። በጣም ቀላሉ ነገር ለአንዳንድ አምዶች አማካኝ ኢንኮዲንግ ማድረግ ነው።
  2. ከሁሉም መረጃዎች አትማር! ብዙ መረጃዎች ነበሩ (ወደ 17 ሚሊዮን ረድፎች) እና መላምቶችን ለመፈተሽ ሁሉንም መጠቀም በፍጹም አስፈላጊ አልነበረም። ስልጠና እና ቅድመ-ሂደት በጣም ቀርፋፋ ነበር፣ እና በግልጽ ይበልጥ አስደሳች መላምቶችን ለመፈተሽ ጊዜ ይኖረኝ ነበር።
  3. <አወዛጋቢ ምክር> ገዳይ ሞዴል መፈለግ አያስፈልግም። ኤልሞ እና በርትን ለማወቅ ረጅም ጊዜ አሳልፌያለሁ, ወዲያውኑ ወደ ከፍተኛ ቦታ እንደሚወስዱኝ ተስፋ በማድረግ, እና በዚህም ምክንያት ለሩሲያ ቋንቋ FastText ቀድሞ የሰለጠነ መክተቻዎችን ተጠቀምኩ. ከኤልሞ ጋር የተሻለ ፍጥነት ማግኘት አልቻልኩም፣ እና አሁንም በበርት ለማወቅ ጊዜ አላገኘሁም።
  4. <አወዛጋቢ ምክር> አንድ ገዳይ ባህሪ መፈለግ አያስፈልግም። መረጃውን ስመለከት፣ ከጽሁፎቹ ውስጥ ወደ 1 በመቶው የሚጠጉ ጽሁፍ እንደሌላቸው አስተዋልኩ! ግን ለአንዳንድ ሀብቶች አገናኞች ነበሩ እና ጣቢያውን የከፈተ እና ርዕሱን እና መግለጫውን የሚያወጣ ቀላል ትንታኔ ጻፍኩኝ። ጥሩ ሀሳብ መስሎ ነበር፣ ነገር ግን ከዚያ ተወሰድኩ እና ሁሉንም ጽሑፎች ሁሉንም ማገናኛዎች ለመተንተን ወሰንኩ እና እንደገና ብዙ ጊዜ አጣሁ። ይህ ሁሉ በመጨረሻው ውጤት ላይ ጉልህ የሆነ መሻሻል አላመጣም (ምንም እንኳን እኔ ግንድ ማውጣትን ብገምግም)።
  5. ክላሲክ ባህሪያት ይሰራሉ. እኛ ጎግል ለምሳሌ "የጽሁፍ ባህሪያት kaggle", ሁሉንም ነገር እናነባለን እና እንጨምራለን. TF-IDF ማሻሻያ ሰጥቷል፣ እንደ የጽሁፍ ርዝመት፣ ቃላት እና የስርዓተ-ነጥብ መጠን ያሉ ስታቲስቲካዊ ባህሪያት እንዳደረጉት።
  6. የDateTime አምዶች ካሉ፣ ወደ ተለያዩ ባህሪያት (ሰዓታት፣ የሳምንቱ ቀናት፣ ወዘተ) መተንተን ተገቢ ነው። የትኞቹ ባህሪያት ማድመቅ እንዳለባቸው ግራፎችን/አንዳንድ መለኪያዎችን በመጠቀም መተንተን አለባቸው። እዚህ ፣ በፍላጎት ፣ ሁሉንም ነገር በትክክል አደረግሁ እና አስፈላጊዎቹን ባህሪዎች አጉልቻለሁ ፣ ግን መደበኛ ትንታኔ አይጎዳም ነበር (ለምሳሌ ፣ በመጨረሻው ላይ እንዳደረግነው)።

ትልቅ የሃድሮን ኮሊደር እና ኦድኖክላሲኒኪ

በውድድሩ ምክንያት አንድ የኬራስ ሞዴል በቃላት ኮንቮሉሽን፣ እና ሌላውን ደግሞ በኤልኤስቲኤም እና በጂሩ ላይ በመመስረት አሰልጥኛለሁ። ሁለቱም ለሩሲያ ቋንቋ ቅድመ-የሠለጠኑ የ FastText መክተቻዎችን ተጠቅመዋል (ሌሎች በርካታ መክተቶችን ሞክሬ ነበር, ነገር ግን እነዚህ በተሻለ ሁኔታ የሰሩ ናቸው). ትንበያዎቹን በአማካይ ከጨረስኩ በኋላ ከ 7 ተሳታፊዎች ውስጥ የመጨረሻውን 76 ኛ ደረጃ ወሰድኩ.

ከመጀመሪያው ደረጃ በኋላ ታትሟል በኒኮላይ አኖኪን መጣጥፍሁለተኛ ደረጃ የወሰደው (ከውድድር ውጪ የተሳተፈ) እና እስከተወሰነ ደረጃ ድረስ ያለው መፍትሄ የእኔን ደጋገመ፣ ነገር ግን በጥያቄ-ቁልፍ-ዋጋ ትኩረት ዘዴ ምክንያት የበለጠ ሄዷል።

ሁለተኛ ደረጃ እሺ እና አይዲኦ

የውድድሮቹ ሁለተኛ እርከኖች በተከታታይ ከሞላ ጎደል የተካሄዱት በመሆኑ አንድ ላይ ለማየት ወሰንኩ።

በመጀመሪያ እኔ እና አዲስ የተገዛው ቡድን በ Mail.ru ኩባንያ ውስጥ በአስደናቂው ቢሮ ውስጥ ጨርሰናል, ተግባራችን ከመጀመሪያው ደረጃ የሶስት ትራኮችን ሞዴሎች - ጽሑፍን, ስዕሎችን እና መተባበርን ማዋሃድ ነበር. ለዚህ ከ 2 ቀናት በላይ ትንሽ ተመድቧል, ይህም በጣም ትንሽ ሆኖ ተገኝቷል. እንደውም በውህደቱ ምንም አይነት ትርፍ ሳናገኝ ውጤታችንን መድገም የቻልነው ከመጀመሪያው ደረጃ ብቻ ነው። በመጨረሻ, 5 ኛ ደረጃን ወስደናል, ነገር ግን የጽሑፍ ሞዴሉን መጠቀም አልቻልንም. የሌሎች ተሳታፊዎችን መፍትሄዎች ከተመለከትን በኋላ, ጽሑፎቹን ለመሰብሰብ እና ወደ የጋራ ሞዴል ለመጨመር መሞከር ጠቃሚ ይመስላል. የዚህ ደረጃ የጎንዮሽ ተጽእኖ አዲስ ግንዛቤዎች, ጥሩ ከሆኑ ተሳታፊዎች እና አዘጋጆች ጋር መገናኘት እና መገናኘት, እንዲሁም ከባድ እንቅልፍ ማጣት, የ IDAO የመጨረሻ ደረጃ ውጤት ላይ ተጽእኖ ሊያሳድር ይችላል.

በ IDAO 2019 የመጨረሻ ደረጃ ላይ ያለው ተግባር በአውሮፕላን ማረፊያው ውስጥ ለ Yandex ታክሲ ሾፌሮች ትእዛዝ የሚጠብቀውን ጊዜ መተንበይ ነበር። በደረጃ 2, 3 ተግባራት = 3 የአየር ማረፊያዎች ተለይተዋል. ለእያንዳንዱ አውሮፕላን ማረፊያ ለስድስት ወራት የታክሲ ትዕዛዝ ቁጥር በደቂቃ በደቂቃ መረጃ ይሰጣል። እና እንደ የሙከራ ውሂብ፣ ላለፉት 2 ሳምንታት በትእዛዞች ላይ የሚቀጥለው ወር እና ደቂቃ-ደቂቃ መረጃ ተሰጥቷል። ትንሽ ጊዜ (1,5 ቀናት) ነበር, ስራው በጣም ልዩ ነበር, ከቡድኑ ውስጥ አንድ ሰው ብቻ ወደ ውድድሩ መጣ - እና በዚህ ምክንያት, ወደ መጨረሻው አሳዛኝ ቦታ ነበር. ሳቢ ሐሳቦች ውጫዊ ውሂብን ለመጠቀም ሙከራዎችን ያካትታሉ፡ የአየር ሁኔታ፣ የትራፊክ መጨናነቅ እና የ Yandex ታክሲ ትዕዛዝ ስታቲስቲክስ። ምንም እንኳን አዘጋጆቹ እነዚህ አየር ማረፊያዎች ምን እንደሆኑ ባይናገሩም, ብዙ ተሳታፊዎች Sheremetyevo, Domodedovo እና Vnukovo እንደሆኑ አድርገው ያስባሉ. ምንም እንኳን ይህ ግምት ከውድድሩ በኋላ ውድቅ ቢደረግም, ባህሪያት, ለምሳሌ, ከሞስኮ የአየር ሁኔታ መረጃ በማረጋገጥ እና በመሪ ሰሌዳው ላይ ውጤቱን አሻሽለዋል.

መደምደሚያ

  1. ML ውድድሮች አሪፍ እና አስደሳች ናቸው! እዚህ በመረጃ ትንተና እና በተንኮለኛ ሞዴሎች እና ቴክኒኮች ውስጥ ክህሎቶችን መጠቀምን ያገኛሉ ፣ እና በቀላሉ የጋራ ማስተዋል እንኳን ደህና መጡ።
  2. ኤምኤል ቀድሞውኑ በከፍተኛ ደረጃ እያደገ የሚመስል ግዙፍ የእውቀት አካል ነው። ከተለያዩ አካባቢዎች (ምልክቶች፣ ሥዕሎች፣ ሠንጠረዦች፣ ጽሑፍ) ጋር ለመተዋወቅ ግብ አወጣሁ እና ምን ያህል ማጥናት እንዳለ አስቀድሞ ተገነዘብኩ። ለምሳሌ፣ ከእነዚህ ውድድሮች በኋላ ለማጥናት ወሰንኩ፡ ክላስተር ስልተ ቀመሮችን፣ ከግራዲየንት ማበልጸጊያ ቤተ-መጻሕፍት ጋር ለመስራት (በተለይ ከ CatBoost ጋር በጂፒዩ ላይ መሥራት)፣ የ capsule networks፣ የጥያቄ-ቁልፍ እሴት ትኩረት ዘዴ።
  3. በቃግ ብቻ አይደለም! ቢያንስ ቲሸርት ለማግኘት ቀላል የሆኑባቸው ሌሎች ብዙ ውድድሮች አሉ፣ እና ለሌሎች ሽልማቶች ብዙ እድሎች አሉ።
  4. ተግባቡ! በማሽን መማሪያ እና በመረጃ ትንተና መስክ ውስጥ አንድ ትልቅ ማህበረሰብ አለ ፣ በቴሌግራም ፣ ስሌክ እና ከባድ ሰዎች ከ Mail.ru ፣ Yandex እና ሌሎች ኩባንያዎች ጥያቄዎችን ይመልሱ እና ጀማሪዎችን እና በዚህ መስክ መንገዳቸውን የሚቀጥሉ ሰዎችን ይረዳሉ ። የእውቀት.
  5. በቀደመው ነጥብ የተነሳሱትን ሁሉ እንዲጎበኙ እመክራለሁ። ዳታፌስት - በሞስኮ ውስጥ ትልቅ ነፃ ኮንፈረንስ, በግንቦት 10-11 ይካሄዳል.

ምንጭ: hab.com

አስተያየት ያክሉ