లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

హబ్రేలో మెషిన్ లెర్నింగ్ పోటీల థీమ్‌ను కొనసాగిస్తూ, మేము పాఠకులకు మరో రెండు ప్లాట్‌ఫారమ్‌లను పరిచయం చేయాలనుకుంటున్నాము. అవి ఖచ్చితంగా కాగ్లే అంత పెద్దవి కావు, కానీ అవి ఖచ్చితంగా శ్రద్ధకు అర్హమైనవి.

లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

వ్యక్తిగతంగా, నేను అనేక కారణాల వల్ల కాగ్లేను ఎక్కువగా ఇష్టపడను:

  • మొదట, అక్కడ పోటీలు తరచుగా చాలా నెలల పాటు కొనసాగుతాయి మరియు చురుకుగా పాల్గొనడానికి చాలా కృషి అవసరం;
  • రెండవది, పబ్లిక్ కెర్నలు (పబ్లిక్ సొల్యూషన్స్). కాగ్లే అనుచరులు వారిని టిబెటన్ సన్యాసుల ప్రశాంతతతో వ్యవహరించమని సలహా ఇస్తారు, అయితే వాస్తవానికి మీరు ఒకటి లేదా రెండు నెలలుగా పని చేస్తున్నది అకస్మాత్తుగా అందరికీ వెండి పళ్ళెంలో వేయబడినప్పుడు ఇది చాలా అవమానకరం.

అదృష్టవశాత్తూ, మెషిన్ లెర్నింగ్ పోటీలు ఇతర ప్లాట్‌ఫారమ్‌లలో నిర్వహించబడతాయి మరియు ఈ పోటీలలో కొన్నింటిని చర్చించడం జరుగుతుంది.

IDAO SNA హ్యాకథాన్ 2019
అధికారిక భాష: ఇంగ్లీష్,
నిర్వాహకులు: Yandex, Sberbank, HSE
అధికారిక రష్యన్ భాష,
నిర్వాహకులు: Mail.ru గ్రూప్
ఆన్‌లైన్ రౌండ్: జనవరి 15 — ఫిబ్రవరి 11, 2019;
ఆన్-సైట్ ఫైనల్: ఏప్రిల్ 4-6, 2019
ఆన్‌లైన్ - ఫిబ్రవరి 7 నుండి మార్చి 15 వరకు;
ఆఫ్‌లైన్ - మార్చి 30 నుండి ఏప్రిల్ 1 వరకు.
లార్జ్ హాడ్రాన్ కొలైడర్ (పథం, మొమెంటం మరియు ఇతర సంక్లిష్టమైన భౌతిక పారామితులు)లో ఒక కణం గురించి నిర్దిష్ట డేటా సెట్‌ని ఉపయోగించి, అది మ్యూయాన్ కాదా అని నిర్ణయించండి
ఈ ప్రకటన నుండి, 2 పనులు గుర్తించబడ్డాయి:
- ఒకదానిలో మీరు మీ అంచనాను పంపవలసి ఉంటుంది,
- మరియు మరొకదానిలో - ప్రిడిక్షన్ కోసం పూర్తి కోడ్ మరియు మోడల్, మరియు అమలు సమయం మరియు మెమరీ వినియోగంపై చాలా కఠినమైన పరిమితులకు లోబడి ఉంటుంది.
SNA హ్యాకథాన్ పోటీ కోసం, ఫిబ్రవరి-మార్చి 2018 కోసం యూజర్ న్యూస్ ఫీడ్‌లలో ఓపెన్ గ్రూప్‌ల నుండి కంటెంట్ డిస్‌ప్లేల లాగ్‌లు సేకరించబడ్డాయి. పరీక్ష సెట్‌లో మార్చి చివరి వారం మరియు సగం ఉంటుంది. లాగ్‌లోని ప్రతి ఎంట్రీలో ఏమి చూపబడింది మరియు ఎవరికి, అలాగే వినియోగదారు ఈ కంటెంట్‌కు ఎలా స్పందించారు అనే దాని గురించి సమాచారాన్ని కలిగి ఉంటుంది: దీన్ని రేట్ చేసారు, వ్యాఖ్యానించారు, విస్మరించారు లేదా ఫీడ్ నుండి దాచారు.
SNA హ్యాకథాన్ యొక్క పనుల యొక్క సారాంశం ఏమిటంటే, సోషల్ నెట్‌వర్క్ ఓడ్నోక్లాస్నికి యొక్క ప్రతి వినియోగదారుకు అతని ఫీడ్‌ను ర్యాంక్ చేయడం, “క్లాస్” పొందే పోస్ట్‌లను వీలైనంత ఎక్కువగా పెంచడం.
ఆన్‌లైన్ దశలో, పని 3 భాగాలుగా విభజించబడింది:
1. వివిధ సహకార లక్షణాల ప్రకారం ర్యాంక్ పోస్ట్‌లు
2. పోస్ట్‌లను కలిగి ఉన్న చిత్రాల ఆధారంగా ర్యాంక్ చేయండి
3. పోస్ట్‌లను కలిగి ఉన్న టెక్స్ట్ ప్రకారం ర్యాంక్ చేయండి
కాంప్లెక్స్ కస్టమ్ మెట్రిక్, ROC-AUC లాంటిది వినియోగదారు ద్వారా సగటు ROC-AUC
మొదటి దశకు బహుమతులు - N స్థానాలకు T- షర్టులు, రెండవ దశకు వెళ్లే మార్గం, ఇక్కడ పోటీ సమయంలో వసతి మరియు భోజనం చెల్లించబడతాయి
రెండవ దశ - ??? (కొన్ని కారణాల వల్ల, నేను అవార్డు వేడుకకు హాజరుకాలేదు మరియు చివరికి బహుమతులు ఏమిటో కనుగొనలేకపోయాను). విజేత జట్టు సభ్యులందరికీ ల్యాప్‌టాప్‌లు ఇస్తామని హామీ ఇచ్చారు
మొదటి దశకు బహుమతులు - 100 మంది ఉత్తమ పాల్గొనేవారికి టీ-షర్టులు, రెండవ దశకు వెళ్లడం, ఇక్కడ మాస్కోకు ప్రయాణం, పోటీ సమయంలో వసతి మరియు భోజనం చెల్లించబడ్డాయి. అలాగే, మొదటి దశ ముగిసే సమయానికి, స్టేజ్ 3లో 1 టాస్క్‌లలో ఉత్తమమైన వాటికి బహుమతులు ప్రకటించబడ్డాయి: ప్రతి ఒక్కరూ RTX 2080 TI వీడియో కార్డ్‌ని గెలుచుకున్నారు!
రెండవ దశ జట్టు దశ, జట్లు 2 నుండి 5 మంది వ్యక్తులను కలిగి ఉంటాయి, బహుమతులు:
1 వ స్థానం - 300 రూబిళ్లు
2 వ స్థానం - 200 రూబిళ్లు
3 వ స్థానం - 100 రూబిళ్లు
జ్యూరీ బహుమతి - 100 రూబిళ్లు
అధికారిక టెలిగ్రామ్ సమూహం, ~190 మంది పాల్గొనేవారు, ఆంగ్లంలో కమ్యూనికేషన్, ప్రశ్నలకు సమాధానం కోసం చాలా రోజులు వేచి ఉండాల్సి వచ్చింది టెలిగ్రామ్‌లో అధికారిక సమూహం, ~ 1500 మంది పాల్గొనేవారు, పాల్గొనేవారు మరియు నిర్వాహకుల మధ్య టాస్క్‌ల క్రియాశీల చర్చ
నిర్వాహకులు సాధారణ మరియు అధునాతనమైన రెండు ప్రాథమిక పరిష్కారాలను అందించారు. సింపుల్‌కి 16 GB కంటే తక్కువ RAM అవసరం మరియు అధునాతన మెమరీ 16కి సరిపోదు. అదే సమయంలో, కొంచెం ముందుకు చూస్తే, పాల్గొనేవారు అధునాతన పరిష్కారాన్ని గణనీయంగా అధిగమించలేకపోయారు. ఈ పరిష్కారాలను ప్రారంభించడంలో ఎలాంటి ఇబ్బందులు లేవు. అధునాతన ఉదాహరణలో పరిష్కారాన్ని మెరుగుపరచడం ఎక్కడ ప్రారంభించాలనే దానిపై సూచనతో ఒక వ్యాఖ్య ఉందని గమనించాలి. ప్రతి పనికి ప్రాథమిక ఆదిమ పరిష్కారాలు అందించబడ్డాయి, వీటిని పాల్గొనేవారు సులభంగా అధిగమించారు. పోటీ ప్రారంభ రోజులలో, పాల్గొనేవారు అనేక ఇబ్బందులను ఎదుర్కొన్నారు: ముందుగా, డేటా అపాచీ పారేకెట్ ఆకృతిలో ఇవ్వబడింది మరియు పైథాన్ మరియు పారేకెట్ ప్యాకేజీ యొక్క అన్ని కలయికలు లోపాలు లేకుండా పని చేయలేదు. రెండవ ఇబ్బంది మెయిల్ క్లౌడ్ నుండి చిత్రాలను డౌన్‌లోడ్ చేయడం; ప్రస్తుతానికి ఒకేసారి పెద్ద మొత్తంలో డేటాను డౌన్‌లోడ్ చేయడానికి సులభమైన మార్గం లేదు. ఫలితంగా, ఈ సమస్యలు పాల్గొనేవారిని రెండు రోజులు ఆలస్యం చేశాయి.

IDAO. మొదటి దశ

మ్యూయాన్ / నాన్-మ్యూన్ కణాలను వాటి లక్షణాల ప్రకారం వర్గీకరించడం పని. ఈ పని యొక్క ముఖ్య లక్షణం శిక్షణ డేటాలో బరువు కాలమ్ ఉండటం, నిర్వాహకులు ఈ పంక్తికి సమాధానంపై విశ్వాసం అని అర్థం చేసుకున్నారు. సమస్య ఏమిటంటే చాలా కొన్ని వరుసలు ప్రతికూల బరువులను కలిగి ఉన్నాయి.

లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

సూచనతో లైన్ గురించి కొన్ని నిమిషాలు ఆలోచించిన తర్వాత (సూచన బరువు కాలమ్ యొక్క ఈ లక్షణానికి దృష్టిని ఆకర్షించింది) మరియు ఈ గ్రాఫ్‌ను రూపొందించిన తర్వాత, మేము 3 ఎంపికలను తనిఖీ చేయాలని నిర్ణయించుకున్నాము:

1) ప్రతికూల బరువులు (మరియు తదనుగుణంగా బరువులు)తో లైన్ల లక్ష్యాన్ని విలోమం చేయండి
2) బరువులను కనీస విలువకు మార్చండి, తద్వారా అవి 0 నుండి ప్రారంభమవుతాయి
3) స్ట్రింగ్ వెయిట్‌లను ఉపయోగించవద్దు

మూడవ ఎంపిక చెత్తగా మారింది, కానీ మొదటి రెండు ఫలితాన్ని మెరుగుపరిచాయి, ఉత్తమమైనది ఎంపిక సంఖ్య 1, ఇది వెంటనే మొదటి పనిలో ప్రస్తుత రెండవ స్థానానికి మరియు రెండవ స్థానంలో మొదటి స్థానంలో నిలిచింది.
లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి
మా తదుపరి దశ తప్పిపోయిన విలువల కోసం డేటాను సమీక్షించడం. నిర్వాహకులు మాకు ఇప్పటికే దువ్వెన డేటాను అందించారు, అక్కడ చాలా తక్కువ విలువలు ఉన్నాయి మరియు వాటి స్థానంలో -9999 ఉన్నాయి.

మేము MatchedHit_{X,Y,Z}[N] మరియు MatchedHit_D{X,Y,Z}[N] నిలువు వరుసలలో తప్పిపోయిన విలువలను కనుగొన్నాము మరియు N=2 లేదా 3 అయినప్పుడు మాత్రమే. మేము అర్థం చేసుకున్నట్లుగా, కొన్ని కణాలు కనిపించలేదు అన్ని 4 డిటెక్టర్‌లను దాటి, 3వ లేదా 4వ ప్లేట్‌లో ఆపివేయండి. డేటా Lextra_{X,Y}[N] నిలువు వరుసలను కూడా కలిగి ఉంది, ఇది MatchedHit_{X,Y,Z}[N] వలె స్పష్టంగా వివరిస్తుంది, కానీ కొన్ని రకాల ఎక్స్‌ట్రాపోలేషన్‌ను ఉపయోగిస్తుంది. ఈ స్వల్ప అంచనాలు MatchedHit_{X,Y,Z}[N] (X మరియు Y కోఆర్డినేట్‌ల కోసం మాత్రమే)లో లేని విలువలకు Lextra_{X,Y}[N]ని ప్రత్యామ్నాయం చేయవచ్చని సూచించాయి. MatchedHit_Z[N] మధ్యస్థంతో బాగా నింపబడింది. ఈ అవకతవకలు రెండు టాస్క్‌లలో 1వ ఇంటర్మీడియట్ స్థానానికి చేరుకోవడానికి మాకు అనుమతినిచ్చాయి.

లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

మొదటి దశలో గెలిచినందుకు వారు ఏమీ ఇవ్వలేదని భావించి, మేము అక్కడే ఆగిపోయాము, కానీ మేము కొనసాగాము, కొన్ని అందమైన చిత్రాలను గీసాము మరియు కొత్త ఫీచర్లతో ముందుకు వచ్చాము.

లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

ఉదాహరణకు, మేము నాలుగు డిటెక్టర్ ప్లేట్‌లలో ప్రతిదానితో ఒక కణం యొక్క ఖండన బిందువులను ప్లాట్ చేస్తే, ప్రతి ప్లేట్‌లోని పాయింట్లు 5 నుండి 4 కారక నిష్పత్తితో 5 దీర్ఘచతురస్రాల్లో సమూహం చేయబడి, మధ్యలో కేంద్రీకృతమై ఉన్నాయని మేము కనుగొన్నాము. పాయింట్ (0,0), మరియు మొదటి దీర్ఘచతురస్రంలో పాయింట్లు లేవు.

ప్లేట్ నం. / దీర్ఘ చతురస్రం కొలతలు 1 2 3 4 5
ప్లేట్ 1 500h625 1000h1250 2000h2500 4000h5000 8000h10000
ప్లేట్ 2 520h650 1040h1300 2080h2600 4160h5200 8320h10400
ప్లేట్ 3 560h700 1120h1400 2240h2800 4480h5600 8960h11200
ప్లేట్ 4 600h750 1200h1500 2400h3000 4800h6000 9600h12000

ఈ కొలతలు నిర్ణయించిన తర్వాత, మేము ప్రతి కణానికి 4 కొత్త వర్గీకరణ లక్షణాలను జోడించాము - ఇది ప్రతి ప్లేట్‌ను కలుస్తున్న దీర్ఘచతురస్రం సంఖ్య.

లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

కణాలు కేంద్రం నుండి వైపులా చెల్లాచెదురుగా ఉన్నట్లు మేము గమనించాము మరియు ఈ వికీర్ణం యొక్క “నాణ్యత” ను ఎలాగైనా అంచనా వేయాలనే ఆలోచన తలెత్తింది. ఆదర్శవంతంగా, టేకాఫ్ పాయింట్‌ను బట్టి ఒకరకమైన "ఆదర్శ" పారాబొలాతో ముందుకు రావడం మరియు దాని నుండి విచలనాన్ని అంచనా వేయడం సాధ్యమవుతుంది, అయితే మేము "ఆదర్శ" సరళ రేఖకు పరిమితం చేసాము. ప్రవేశం యొక్క ప్రతి బిందువుకు అటువంటి ఆదర్శవంతమైన సరళ రేఖలను నిర్మించడం ద్వారా, మేము ఈ సరళ రేఖ నుండి ప్రతి కణం యొక్క పథం యొక్క ప్రామాణిక విచలనాన్ని లెక్కించగలిగాము. లక్ష్యం = 1కి సగటు విచలనం 152, మరియు లక్ష్యం = 0కి ఇది 390 కాబట్టి, మేము ఈ లక్షణాన్ని మంచిదని తాత్కాలికంగా అంచనా వేసాము. మరియు నిజానికి, ఈ ఫీచర్ వెంటనే అత్యంత ఉపయోగకరమైన వాటిలో అగ్రస్థానానికి చేరుకుంది.

మేము సంతోషించాము మరియు ఆదర్శ సరళ రేఖ నుండి ప్రతి కణానికి మొత్తం 4 ఖండన పాయింట్ల విచలనాన్ని అదనపు 4 లక్షణాలుగా జోడించాము (మరియు అవి కూడా బాగా పనిచేశాయి).

పోటీ అంశంపై శాస్త్రీయ కథనాలకు లింక్‌లు, నిర్వాహకులు మాకు అందించారు, ఈ సమస్యను పరిష్కరించడానికి మేము మొదటి నుండి దూరంగా ఉన్నాము మరియు బహుశా ఒకరకమైన ప్రత్యేక సాఫ్ట్‌వేర్ ఉంది అనే ఆలోచనను ప్రేరేపించింది. IsMuonSimple, IsMuon, IsMuonLoose పద్ధతులు అమలు చేయబడిన గితుబ్‌లో రిపోజిటరీని కనుగొన్న తర్వాత, మేము వాటిని చిన్న మార్పులతో మా సైట్‌కు బదిలీ చేసాము. పద్ధతులు చాలా సరళంగా ఉన్నాయి: ఉదాహరణకు, శక్తి ఒక నిర్దిష్ట థ్రెషోల్డ్ కంటే తక్కువగా ఉంటే, అది మ్యూయాన్ కాదు, లేకుంటే అది మ్యూయాన్. ఇటువంటి సాధారణ లక్షణాలు స్పష్టంగా గ్రేడియంట్ బూస్టింగ్‌ను ఉపయోగించుకునే విషయంలో పెరుగుదలను ఇవ్వలేవు, కాబట్టి మేము థ్రెషోల్డ్‌కు మరొక ముఖ్యమైన “దూరం”ని జోడించాము. ఈ ఫీచర్లు కూడా కొద్దిగా మెరుగుపరచబడ్డాయి. బహుశా, ఇప్పటికే ఉన్న పద్ధతులను మరింత క్షుణ్ణంగా విశ్లేషించడం ద్వారా, బలమైన పద్ధతులను కనుగొని వాటిని సంకేతాలకు జోడించడం సాధ్యమైంది.

పోటీ ముగింపులో, మేము రెండవ సమస్యకు “శీఘ్ర” పరిష్కారాన్ని కొద్దిగా సర్దుబాటు చేసాము; చివరికి, ఇది క్రింది పాయింట్‌లలో బేస్‌లైన్ నుండి భిన్నంగా ఉంటుంది:

  1. ప్రతికూల బరువు ఉన్న వరుసలలో లక్ష్యం తారుమారు చేయబడింది
  2. MatchedHit_{X,Y,Z}[N]లో లేని విలువలు పూరించబడ్డాయి
  3. లోతు 7కి తగ్గించబడింది
  4. అభ్యాస రేటు 0.1కి తగ్గించబడింది (0.19 ఉంది)

ఫలితంగా, మేము మరిన్ని ఫీచర్‌లను ప్రయత్నించాము (చాలా విజయవంతం కాలేదు), ఎంచుకున్న పారామీటర్‌లు మరియు శిక్షణ పొందిన క్యాట్‌బూస్ట్, లైట్‌జిబిఎమ్ మరియు ఎక్స్‌జిబూస్ట్, విభిన్న అంచనాల కలయికలను ప్రయత్నించాము మరియు ప్రైవేట్‌ను తెరవడానికి ముందు మేము రెండవ పనిలో నమ్మకంగా గెలిచాము మరియు మొదటిదానిలో మేము వారిలో ఉన్నాము. నాయకులు.

ప్రైవేట్‌ని తెరిచిన తర్వాత మేము 10వ టాస్క్‌లో 1వ స్థానంలో మరియు రెండవ స్థానంలో 3వ స్థానంలో ఉన్నాము. నాయకులందరూ కలగజేసుకున్నారు మరియు లిబ్‌బోర్డ్‌లో కంటే ప్రైవేట్‌లో వేగం ఎక్కువగా ఉంది. డేటా పేలవంగా స్తరీకరించబడినట్లు కనిపిస్తోంది (లేదా ఉదాహరణకు ప్రైవేట్‌లో ప్రతికూల బరువులు ఉన్న అడ్డు వరుసలు లేవు) మరియు ఇది కొంచెం నిరాశపరిచింది.

SNA హ్యాకథాన్ 2019 - టెక్స్ట్‌లు. మొదటి దశ

Odnoklassniki సోషల్ నెట్‌వర్క్‌లోని వినియోగదారు పోస్ట్‌లను కలిగి ఉన్న టెక్స్ట్ ఆధారంగా ర్యాంక్ చేయడం పని; టెక్స్ట్‌తో పాటు, పోస్ట్ యొక్క మరికొన్ని లక్షణాలు (భాష, యజమాని, సృష్టించిన తేదీ మరియు సమయం, తేదీ మరియు వీక్షణ సమయం )

టెక్స్ట్‌తో పనిచేయడానికి శాస్త్రీయ విధానాలుగా, నేను రెండు ఎంపికలను హైలైట్ చేస్తాను:

  1. ప్రతి పదాన్ని n-డైమెన్షనల్ వెక్టర్ స్పేస్‌లోకి మ్యాపింగ్ చేయడం అంటే సారూప్య పదాలు ఒకే విధమైన వెక్టర్‌లను కలిగి ఉంటాయి (మరింత చదవండి మా వ్యాసం), ఆపై టెక్స్ట్ కోసం సగటు పదాన్ని కనుగొనడం లేదా పదాల సంబంధిత స్థానాన్ని (CNN, LSTM/GRU) పరిగణనలోకి తీసుకునే మెకానిజమ్‌లను ఉపయోగించడం.
  2. పూర్తి వాక్యాలతో వెంటనే పని చేయగల నమూనాలను ఉపయోగించడం. ఉదాహరణకు, బెర్ట్. సిద్ధాంతపరంగా, ఈ విధానం మెరుగ్గా పని చేయాలి.

టెక్ట్స్‌తో ఇది నా మొదటి అనుభవం కాబట్టి, ఎవరికైనా నేర్పించడం తప్పు, కాబట్టి నేనే నేర్పిస్తాను. పోటీ ప్రారంభంలో నేను ఇచ్చే చిట్కాలు ఇవి:

  1. మీరు ఏదైనా బోధించడానికి పరుగెత్తే ముందు, డేటాను చూడండి! టెక్స్ట్‌తో పాటు, డేటా అనేక నిలువు వరుసలను కలిగి ఉంది మరియు వాటి నుండి నేను చేసినదానికంటే చాలా ఎక్కువ పిండడం సాధ్యమైంది. కొన్ని నిలువు వరుసల కోసం లక్ష్య ఎన్‌కోడింగ్ చేయడం చాలా సులభమైన విషయం.
  2. అన్ని డేటా నుండి నేర్చుకోవద్దు! చాలా డేటా (సుమారు 17 మిలియన్ వరుసలు) ఉంది మరియు పరికల్పనలను పరీక్షించడానికి వాటన్నింటినీ ఉపయోగించడం ఖచ్చితంగా అవసరం లేదు. శిక్షణ మరియు ప్రీప్రాసెసింగ్ చాలా నెమ్మదిగా ఉన్నాయి మరియు మరింత ఆసక్తికరమైన పరికల్పనలను పరీక్షించడానికి నాకు స్పష్టంగా సమయం ఉండేది.
  3. <వివాదాస్పద సలహా> కిల్లర్ మోడల్ కోసం వెతకాల్సిన అవసరం లేదు. ఎల్మో మరియు బెర్ట్‌లను గుర్తించడానికి నేను చాలా కాలం గడిపాను, వారు నన్ను వెంటనే ఉన్నత స్థానానికి తీసుకెళ్తారని ఆశించాను మరియు ఫలితంగా నేను రష్యన్ భాష కోసం ఫాస్ట్‌టెక్స్ట్ ప్రీ-ట్రైన్డ్ ఎంబెడ్డింగ్‌లను ఉపయోగించాను. నేను ఎల్మోతో మెరుగైన వేగాన్ని సాధించలేకపోయాను మరియు బెర్ట్‌తో దాన్ని గుర్తించడానికి నాకు ఇంకా సమయం లేదు.
  4. <వివాదాస్పద సలహా> ఒక కిల్లర్ ఫీచర్ కోసం వెతకవలసిన అవసరం లేదు. డేటాను పరిశీలిస్తే, దాదాపు 1 శాతం టెక్స్ట్‌లు వాస్తవానికి టెక్స్ట్‌ను కలిగి లేవని నేను గమనించాను! కానీ కొన్ని వనరులకు లింక్‌లు ఉన్నాయి మరియు నేను సైట్‌ను తెరిచి టైటిల్ మరియు వివరణను తీసివేసే సాధారణ పార్సర్‌ని వ్రాసాను. ఇది మంచి ఆలోచనగా అనిపించింది, కానీ నేను దూరంగా ఉన్నాను మరియు అన్ని టెక్స్ట్‌ల కోసం అన్ని లింక్‌లను అన్వయించాలని నిర్ణయించుకున్నాను మరియు మళ్లీ చాలా సమయం కోల్పోయాను. ఇవన్నీ తుది ఫలితంలో గణనీయమైన మెరుగుదలని అందించలేదు (ఉదాహరణకు, నేను స్టెమ్మింగ్‌ని కనుగొన్నప్పటికీ).
  5. క్లాసిక్ లక్షణాలు పని చేస్తాయి. మేము Google, ఉదాహరణకు, “టెక్స్ట్ ఫీచర్స్ కాగ్లే”, ప్రతిదీ చదివి, జోడించండి. TF-IDF టెక్స్ట్ పొడవు, పదాలు మరియు విరామ చిహ్నాల మొత్తం వంటి గణాంక లక్షణాల వలె మెరుగుదలని అందించింది.
  6. DateTime నిలువు వరుసలు ఉన్నట్లయితే, వాటిని అనేక ప్రత్యేక ఫీచర్లుగా (గంటలు, వారంలోని రోజులు మొదలైనవి) అన్వయించడం విలువైనదే. గ్రాఫ్‌లు/కొన్ని మెట్రిక్‌లను ఉపయోగించి ఏ ఫీచర్లను హైలైట్ చేయాలి అని విశ్లేషించాలి. ఇక్కడ, ఒక ఇష్టానుసారం, నేను ప్రతిదీ సరిగ్గా చేసాను మరియు అవసరమైన లక్షణాలను హైలైట్ చేసాను, కానీ సాధారణ విశ్లేషణ బాధించదు (ఉదాహరణకు, మేము ఫైనల్లో చేసినట్లు).

లార్జ్ హాడ్రాన్ కొలైడర్ మరియు ఓడ్నోక్లాస్నికి

పోటీ ఫలితంగా, నేను ఒక కేరాస్ మోడల్‌ను వర్డ్ కన్వల్యూషన్‌తో మరియు మరొకటి LSTM మరియు GRU ఆధారంగా శిక్షణ ఇచ్చాను. ఇద్దరూ రష్యన్ భాష కోసం ముందుగా శిక్షణ పొందిన ఫాస్ట్‌టెక్స్ట్ ఎంబెడ్డింగ్‌లను ఉపయోగించారు (నేను అనేక ఇతర ఎంబెడ్డింగ్‌లను ప్రయత్నించాను, కానీ ఇవి ఉత్తమంగా పనిచేసినవి). అంచనాల సగటు తర్వాత, నేను 7 మంది పాల్గొనేవారిలో చివరి 76వ స్థానంలో నిలిచాను.

మొదటి దశ తర్వాత అది ప్రచురించబడింది నికోలాయ్ అనోఖిన్ వ్యాసం, అతను రెండవ స్థానంలో నిలిచాడు (అతను పోటీలో పాల్గొనలేదు), మరియు కొన్ని దశల వరకు అతని పరిష్కారం గనిని పునరావృతం చేసింది, అయితే అతను ప్రశ్న-కీ-విలువ అటెన్షన్ మెకానిజం కారణంగా మరింత ముందుకు వెళ్ళాడు.

రెండవ దశ సరే & IDAO

పోటీల యొక్క రెండవ దశలు దాదాపు వరుసగా జరిగాయి, కాబట్టి నేను వాటిని కలిసి చూడాలని నిర్ణయించుకున్నాను.

మొదట, నేను మరియు కొత్తగా సంపాదించిన బృందం Mail.ru కంపెనీ యొక్క ఆకట్టుకునే కార్యాలయంలో ముగించాము, ఇక్కడ మా పని మొదటి దశ నుండి మూడు ట్రాక్‌ల నమూనాలను కలపడం - టెక్స్ట్, చిత్రాలు మరియు కొల్లాబ్. దీని కోసం 2 రోజుల కంటే కొంచెం ఎక్కువ సమయం కేటాయించబడింది, ఇది చాలా తక్కువగా మారింది. వాస్తవానికి, మేము విలీనం నుండి ఎటువంటి లాభాలను పొందకుండా మొదటి దశ నుండి మాత్రమే మా ఫలితాలను పునరావృతం చేయగలిగాము. చివరికి, మేము 5వ స్థానంలో నిలిచాము, కానీ మేము టెక్స్ట్ మోడల్‌ని ఉపయోగించలేకపోయాము. ఇతర పాల్గొనేవారి పరిష్కారాలను చూసిన తర్వాత, టెక్స్ట్‌లను క్లస్టర్ చేయడానికి మరియు వాటిని కొల్లాబ్ మోడల్‌కి జోడించడానికి ప్రయత్నించడం విలువైనదేనని అనిపిస్తుంది. ఈ దశ యొక్క దుష్ప్రభావం కొత్త ఇంప్రెషన్‌లు, కూల్ పార్టిసిపెంట్‌లు మరియు ఆర్గనైజర్‌లతో సమావేశం మరియు కమ్యూనికేట్ చేయడం, అలాగే తీవ్రమైన నిద్ర లేకపోవడం, ఇది IDAO యొక్క చివరి దశ ఫలితాన్ని ప్రభావితం చేసి ఉండవచ్చు.

IDAO 2019 చివరి దశలో ఎయిర్‌పోర్ట్‌లో Yandex టాక్సీ డ్రైవర్‌ల కోసం ఆర్డర్ కోసం వేచి ఉండే సమయాన్ని అంచనా వేయడం. 2వ దశలో, 3 పనులు = 3 విమానాశ్రయాలు గుర్తించబడ్డాయి. ప్రతి విమానాశ్రయానికి, ఆరు నెలల టాక్సీ ఆర్డర్‌ల సంఖ్యపై నిమిషానికి-నిమిషానికి డేటా ఇవ్వబడుతుంది. మరియు పరీక్ష డేటాగా, గత 2 వారాల ఆర్డర్‌లపై వచ్చే నెల మరియు నిమిషం వారీ డేటా ఇవ్వబడింది. తక్కువ సమయం ఉంది (1,5 రోజులు), పని చాలా నిర్దిష్టంగా ఉంది, జట్టు నుండి ఒక వ్యక్తి మాత్రమే పోటీకి వచ్చారు - ఫలితంగా, ఇది చివరి వరకు విచారకరమైన ప్రదేశం. ఆసక్తికరమైన ఆలోచనలు బాహ్య డేటాను ఉపయోగించే ప్రయత్నాలను కలిగి ఉన్నాయి: వాతావరణం, ట్రాఫిక్ జామ్‌లు మరియు Yandex టాక్సీ ఆర్డర్ గణాంకాలు. ఈ విమానాశ్రయాలు ఏమిటో నిర్వాహకులు చెప్పనప్పటికీ, చాలా మంది పాల్గొనేవారు అవి షెరెమెటీవో, డోమోడెడోవో మరియు వ్నుకోవో అని భావించారు. పోటీ తర్వాత ఈ ఊహ తిరస్కరించబడినప్పటికీ, లక్షణాలు, ఉదాహరణకు, మాస్కో వాతావరణ డేటా నుండి ధృవీకరణ మరియు లీడర్‌బోర్డ్‌లో ఫలితాలను మెరుగుపరిచాయి.

తీర్మానం

  1. ML పోటీలు చల్లగా మరియు ఆసక్తికరంగా ఉన్నాయి! ఇక్కడ మీరు డేటా విశ్లేషణలో మరియు మోసపూరిత నమూనాలు మరియు సాంకేతికతలలో నైపుణ్యాల వినియోగాన్ని కనుగొంటారు మరియు ఇంగితజ్ఞానం స్వాగతం.
  2. ML అనేది ఇప్పటికే విపరీతంగా పెరుగుతున్నట్లు కనిపించే ఒక భారీ జ్ఞానం. నేను వివిధ ప్రాంతాలతో (సిగ్నల్స్, చిత్రాలు, పట్టికలు, టెక్స్ట్) పరిచయం పొందడానికి ఒక లక్ష్యాన్ని నిర్దేశించుకున్నాను మరియు అధ్యయనం ఎంత ఉందో ఇప్పటికే గ్రహించాను. ఉదాహరణకు, ఈ పోటీల తర్వాత నేను అధ్యయనం చేయాలని నిర్ణయించుకున్నాను: క్లస్టరింగ్ అల్గారిథమ్‌లు, గ్రేడియంట్ బూస్టింగ్ లైబ్రరీలతో (ముఖ్యంగా, GPUలో క్యాట్‌బూస్ట్‌తో పని చేయడం), క్యాప్సూల్ నెట్‌వర్క్‌లు, క్వెరీ-కీ-వాల్యూ అటెన్షన్ మెకానిజంతో పని చేయడానికి అధునాతన పద్ధతులు.
  3. కాగ్లే ద్వారా మాత్రమే కాదు! అనేక ఇతర పోటీలు ఉన్నాయి, ఇక్కడ కనీసం T- షర్టును పొందడం సులభం మరియు ఇతర బహుమతులకు ఎక్కువ అవకాశాలు ఉన్నాయి.
  4. కమ్యూనికేట్ చేయండి! మెషిన్ లెర్నింగ్ మరియు డేటా విశ్లేషణ రంగంలో ఇప్పటికే పెద్ద సంఘం ఉంది, Mail.ru, Yandex మరియు ఇతర సంస్థల నుండి టెలిగ్రామ్, స్లాక్ మరియు తీవ్రమైన వ్యక్తులలో నేపథ్య సమూహాలు ఉన్నాయి మరియు ప్రశ్నలకు సమాధానమివ్వడం మరియు ప్రారంభకులకు మరియు ఈ రంగంలో వారి మార్గాన్ని కొనసాగించే వారికి సహాయం చేస్తుంది. జ్ఞానం యొక్క.
  5. మునుపటి పాయింట్ నుండి ప్రేరణ పొందిన ప్రతి ఒక్కరినీ సందర్శించమని నేను సలహా ఇస్తున్నాను డేటాఫెస్ట్ - మాస్కోలో మే 10-11 తేదీలలో జరిగే ప్రధాన ఉచిత సమావేశం.

మూలం: www.habr.com

ఒక వ్యాఖ్యను జోడించండి