హబ్రేలో మెషిన్ లెర్నింగ్ పోటీల థీమ్ను కొనసాగిస్తూ, మేము పాఠకులకు మరో రెండు ప్లాట్ఫారమ్లను పరిచయం చేయాలనుకుంటున్నాము. అవి ఖచ్చితంగా కాగ్లే అంత పెద్దవి కావు, కానీ అవి ఖచ్చితంగా శ్రద్ధకు అర్హమైనవి.
వ్యక్తిగతంగా, నేను అనేక కారణాల వల్ల కాగ్లేను ఎక్కువగా ఇష్టపడను:
మొదట, అక్కడ పోటీలు తరచుగా చాలా నెలల పాటు కొనసాగుతాయి మరియు చురుకుగా పాల్గొనడానికి చాలా కృషి అవసరం;
రెండవది, పబ్లిక్ కెర్నలు (పబ్లిక్ సొల్యూషన్స్). కాగ్లే అనుచరులు వారిని టిబెటన్ సన్యాసుల ప్రశాంతతతో వ్యవహరించమని సలహా ఇస్తారు, అయితే వాస్తవానికి మీరు ఒకటి లేదా రెండు నెలలుగా పని చేస్తున్నది అకస్మాత్తుగా అందరికీ వెండి పళ్ళెంలో వేయబడినప్పుడు ఇది చాలా అవమానకరం.
అదృష్టవశాత్తూ, మెషిన్ లెర్నింగ్ పోటీలు ఇతర ప్లాట్ఫారమ్లలో నిర్వహించబడతాయి మరియు ఈ పోటీలలో కొన్నింటిని చర్చించడం జరుగుతుంది.
అధికారిక భాష: ఇంగ్లీష్,
నిర్వాహకులు: Yandex, Sberbank, HSE
అధికారిక రష్యన్ భాష,
నిర్వాహకులు: Mail.ru గ్రూప్
ఆన్లైన్ రౌండ్: జనవరి 15 — ఫిబ్రవరి 11, 2019;
ఆన్-సైట్ ఫైనల్: ఏప్రిల్ 4-6, 2019
ఆన్లైన్ - ఫిబ్రవరి 7 నుండి మార్చి 15 వరకు;
ఆఫ్లైన్ - మార్చి 30 నుండి ఏప్రిల్ 1 వరకు.
లార్జ్ హాడ్రాన్ కొలైడర్ (పథం, మొమెంటం మరియు ఇతర సంక్లిష్టమైన భౌతిక పారామితులు)లో ఒక కణం గురించి నిర్దిష్ట డేటా సెట్ని ఉపయోగించి, అది మ్యూయాన్ కాదా అని నిర్ణయించండి
ఈ ప్రకటన నుండి, 2 పనులు గుర్తించబడ్డాయి:
- ఒకదానిలో మీరు మీ అంచనాను పంపవలసి ఉంటుంది,
- మరియు మరొకదానిలో - ప్రిడిక్షన్ కోసం పూర్తి కోడ్ మరియు మోడల్, మరియు అమలు సమయం మరియు మెమరీ వినియోగంపై చాలా కఠినమైన పరిమితులకు లోబడి ఉంటుంది.
SNA హ్యాకథాన్ పోటీ కోసం, ఫిబ్రవరి-మార్చి 2018 కోసం యూజర్ న్యూస్ ఫీడ్లలో ఓపెన్ గ్రూప్ల నుండి కంటెంట్ డిస్ప్లేల లాగ్లు సేకరించబడ్డాయి. పరీక్ష సెట్లో మార్చి చివరి వారం మరియు సగం ఉంటుంది. లాగ్లోని ప్రతి ఎంట్రీలో ఏమి చూపబడింది మరియు ఎవరికి, అలాగే వినియోగదారు ఈ కంటెంట్కు ఎలా స్పందించారు అనే దాని గురించి సమాచారాన్ని కలిగి ఉంటుంది: దీన్ని రేట్ చేసారు, వ్యాఖ్యానించారు, విస్మరించారు లేదా ఫీడ్ నుండి దాచారు.
SNA హ్యాకథాన్ యొక్క పనుల యొక్క సారాంశం ఏమిటంటే, సోషల్ నెట్వర్క్ ఓడ్నోక్లాస్నికి యొక్క ప్రతి వినియోగదారుకు అతని ఫీడ్ను ర్యాంక్ చేయడం, “క్లాస్” పొందే పోస్ట్లను వీలైనంత ఎక్కువగా పెంచడం.
ఆన్లైన్ దశలో, పని 3 భాగాలుగా విభజించబడింది:
1. వివిధ సహకార లక్షణాల ప్రకారం ర్యాంక్ పోస్ట్లు
2. పోస్ట్లను కలిగి ఉన్న చిత్రాల ఆధారంగా ర్యాంక్ చేయండి
3. పోస్ట్లను కలిగి ఉన్న టెక్స్ట్ ప్రకారం ర్యాంక్ చేయండి
కాంప్లెక్స్ కస్టమ్ మెట్రిక్, ROC-AUC లాంటిది
వినియోగదారు ద్వారా సగటు ROC-AUC
మొదటి దశకు బహుమతులు - N స్థానాలకు T- షర్టులు, రెండవ దశకు వెళ్లే మార్గం, ఇక్కడ పోటీ సమయంలో వసతి మరియు భోజనం చెల్లించబడతాయి
రెండవ దశ - ??? (కొన్ని కారణాల వల్ల, నేను అవార్డు వేడుకకు హాజరుకాలేదు మరియు చివరికి బహుమతులు ఏమిటో కనుగొనలేకపోయాను). విజేత జట్టు సభ్యులందరికీ ల్యాప్టాప్లు ఇస్తామని హామీ ఇచ్చారు
మొదటి దశకు బహుమతులు - 100 మంది ఉత్తమ పాల్గొనేవారికి టీ-షర్టులు, రెండవ దశకు వెళ్లడం, ఇక్కడ మాస్కోకు ప్రయాణం, పోటీ సమయంలో వసతి మరియు భోజనం చెల్లించబడ్డాయి. అలాగే, మొదటి దశ ముగిసే సమయానికి, స్టేజ్ 3లో 1 టాస్క్లలో ఉత్తమమైన వాటికి బహుమతులు ప్రకటించబడ్డాయి: ప్రతి ఒక్కరూ RTX 2080 TI వీడియో కార్డ్ని గెలుచుకున్నారు!
రెండవ దశ జట్టు దశ, జట్లు 2 నుండి 5 మంది వ్యక్తులను కలిగి ఉంటాయి, బహుమతులు:
1 వ స్థానం - 300 రూబిళ్లు
2 వ స్థానం - 200 రూబిళ్లు
3 వ స్థానం - 100 రూబిళ్లు
జ్యూరీ బహుమతి - 100 రూబిళ్లు
అధికారిక టెలిగ్రామ్ సమూహం, ~190 మంది పాల్గొనేవారు, ఆంగ్లంలో కమ్యూనికేషన్, ప్రశ్నలకు సమాధానం కోసం చాలా రోజులు వేచి ఉండాల్సి వచ్చింది
టెలిగ్రామ్లో అధికారిక సమూహం, ~ 1500 మంది పాల్గొనేవారు, పాల్గొనేవారు మరియు నిర్వాహకుల మధ్య టాస్క్ల క్రియాశీల చర్చ
నిర్వాహకులు సాధారణ మరియు అధునాతనమైన రెండు ప్రాథమిక పరిష్కారాలను అందించారు. సింపుల్కి 16 GB కంటే తక్కువ RAM అవసరం మరియు అధునాతన మెమరీ 16కి సరిపోదు. అదే సమయంలో, కొంచెం ముందుకు చూస్తే, పాల్గొనేవారు అధునాతన పరిష్కారాన్ని గణనీయంగా అధిగమించలేకపోయారు. ఈ పరిష్కారాలను ప్రారంభించడంలో ఎలాంటి ఇబ్బందులు లేవు. అధునాతన ఉదాహరణలో పరిష్కారాన్ని మెరుగుపరచడం ఎక్కడ ప్రారంభించాలనే దానిపై సూచనతో ఒక వ్యాఖ్య ఉందని గమనించాలి.
ప్రతి పనికి ప్రాథమిక ఆదిమ పరిష్కారాలు అందించబడ్డాయి, వీటిని పాల్గొనేవారు సులభంగా అధిగమించారు. పోటీ ప్రారంభ రోజులలో, పాల్గొనేవారు అనేక ఇబ్బందులను ఎదుర్కొన్నారు: ముందుగా, డేటా అపాచీ పారేకెట్ ఆకృతిలో ఇవ్వబడింది మరియు పైథాన్ మరియు పారేకెట్ ప్యాకేజీ యొక్క అన్ని కలయికలు లోపాలు లేకుండా పని చేయలేదు. రెండవ ఇబ్బంది మెయిల్ క్లౌడ్ నుండి చిత్రాలను డౌన్లోడ్ చేయడం; ప్రస్తుతానికి ఒకేసారి పెద్ద మొత్తంలో డేటాను డౌన్లోడ్ చేయడానికి సులభమైన మార్గం లేదు. ఫలితంగా, ఈ సమస్యలు పాల్గొనేవారిని రెండు రోజులు ఆలస్యం చేశాయి.
IDAO. మొదటి దశ
మ్యూయాన్ / నాన్-మ్యూన్ కణాలను వాటి లక్షణాల ప్రకారం వర్గీకరించడం పని. ఈ పని యొక్క ముఖ్య లక్షణం శిక్షణ డేటాలో బరువు కాలమ్ ఉండటం, నిర్వాహకులు ఈ పంక్తికి సమాధానంపై విశ్వాసం అని అర్థం చేసుకున్నారు. సమస్య ఏమిటంటే చాలా కొన్ని వరుసలు ప్రతికూల బరువులను కలిగి ఉన్నాయి.
సూచనతో లైన్ గురించి కొన్ని నిమిషాలు ఆలోచించిన తర్వాత (సూచన బరువు కాలమ్ యొక్క ఈ లక్షణానికి దృష్టిని ఆకర్షించింది) మరియు ఈ గ్రాఫ్ను రూపొందించిన తర్వాత, మేము 3 ఎంపికలను తనిఖీ చేయాలని నిర్ణయించుకున్నాము:
1) ప్రతికూల బరువులు (మరియు తదనుగుణంగా బరువులు)తో లైన్ల లక్ష్యాన్ని విలోమం చేయండి
2) బరువులను కనీస విలువకు మార్చండి, తద్వారా అవి 0 నుండి ప్రారంభమవుతాయి
3) స్ట్రింగ్ వెయిట్లను ఉపయోగించవద్దు
మూడవ ఎంపిక చెత్తగా మారింది, కానీ మొదటి రెండు ఫలితాన్ని మెరుగుపరిచాయి, ఉత్తమమైనది ఎంపిక సంఖ్య 1, ఇది వెంటనే మొదటి పనిలో ప్రస్తుత రెండవ స్థానానికి మరియు రెండవ స్థానంలో మొదటి స్థానంలో నిలిచింది.
మా తదుపరి దశ తప్పిపోయిన విలువల కోసం డేటాను సమీక్షించడం. నిర్వాహకులు మాకు ఇప్పటికే దువ్వెన డేటాను అందించారు, అక్కడ చాలా తక్కువ విలువలు ఉన్నాయి మరియు వాటి స్థానంలో -9999 ఉన్నాయి.
మేము MatchedHit_{X,Y,Z}[N] మరియు MatchedHit_D{X,Y,Z}[N] నిలువు వరుసలలో తప్పిపోయిన విలువలను కనుగొన్నాము మరియు N=2 లేదా 3 అయినప్పుడు మాత్రమే. మేము అర్థం చేసుకున్నట్లుగా, కొన్ని కణాలు కనిపించలేదు అన్ని 4 డిటెక్టర్లను దాటి, 3వ లేదా 4వ ప్లేట్లో ఆపివేయండి. డేటా Lextra_{X,Y}[N] నిలువు వరుసలను కూడా కలిగి ఉంది, ఇది MatchedHit_{X,Y,Z}[N] వలె స్పష్టంగా వివరిస్తుంది, కానీ కొన్ని రకాల ఎక్స్ట్రాపోలేషన్ను ఉపయోగిస్తుంది. ఈ స్వల్ప అంచనాలు MatchedHit_{X,Y,Z}[N] (X మరియు Y కోఆర్డినేట్ల కోసం మాత్రమే)లో లేని విలువలకు Lextra_{X,Y}[N]ని ప్రత్యామ్నాయం చేయవచ్చని సూచించాయి. MatchedHit_Z[N] మధ్యస్థంతో బాగా నింపబడింది. ఈ అవకతవకలు రెండు టాస్క్లలో 1వ ఇంటర్మీడియట్ స్థానానికి చేరుకోవడానికి మాకు అనుమతినిచ్చాయి.
మొదటి దశలో గెలిచినందుకు వారు ఏమీ ఇవ్వలేదని భావించి, మేము అక్కడే ఆగిపోయాము, కానీ మేము కొనసాగాము, కొన్ని అందమైన చిత్రాలను గీసాము మరియు కొత్త ఫీచర్లతో ముందుకు వచ్చాము.
ఉదాహరణకు, మేము నాలుగు డిటెక్టర్ ప్లేట్లలో ప్రతిదానితో ఒక కణం యొక్క ఖండన బిందువులను ప్లాట్ చేస్తే, ప్రతి ప్లేట్లోని పాయింట్లు 5 నుండి 4 కారక నిష్పత్తితో 5 దీర్ఘచతురస్రాల్లో సమూహం చేయబడి, మధ్యలో కేంద్రీకృతమై ఉన్నాయని మేము కనుగొన్నాము. పాయింట్ (0,0), మరియు మొదటి దీర్ఘచతురస్రంలో పాయింట్లు లేవు.
ప్లేట్ నం. / దీర్ఘ చతురస్రం కొలతలు
1
2
3
4
5
ప్లేట్ 1
500h625
1000h1250
2000h2500
4000h5000
8000h10000
ప్లేట్ 2
520h650
1040h1300
2080h2600
4160h5200
8320h10400
ప్లేట్ 3
560h700
1120h1400
2240h2800
4480h5600
8960h11200
ప్లేట్ 4
600h750
1200h1500
2400h3000
4800h6000
9600h12000
ఈ కొలతలు నిర్ణయించిన తర్వాత, మేము ప్రతి కణానికి 4 కొత్త వర్గీకరణ లక్షణాలను జోడించాము - ఇది ప్రతి ప్లేట్ను కలుస్తున్న దీర్ఘచతురస్రం సంఖ్య.
కణాలు కేంద్రం నుండి వైపులా చెల్లాచెదురుగా ఉన్నట్లు మేము గమనించాము మరియు ఈ వికీర్ణం యొక్క “నాణ్యత” ను ఎలాగైనా అంచనా వేయాలనే ఆలోచన తలెత్తింది. ఆదర్శవంతంగా, టేకాఫ్ పాయింట్ను బట్టి ఒకరకమైన "ఆదర్శ" పారాబొలాతో ముందుకు రావడం మరియు దాని నుండి విచలనాన్ని అంచనా వేయడం సాధ్యమవుతుంది, అయితే మేము "ఆదర్శ" సరళ రేఖకు పరిమితం చేసాము. ప్రవేశం యొక్క ప్రతి బిందువుకు అటువంటి ఆదర్శవంతమైన సరళ రేఖలను నిర్మించడం ద్వారా, మేము ఈ సరళ రేఖ నుండి ప్రతి కణం యొక్క పథం యొక్క ప్రామాణిక విచలనాన్ని లెక్కించగలిగాము. లక్ష్యం = 1కి సగటు విచలనం 152, మరియు లక్ష్యం = 0కి ఇది 390 కాబట్టి, మేము ఈ లక్షణాన్ని మంచిదని తాత్కాలికంగా అంచనా వేసాము. మరియు నిజానికి, ఈ ఫీచర్ వెంటనే అత్యంత ఉపయోగకరమైన వాటిలో అగ్రస్థానానికి చేరుకుంది.
మేము సంతోషించాము మరియు ఆదర్శ సరళ రేఖ నుండి ప్రతి కణానికి మొత్తం 4 ఖండన పాయింట్ల విచలనాన్ని అదనపు 4 లక్షణాలుగా జోడించాము (మరియు అవి కూడా బాగా పనిచేశాయి).
పోటీ అంశంపై శాస్త్రీయ కథనాలకు లింక్లు, నిర్వాహకులు మాకు అందించారు, ఈ సమస్యను పరిష్కరించడానికి మేము మొదటి నుండి దూరంగా ఉన్నాము మరియు బహుశా ఒకరకమైన ప్రత్యేక సాఫ్ట్వేర్ ఉంది అనే ఆలోచనను ప్రేరేపించింది. IsMuonSimple, IsMuon, IsMuonLoose పద్ధతులు అమలు చేయబడిన గితుబ్లో రిపోజిటరీని కనుగొన్న తర్వాత, మేము వాటిని చిన్న మార్పులతో మా సైట్కు బదిలీ చేసాము. పద్ధతులు చాలా సరళంగా ఉన్నాయి: ఉదాహరణకు, శక్తి ఒక నిర్దిష్ట థ్రెషోల్డ్ కంటే తక్కువగా ఉంటే, అది మ్యూయాన్ కాదు, లేకుంటే అది మ్యూయాన్. ఇటువంటి సాధారణ లక్షణాలు స్పష్టంగా గ్రేడియంట్ బూస్టింగ్ను ఉపయోగించుకునే విషయంలో పెరుగుదలను ఇవ్వలేవు, కాబట్టి మేము థ్రెషోల్డ్కు మరొక ముఖ్యమైన “దూరం”ని జోడించాము. ఈ ఫీచర్లు కూడా కొద్దిగా మెరుగుపరచబడ్డాయి. బహుశా, ఇప్పటికే ఉన్న పద్ధతులను మరింత క్షుణ్ణంగా విశ్లేషించడం ద్వారా, బలమైన పద్ధతులను కనుగొని వాటిని సంకేతాలకు జోడించడం సాధ్యమైంది.
పోటీ ముగింపులో, మేము రెండవ సమస్యకు “శీఘ్ర” పరిష్కారాన్ని కొద్దిగా సర్దుబాటు చేసాము; చివరికి, ఇది క్రింది పాయింట్లలో బేస్లైన్ నుండి భిన్నంగా ఉంటుంది:
ప్రతికూల బరువు ఉన్న వరుసలలో లక్ష్యం తారుమారు చేయబడింది
MatchedHit_{X,Y,Z}[N]లో లేని విలువలు పూరించబడ్డాయి
లోతు 7కి తగ్గించబడింది
అభ్యాస రేటు 0.1కి తగ్గించబడింది (0.19 ఉంది)
ఫలితంగా, మేము మరిన్ని ఫీచర్లను ప్రయత్నించాము (చాలా విజయవంతం కాలేదు), ఎంచుకున్న పారామీటర్లు మరియు శిక్షణ పొందిన క్యాట్బూస్ట్, లైట్జిబిఎమ్ మరియు ఎక్స్జిబూస్ట్, విభిన్న అంచనాల కలయికలను ప్రయత్నించాము మరియు ప్రైవేట్ను తెరవడానికి ముందు మేము రెండవ పనిలో నమ్మకంగా గెలిచాము మరియు మొదటిదానిలో మేము వారిలో ఉన్నాము. నాయకులు.
ప్రైవేట్ని తెరిచిన తర్వాత మేము 10వ టాస్క్లో 1వ స్థానంలో మరియు రెండవ స్థానంలో 3వ స్థానంలో ఉన్నాము. నాయకులందరూ కలగజేసుకున్నారు మరియు లిబ్బోర్డ్లో కంటే ప్రైవేట్లో వేగం ఎక్కువగా ఉంది. డేటా పేలవంగా స్తరీకరించబడినట్లు కనిపిస్తోంది (లేదా ఉదాహరణకు ప్రైవేట్లో ప్రతికూల బరువులు ఉన్న అడ్డు వరుసలు లేవు) మరియు ఇది కొంచెం నిరాశపరిచింది.
SNA హ్యాకథాన్ 2019 - టెక్స్ట్లు. మొదటి దశ
Odnoklassniki సోషల్ నెట్వర్క్లోని వినియోగదారు పోస్ట్లను కలిగి ఉన్న టెక్స్ట్ ఆధారంగా ర్యాంక్ చేయడం పని; టెక్స్ట్తో పాటు, పోస్ట్ యొక్క మరికొన్ని లక్షణాలు (భాష, యజమాని, సృష్టించిన తేదీ మరియు సమయం, తేదీ మరియు వీక్షణ సమయం )
టెక్స్ట్తో పనిచేయడానికి శాస్త్రీయ విధానాలుగా, నేను రెండు ఎంపికలను హైలైట్ చేస్తాను:
ప్రతి పదాన్ని n-డైమెన్షనల్ వెక్టర్ స్పేస్లోకి మ్యాపింగ్ చేయడం అంటే సారూప్య పదాలు ఒకే విధమైన వెక్టర్లను కలిగి ఉంటాయి (మరింత చదవండి మా వ్యాసం), ఆపై టెక్స్ట్ కోసం సగటు పదాన్ని కనుగొనడం లేదా పదాల సంబంధిత స్థానాన్ని (CNN, LSTM/GRU) పరిగణనలోకి తీసుకునే మెకానిజమ్లను ఉపయోగించడం.
పూర్తి వాక్యాలతో వెంటనే పని చేయగల నమూనాలను ఉపయోగించడం. ఉదాహరణకు, బెర్ట్. సిద్ధాంతపరంగా, ఈ విధానం మెరుగ్గా పని చేయాలి.
టెక్ట్స్తో ఇది నా మొదటి అనుభవం కాబట్టి, ఎవరికైనా నేర్పించడం తప్పు, కాబట్టి నేనే నేర్పిస్తాను. పోటీ ప్రారంభంలో నేను ఇచ్చే చిట్కాలు ఇవి:
మీరు ఏదైనా బోధించడానికి పరుగెత్తే ముందు, డేటాను చూడండి! టెక్స్ట్తో పాటు, డేటా అనేక నిలువు వరుసలను కలిగి ఉంది మరియు వాటి నుండి నేను చేసినదానికంటే చాలా ఎక్కువ పిండడం సాధ్యమైంది. కొన్ని నిలువు వరుసల కోసం లక్ష్య ఎన్కోడింగ్ చేయడం చాలా సులభమైన విషయం.
అన్ని డేటా నుండి నేర్చుకోవద్దు! చాలా డేటా (సుమారు 17 మిలియన్ వరుసలు) ఉంది మరియు పరికల్పనలను పరీక్షించడానికి వాటన్నింటినీ ఉపయోగించడం ఖచ్చితంగా అవసరం లేదు. శిక్షణ మరియు ప్రీప్రాసెసింగ్ చాలా నెమ్మదిగా ఉన్నాయి మరియు మరింత ఆసక్తికరమైన పరికల్పనలను పరీక్షించడానికి నాకు స్పష్టంగా సమయం ఉండేది.
<వివాదాస్పద సలహా> కిల్లర్ మోడల్ కోసం వెతకాల్సిన అవసరం లేదు. ఎల్మో మరియు బెర్ట్లను గుర్తించడానికి నేను చాలా కాలం గడిపాను, వారు నన్ను వెంటనే ఉన్నత స్థానానికి తీసుకెళ్తారని ఆశించాను మరియు ఫలితంగా నేను రష్యన్ భాష కోసం ఫాస్ట్టెక్స్ట్ ప్రీ-ట్రైన్డ్ ఎంబెడ్డింగ్లను ఉపయోగించాను. నేను ఎల్మోతో మెరుగైన వేగాన్ని సాధించలేకపోయాను మరియు బెర్ట్తో దాన్ని గుర్తించడానికి నాకు ఇంకా సమయం లేదు.
<వివాదాస్పద సలహా> ఒక కిల్లర్ ఫీచర్ కోసం వెతకవలసిన అవసరం లేదు. డేటాను పరిశీలిస్తే, దాదాపు 1 శాతం టెక్స్ట్లు వాస్తవానికి టెక్స్ట్ను కలిగి లేవని నేను గమనించాను! కానీ కొన్ని వనరులకు లింక్లు ఉన్నాయి మరియు నేను సైట్ను తెరిచి టైటిల్ మరియు వివరణను తీసివేసే సాధారణ పార్సర్ని వ్రాసాను. ఇది మంచి ఆలోచనగా అనిపించింది, కానీ నేను దూరంగా ఉన్నాను మరియు అన్ని టెక్స్ట్ల కోసం అన్ని లింక్లను అన్వయించాలని నిర్ణయించుకున్నాను మరియు మళ్లీ చాలా సమయం కోల్పోయాను. ఇవన్నీ తుది ఫలితంలో గణనీయమైన మెరుగుదలని అందించలేదు (ఉదాహరణకు, నేను స్టెమ్మింగ్ని కనుగొన్నప్పటికీ).
క్లాసిక్ లక్షణాలు పని చేస్తాయి. మేము Google, ఉదాహరణకు, “టెక్స్ట్ ఫీచర్స్ కాగ్లే”, ప్రతిదీ చదివి, జోడించండి. TF-IDF టెక్స్ట్ పొడవు, పదాలు మరియు విరామ చిహ్నాల మొత్తం వంటి గణాంక లక్షణాల వలె మెరుగుదలని అందించింది.
DateTime నిలువు వరుసలు ఉన్నట్లయితే, వాటిని అనేక ప్రత్యేక ఫీచర్లుగా (గంటలు, వారంలోని రోజులు మొదలైనవి) అన్వయించడం విలువైనదే. గ్రాఫ్లు/కొన్ని మెట్రిక్లను ఉపయోగించి ఏ ఫీచర్లను హైలైట్ చేయాలి అని విశ్లేషించాలి. ఇక్కడ, ఒక ఇష్టానుసారం, నేను ప్రతిదీ సరిగ్గా చేసాను మరియు అవసరమైన లక్షణాలను హైలైట్ చేసాను, కానీ సాధారణ విశ్లేషణ బాధించదు (ఉదాహరణకు, మేము ఫైనల్లో చేసినట్లు).
పోటీ ఫలితంగా, నేను ఒక కేరాస్ మోడల్ను వర్డ్ కన్వల్యూషన్తో మరియు మరొకటి LSTM మరియు GRU ఆధారంగా శిక్షణ ఇచ్చాను. ఇద్దరూ రష్యన్ భాష కోసం ముందుగా శిక్షణ పొందిన ఫాస్ట్టెక్స్ట్ ఎంబెడ్డింగ్లను ఉపయోగించారు (నేను అనేక ఇతర ఎంబెడ్డింగ్లను ప్రయత్నించాను, కానీ ఇవి ఉత్తమంగా పనిచేసినవి). అంచనాల సగటు తర్వాత, నేను 7 మంది పాల్గొనేవారిలో చివరి 76వ స్థానంలో నిలిచాను.
మొదటి దశ తర్వాత అది ప్రచురించబడింది నికోలాయ్ అనోఖిన్ వ్యాసం, అతను రెండవ స్థానంలో నిలిచాడు (అతను పోటీలో పాల్గొనలేదు), మరియు కొన్ని దశల వరకు అతని పరిష్కారం గనిని పునరావృతం చేసింది, అయితే అతను ప్రశ్న-కీ-విలువ అటెన్షన్ మెకానిజం కారణంగా మరింత ముందుకు వెళ్ళాడు.
రెండవ దశ సరే & IDAO
పోటీల యొక్క రెండవ దశలు దాదాపు వరుసగా జరిగాయి, కాబట్టి నేను వాటిని కలిసి చూడాలని నిర్ణయించుకున్నాను.
మొదట, నేను మరియు కొత్తగా సంపాదించిన బృందం Mail.ru కంపెనీ యొక్క ఆకట్టుకునే కార్యాలయంలో ముగించాము, ఇక్కడ మా పని మొదటి దశ నుండి మూడు ట్రాక్ల నమూనాలను కలపడం - టెక్స్ట్, చిత్రాలు మరియు కొల్లాబ్. దీని కోసం 2 రోజుల కంటే కొంచెం ఎక్కువ సమయం కేటాయించబడింది, ఇది చాలా తక్కువగా మారింది. వాస్తవానికి, మేము విలీనం నుండి ఎటువంటి లాభాలను పొందకుండా మొదటి దశ నుండి మాత్రమే మా ఫలితాలను పునరావృతం చేయగలిగాము. చివరికి, మేము 5వ స్థానంలో నిలిచాము, కానీ మేము టెక్స్ట్ మోడల్ని ఉపయోగించలేకపోయాము. ఇతర పాల్గొనేవారి పరిష్కారాలను చూసిన తర్వాత, టెక్స్ట్లను క్లస్టర్ చేయడానికి మరియు వాటిని కొల్లాబ్ మోడల్కి జోడించడానికి ప్రయత్నించడం విలువైనదేనని అనిపిస్తుంది. ఈ దశ యొక్క దుష్ప్రభావం కొత్త ఇంప్రెషన్లు, కూల్ పార్టిసిపెంట్లు మరియు ఆర్గనైజర్లతో సమావేశం మరియు కమ్యూనికేట్ చేయడం, అలాగే తీవ్రమైన నిద్ర లేకపోవడం, ఇది IDAO యొక్క చివరి దశ ఫలితాన్ని ప్రభావితం చేసి ఉండవచ్చు.
IDAO 2019 చివరి దశలో ఎయిర్పోర్ట్లో Yandex టాక్సీ డ్రైవర్ల కోసం ఆర్డర్ కోసం వేచి ఉండే సమయాన్ని అంచనా వేయడం. 2వ దశలో, 3 పనులు = 3 విమానాశ్రయాలు గుర్తించబడ్డాయి. ప్రతి విమానాశ్రయానికి, ఆరు నెలల టాక్సీ ఆర్డర్ల సంఖ్యపై నిమిషానికి-నిమిషానికి డేటా ఇవ్వబడుతుంది. మరియు పరీక్ష డేటాగా, గత 2 వారాల ఆర్డర్లపై వచ్చే నెల మరియు నిమిషం వారీ డేటా ఇవ్వబడింది. తక్కువ సమయం ఉంది (1,5 రోజులు), పని చాలా నిర్దిష్టంగా ఉంది, జట్టు నుండి ఒక వ్యక్తి మాత్రమే పోటీకి వచ్చారు - ఫలితంగా, ఇది చివరి వరకు విచారకరమైన ప్రదేశం. ఆసక్తికరమైన ఆలోచనలు బాహ్య డేటాను ఉపయోగించే ప్రయత్నాలను కలిగి ఉన్నాయి: వాతావరణం, ట్రాఫిక్ జామ్లు మరియు Yandex టాక్సీ ఆర్డర్ గణాంకాలు. ఈ విమానాశ్రయాలు ఏమిటో నిర్వాహకులు చెప్పనప్పటికీ, చాలా మంది పాల్గొనేవారు అవి షెరెమెటీవో, డోమోడెడోవో మరియు వ్నుకోవో అని భావించారు. పోటీ తర్వాత ఈ ఊహ తిరస్కరించబడినప్పటికీ, లక్షణాలు, ఉదాహరణకు, మాస్కో వాతావరణ డేటా నుండి ధృవీకరణ మరియు లీడర్బోర్డ్లో ఫలితాలను మెరుగుపరిచాయి.
తీర్మానం
ML పోటీలు చల్లగా మరియు ఆసక్తికరంగా ఉన్నాయి! ఇక్కడ మీరు డేటా విశ్లేషణలో మరియు మోసపూరిత నమూనాలు మరియు సాంకేతికతలలో నైపుణ్యాల వినియోగాన్ని కనుగొంటారు మరియు ఇంగితజ్ఞానం స్వాగతం.
ML అనేది ఇప్పటికే విపరీతంగా పెరుగుతున్నట్లు కనిపించే ఒక భారీ జ్ఞానం. నేను వివిధ ప్రాంతాలతో (సిగ్నల్స్, చిత్రాలు, పట్టికలు, టెక్స్ట్) పరిచయం పొందడానికి ఒక లక్ష్యాన్ని నిర్దేశించుకున్నాను మరియు అధ్యయనం ఎంత ఉందో ఇప్పటికే గ్రహించాను. ఉదాహరణకు, ఈ పోటీల తర్వాత నేను అధ్యయనం చేయాలని నిర్ణయించుకున్నాను: క్లస్టరింగ్ అల్గారిథమ్లు, గ్రేడియంట్ బూస్టింగ్ లైబ్రరీలతో (ముఖ్యంగా, GPUలో క్యాట్బూస్ట్తో పని చేయడం), క్యాప్సూల్ నెట్వర్క్లు, క్వెరీ-కీ-వాల్యూ అటెన్షన్ మెకానిజంతో పని చేయడానికి అధునాతన పద్ధతులు.
కాగ్లే ద్వారా మాత్రమే కాదు! అనేక ఇతర పోటీలు ఉన్నాయి, ఇక్కడ కనీసం T- షర్టును పొందడం సులభం మరియు ఇతర బహుమతులకు ఎక్కువ అవకాశాలు ఉన్నాయి.
కమ్యూనికేట్ చేయండి! మెషిన్ లెర్నింగ్ మరియు డేటా విశ్లేషణ రంగంలో ఇప్పటికే పెద్ద సంఘం ఉంది, Mail.ru, Yandex మరియు ఇతర సంస్థల నుండి టెలిగ్రామ్, స్లాక్ మరియు తీవ్రమైన వ్యక్తులలో నేపథ్య సమూహాలు ఉన్నాయి మరియు ప్రశ్నలకు సమాధానమివ్వడం మరియు ప్రారంభకులకు మరియు ఈ రంగంలో వారి మార్గాన్ని కొనసాగించే వారికి సహాయం చేస్తుంది. జ్ఞానం యొక్క.
మునుపటి పాయింట్ నుండి ప్రేరణ పొందిన ప్రతి ఒక్కరినీ సందర్శించమని నేను సలహా ఇస్తున్నాను డేటాఫెస్ట్ - మాస్కోలో మే 10-11 తేదీలలో జరిగే ప్రధాన ఉచిత సమావేశం.