Paano ako nag-organisa ng machine learning na pagsasanay sa NSU

Ang pangalan ko ay Sasha at gustung-gusto ko ang pag-aaral ng makina pati na rin ang pagtuturo sa mga tao. Ngayon ay pinangangasiwaan ko ang mga programang pang-edukasyon sa Computer Science Center at pinamamahalaan ang programa ng bachelor sa pagsusuri ng data sa St. Petersburg State University. Bago iyon, nagtrabaho siya bilang isang analyst sa Yandex, at kahit na mas maaga bilang isang siyentipiko: siya ay nakikibahagi sa mathematical modeling sa Institute of Computer Science ng SB RAS.

Sa post na ito gusto kong sabihin sa iyo kung ano ang nagmula sa ideya ng paglulunsad ng pagsasanay sa pag-aaral ng makina para sa mga mag-aaral, nagtapos ng Novosibirsk State University at lahat ng iba pa.

Paano ako nag-organisa ng machine learning na pagsasanay sa NSU

Matagal ko nang gustong mag-organisa ng isang espesyal na kurso sa paghahanda para sa mga kumpetisyon sa pagsusuri ng data sa Kaggle at iba pang mga platform. Ito ay tila isang magandang ideya:

  • Ang mga mag-aaral at sinumang interesado ay maglalapat ng teoretikal na kaalaman sa pagsasanay at magkakaroon ng karanasan sa paglutas ng mga problema sa mga pampublikong kumpetisyon.
  • Ang mga mag-aaral na nangunguna sa naturang mga kumpetisyon ay may magandang epekto sa pagiging kaakit-akit ng NSU para sa mga aplikante, estudyante at nagtapos. Ang parehong bagay ay nangyayari sa pagsasanay sa sports programming.
  • Ang espesyal na kursong ito ay perpektong umaakma at nagpapalawak ng pangunahing kaalaman: ang mga kalahok ay nakapag-iisa na nagpapatupad ng mga modelo ng machine learning at kadalasang bumubuo ng mga koponan na nakikipagkumpitensya sa pandaigdigang antas.
  • Ang ibang mga unibersidad ay nagsagawa na ng ganitong pagsasanay, kaya umaasa ako sa tagumpay ng espesyal na kurso sa NSU.

Ilunsad

Ang Akademgorodok ng Novosibirsk ay may napakayabong na lupa para sa gayong mga pagsisikap: mga mag-aaral, nagtapos at guro ng Computer Science Center at malakas na mga teknikal na kasanayan, halimbawa, FIT, MMF, FF, malakas na suporta ng pangangasiwa ng NSU, isang aktibong komunidad ng ODS, mga bihasang inhinyero at mga analyst mula sa iba't ibang kumpanya ng IT. Sa parehong oras, natutunan namin ang tungkol sa programa ng pagbibigay mula sa Botan Investments β€” sinusuportahan ng pondo ang mga koponan na nagpapakita ng magagandang resulta sa mga paligsahan sa palakasan ng ML.

Nakahanap kami ng audience sa NSU para sa lingguhang pagpupulong, gumawa ng chat sa Telegram, at inilunsad noong Oktubre 1 kasama ang mga mag-aaral at nagtapos ng CS center. 19 na tao ang dumating sa unang aralin. Anim sa kanila ang naging regular na kalahok sa pagsasanay. Sa kabuuan, 31 tao ang dumating sa pulong nang hindi bababa sa isang beses sa panahon ng akademikong taon.

Unang mga resulta

Nagkita kami ng mga lalaki, nagpalitan ng mga karanasan, napag-usapan ang mga kumpetisyon at isang magaspang na plano para sa hinaharap. Mabilis naming napagtanto na ang pakikipaglaban para sa mga lugar sa mga kumpetisyon sa pagsusuri ng data ay regular, nakakapagod na trabaho, katulad ng walang bayad na full-time na trabaho, ngunit napaka-interesante at kapana-panabik πŸ™‚ Pinayuhan kami ng isa sa mga kalahok, si Kaggle-master Maxim, na mag-advance muna sa mga kumpetisyon nang paisa-isa. , at pagkaraan lamang ng ilang linggo ay magkaisa sa mga koponan, na isinasaalang-alang ang pampublikong marka. Iyon ang ginawa namin! Sa panahon ng harapang pagsasanay, tinalakay namin ang mga modelo, artikulong pang-agham, at mga sali-salimuot ng mga aklatan ng Python, at sabay naming nilutas ang mga problema.

Ang mga resulta ng semestre ng taglagas ay tatlong pilak na medalya sa dalawang kumpetisyon sa Kaggle: TGS Salt Identification ΠΈ PLAsTiCC Astronomical Classification. At isang ikatlong puwesto sa kumpetisyon ng CFT para sa pagwawasto ng mga typo sa unang pera na napanalunan (sa pera, gaya ng sinasabi ng mga nakaranasang kegler).

Ang isa pang napakahalagang hindi direktang resulta ng espesyal na kurso ay ang paglulunsad at pagsasaayos ng kumpol ng NSU VKI. Ang kapangyarihan nito sa pag-compute ay makabuluhang napabuti ang aming buhay sa kompetisyon: 40 CPU, 755Gb RAM, 8 NVIDIA Tesla V100 GPU.

Paano ako nag-organisa ng machine learning na pagsasanay sa NSU

Bago iyon, nakaligtas kami sa abot ng aming makakaya: nagkalkula kami sa mga personal na laptop at desktop, sa Google Colab at sa Kaggle-kernels. Ang isang team ay nagkaroon pa nga ng self-written na script na awtomatikong nag-save ng modelo at nag-restart ng pagkalkula na huminto dahil sa limitasyon sa oras.

Sa semestre ng tagsibol, nagpatuloy kami sa pagtitipon, pagpapalitan ng mga matagumpay na natuklasan at pag-uusap tungkol sa aming mga solusyon sa kompetisyon. Nagsimulang lumapit sa amin ang mga bagong interesadong kalahok. Sa panahon ng semestre ng tagsibol, nakuha namin ang isang ginto, tatlong pilak at siyam na tanso sa walong kumpetisyon sa Kaggle: PetFinder, Santander, Resolusyon sa kasarian, Pagkakakilanlan ng Balyena, Quora, Google Landmarks at iba pa, bronze in Recco challenge, ikatlong pwesto sa Changellenge>>Cup at unang pwesto (muli sa pera) sa machine learning competition sa kampeonato sa programming mula sa Yandex.

Ano ang sinasabi ng mga kalahok sa pagsasanay

Mikhail Karchevsky
"Natutuwa ako na ang mga ganitong aktibidad ay isinasagawa dito sa Siberia, dahil naniniwala ako na ang pakikilahok sa mga kumpetisyon ay ang pinakamabilis na paraan upang makabisado ang ML. Para sa gayong mga kumpetisyon, ang hardware ay medyo mahal upang bilhin ang iyong sarili, ngunit dito maaari mong subukan ang mga ideya nang libre.

Kirill Brodt
"Bago ang pagdating ng pagsasanay sa ML, hindi ako partikular na lumahok sa mga kumpetisyon maliban sa pagsasanay at mga kumpetisyon sa Hindu: Hindi ko nakita ang punto nito, dahil mayroon akong trabaho sa larangan ng ML, at pamilyar ako dito. Unang semestre na pinasukan ko bilang isang estudyante. At simula sa ikalawang semestre, sa sandaling magagamit ang mga mapagkukunan ng computing, naisip ko, bakit hindi sumali. At na-hook ako nito. Ang gawain, data at sukatan ay naimbento at inihanda para sa iyo, magpatuloy at gamitin ang buong kapangyarihan ng MO, suriin ang mga makabagong modelo at diskarte. Kung hindi ito para sa pagsasanay at, tulad ng mahalaga, ang mga mapagkukunan ng computing, hindi ako magsisimulang lumahok sa lalong madaling panahon."

Andrey Shevelev
β€œNakatulong sa akin ang pagsasanay sa personal na ML na makahanap ng mga taong katulad ng pag-iisip, kung saan napalalim ko ang aking kaalaman sa larangan ng machine learning at pagsusuri ng data. Ito rin ay isang mahusay na pagpipilian para sa mga walang maraming libreng oras upang independiyenteng pag-aralan at isawsaw ang kanilang sarili sa paksa ng mga kumpetisyon, ngunit nais pa ring maging sa paksa.

Sumali ka

Ang mga kumpetisyon sa Kaggle at iba pang mga platform ay humahasa sa mga praktikal na kasanayan at mabilis na nagko-convert sa kawili-wiling gawain sa larangan ng data science. Ang mga taong nakibahagi sa isang mahirap na kumpetisyon nang magkasama ay madalas na nagiging mga kasamahan at patuloy na matagumpay na nilulutas ang mga problemang nauugnay sa trabaho. Nangyari din ito sa amin: Si Mikhail Karchevsky, kasama ang isang kaibigan mula sa koponan, ay nagtrabaho para sa parehong kumpanya sa isang sistema ng rekomendasyon.

Sa paglipas ng panahon, pinaplano naming palawakin ang aktibidad na ito sa pamamagitan ng mga siyentipikong publikasyon at pakikilahok sa mga machine learning conference. Sumali sa amin bilang mga kalahok o eksperto sa Novosibirsk - magsulat sa akin o Si Kirill. Ayusin ang katulad na pagsasanay sa iyong mga lungsod at unibersidad.

Narito ang isang maliit na cheat sheet upang matulungan kang gawin ang iyong mga unang hakbang:

  1. Isaalang-alang ang isang maginhawang lugar at oras para sa mga regular na klase. Pinakamainam - 1-2 beses sa isang linggo.
  2. Sumulat sa mga potensyal na interesadong kalahok tungkol sa unang pagpupulong. Una sa lahat, ito ay mga mag-aaral ng mga teknikal na unibersidad, mga kalahok sa ODS.
  3. Magsimula ng chat para talakayin ang mga kasalukuyang usapin: Telegram, VK, WhatsApp o anumang iba pang messenger na maginhawa para sa karamihan.
  4. Panatilihin ang isang plano ng aralin na naa-access ng publiko, isang listahan ng mga kumpetisyon at kalahok, at subaybayan ang mga resulta.
  5. Maghanap ng libreng computing power o grant para dito sa mga kalapit na unibersidad, research institute o kumpanya.
  6. KITA!

Pinagmulan: www.habr.com

Magdagdag ng komento