Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Сёння мы запускаем навуковую прэмію імя Іллі Сегаловіча iseg. Яна будзе прысуджацца за дасягненні ў галіне камп'ютарных навук. Студэнты і аспіранты могуць падаць уласную заяўку на прэмію ці вылучыць навуковых кіраўнікоў. Лаўрэатаў абяруць прадстаўнікі акадэмічнай супольнасці і Яндэкса. Галоўныя крытэрыі адбору: наяўнасць публікацый і выступаў на канферэнцыях, а таксама ўклад у развіццё супольнасці.

Першае ўзнагароджанне адбудзецца ўжо ў красавіку. У рамках прэміі маладыя навукоўцы атрымаюць па 350 тысяч рублёў, а акрамя таго, змогуць паехаць на міжнародную канферэнцыю, папрацаваць з ментарам і прайсці стажыроўку ў аддзеле даследаванняў Яндэкса. Навуковыя кіраўнікі атрымаюць па 700 тысяч рублёў.

З нагоды запуску прэміі мы вырашылі распавесці тут, на Хабры, аб крытэрах поспеху ў свеце кампутарных навук. Частка чытачоў Хабра ўжо знаёмыя з гэтымі крытэрамі, а ў астатніх магло скласціся пра іх ілжывае ўражанне. Сёння мы ўстаранім гэты разрыў - кранем усіх асноўных тэм, уключаючы артыкулы, канферэнцыі, датасеты і перанос навуковых ідэй у сэрвісы.

Для навукоўцаў у вобласці computer science асноўны крытэр поспеху – публікацыя сваёй навуковай працы на адной з топавых міжнародных канферэнцый. Гэта першы "чэкпоінт" прызнання працы даследчыка. Напрыклад, у галіне машыннага навучання ў цэлым вылучаюць International Conference on Machine Learning (ICML) і Conference on Neural Information Processing Systems (NeurIPS, раней NIPS). Ёсць мноства канферэнцый па асобных сферах ML, такім як кампутарны зрок, інфармацыйны пошук, маўленчыя тэхналогіі, машынны пераклад і т. д.

Навошта публікаваць свае ідэі

У далёкіх ад computer science людзей можа скласціся памылка, што лепш трымаць самыя каштоўныя ідэі ў сакрэце і імкнуцца атрымаць выгаду на іх унікальнасці. Аднак рэальная сітуацыя ў нашай сферы роўна адваротная. Аб аўтарытэце вучонага судзяць па значнасці яго работ, па тым, як часта на яго артыкулы спасылаюцца іншыя навукоўцы (індэкс цытуемасці). Гэта важная характарыстыка яго кар'еры. Даследчык прасоўваецца па прафесійных усходах, становячыся больш паважаным у сваім асяроддзі, толькі калі ён увесь час выдае моцныя працы, якія публікуюцца, становяцца вядомымі і кладуцца ў аснову прац іншых навукоўцаў.

Многія топавыя артыкулы (а магчыма, і большасць) – вынік калабарацыі даследчыкаў у розных універсітэтах і кампаній у розных краінах свету. Важным і вельмі каштоўным у кар'еры даследчыка з'яўляецца момант, калі ён атрымлівае магчымасць знаходзіць і адсяваць ідэі самастойна на аснове свайго досведу – але нават пасля гэтага калегі працягваюць аказваць яму неацэнную дапамогу. Навукоўцы дапамагаюць адзін аднаму прапрацоўваць ідэі, пішуць артыкулы ў суаўтарстве – і чым больш уклад вучонага ў навуку, тым прасцей яму знайсці аднадумцаў.

Нарэшце, шчыльнасць і даступнасць інфармацыі зараз настолькі вялікая, што ў розных даследчыкаў адначасова з'яўляюцца вельмі падобныя (і сапраўды каштоўныя) навуковыя ідэі. Калі ідэю не апублікаваць, нехта амаль напэўна апублікуе яе за вас. «Пераможцам» часта аказвае не той, хто прыдумаў навіну крыху раней, а той, хто крыху раней яе апублікаваў. Альбо - той, хто здолеў раскрыць ідэю максімальна поўна, зразумела і пераканаўча.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Артыкулы і наборы дадзеных

Такім чынам, навуковы артыкул будуецца вакол асноўнай ідэі, якую даследчык прапануе. Гэта ідэя - яго ўклад у кампутарныя навукі. Артыкул пачынаецца з апісання ідэі, сфармуляванага ў некалькіх сказах. Затым варта ўступ, дзе апісваецца спектр праблем, развязальных з дапамогай прапанаванай навіны. Апісанне і ўступленне звычайна пішуцца простай мовай, зразумелай для шырокай аўдыторыі. Пасля ўступлення неабходна ўжо матэматычнай мовай фармалізаваць выкладзеныя праблемы, увесці строгія абазначэнні. Затым з дапамогай уведзеных пазначэнняў трэба скласці выразны і вычарпальны выклад сутнасці прапанаванай навіны, пазначыць адрозненні ад папярэдніх, падобных метадаў. Усе тэарэтычныя выкладкі неабходна альбо падмацоўваць спасылкамі на раней складзеныя доказы, альбо даказваць самастойна. Гэта можа быць зроблена з якімі-небудзь здагадкамі. Напрыклад, можна прывесці доказ для выпадку, калі дадзеных у навучанні бясконца шмат (відавочна недасяжная сітуацыя) ці яны цалкам незалежныя сябар ад сябра. Бліжэй да канца артыкула навуковец расказвае пра эксперыментальныя вынікі, якія яму ўдалося атрымаць.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Каб рэцэнзенты, якіх прыцягнулі арганізатары канферэнцыі, з большай верагоднасцю адобрылі артыкул, ён павінен валодаць адным ці некалькімі атрыбутамі. Ключавы фактар, які павялічвае шанцы на адабрэнне, - навуковая навізна прапанаванай ідэі. Часта навізна ацэньваецца адносна ўжо існуючых ідэй - прычым працу па яе ацэнцы выконвае не рэцэнзент, а сам аўтар артыкула. У ідэальным выпадку аўтар павінен разгорнута расказаць у артыкуле пра існуючыя метады і, калі гэта магчыма, прадставіць іх як прыватныя выпадкі свайго метаду. Тым самым вучоны паказвае, што прынятыя падыходы працуюць не заўсёды, што ён іх абагульніў і прапанаваў больш шырокую, гнуткую і таму больш эфектыўную тэарэтычную пастаноўку. Калі навізна бясспрэчная, то ў астатнім рэцэнзенты ацэньваюць артыкул не так прыдзірліва - напрыклад, могуць зачыніць вочы на ​​дрэнны англійская.

Каб падмацаваць навізну, карысна дадаць у артыкул параўнанне з існуючымі метадамі на адным ці некалькіх наборах дадзеных. Кожны з іх павінен быць адкрытым, прынятым у акадэмічным асяроддзі. Да прыкладу, ёсць рэпазітар малюнкаў ImageNet і базы такіх інстытутаў, як Modified National Institute of Standards and Technology (MNIST) і CIFAR (Canadian Institute For Advanced Research). Складанасць у тым, што падобны "акадэмічны" датасет часта адрозніваецца па структуры змесціва ад рэальных дадзеных, з якімі мае справу індустрыя. Розныя дадзеныя - розныя вынікі прапанаванага метаду. Навукоўцы, часткова якія працуюць на індустрыю, імкнуцца ўлічваць гэта і часам устаўляюць агаворкі выгляду "на нашых дадзеных вынік вось такой, а на агульнадаступным датасеты – вось такой".

Бывае, што прапанаваны метад цалкам «вострыць» пад адкрытую базу і не працуе на рэальных дадзеных. Дужацца з гэтай распаўсюджанай праблемай можна, адкрываючы новыя, больш рэпрэзентатыўныя датасеты, але часта гаворка ідзе аб прыватным кантэнце, які кампаніі проста не маюць права адкрыць. У некаторых выпадках яны праводзяць (часам складаную і карпатлівую) ананімізацыю дадзеных - выдаляюць любыя фрагменты, якія паказваюць на канкрэтнага чалавека. Напрыклад, асобы і нумары на фатаграфіях сціраюць або робяць неразборлівымі. Акрамя таго, каб датасет не проста быў даступны ўсім, а стаў стандартам сярод навукоўцаў, на якім зручна параўноўваць ідэі, неабходна не толькі апублікаваць яго, але і напісаць пра яго і яго перавагі асобны цытаваны артыкул.

Горш, калі ў доследнай тэме адсутнічаюць адкрытыя датасеты. Тады рэцэнзенту застаецца прыняць на веру прыведзеныя аўтарам вынікі. Тэарэтычна, аўтар нават можа завысіць іх і застацца непайманым, але ў акадэмічным асяроддзі гэта малаверагодна, паколькі ідзе насуперак імкненню пераважнай большасці навукоўцаў развіваць навуку.

У шэрагу абласцей ML, уключаючы кампутарнае зрок, таксама прынята прымацоўваць да артыкулаў спасылкі на код (звычайна - на GitHub). У саміх артыкулах кода або вельмі мала, або гэта псеўдакод. І тут, ізноў жа, узнікаюць складанасці, калі артыкул пішацца даследнікам з кампаніі, а не з універсітэта. Па змаўчанні код, напісаны ў карпарацыі ці стартапе, носіць грыф NDA. Даследчыкам і іх калегам даводзіцца прыкладаць нямала намаганняў, каб аддзяліць код, які адносіцца да апісванай ідэі, ад унутраных і ўжо сапраўды закрытых рэпазітароў.

Шанец на публікацыю залежыць і ад актуальнасці выбранай тэмы. Актуальнасць шмат у чым дыктуецца прадуктамі і сэрвісамі: калі карпарацыя або стартап зацікаўлены ў тым, каб на аснове ідэі з артыкула пабудаваць новы сэрвіс або палепшыць існуючы, - гэта плюс.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Як ужо гаварылася, артыкулы па кампутарных навуках вельмі рэдка пішуцца ў адзіночку. Але, як правіла, адзін з аўтараў марнуе значна больш часу і сіл, чым астатнія. Яго ўклад у навуковую навізну - найбольшы. У спісе аўтараў такога чалавека паказваюць першым - і ў далейшым, спасылаючыся на артыкул, могуць згадваць толькі яго (напрыклад, "Ivanov et al" - "Іваноў і іншыя" ў перакладзе з латыні). Аднак уклад астатніх таксама з'яўляецца вельмі каштоўным - інакш немагчыма апынуцца ў спісе аўтараў.

Працэс рэцэнзавання

Артыкулы звычайна перастаюць прымаць за некалькі месяцаў да канферэнцыі. Пасля адпраўкі артыкула ў рэцэнзентаў ёсць 3-5 тыдняў на тое, каб прачытаць, ацаніць і пракаментаваць яго. Гэта адбываецца па сістэме single blind, калі аўтары не бачаць імёны рэцэнзентаў, ці double blind, калі і самі рэцэнзенты не бачаць імёны аўтараў. Другі варыянт лічыцца больш бесстароннім: у некалькіх навуковых працах было паказана, што папулярнасць аўтара ўплывае на рашэнне рэцэнзента. Напрыклад, ён можа палічыць, што вучоны з вялікай колькасцю ўжо апублікаваных артыкулаў апрыёры варты больш высокай ацэнкі.

Пры гэтым нават у выпадку double blind рэцэнзент напэўна адгадае аўтара, калі яны працуюць у адной сферы. Акрамя таго, артыкул на момант праходжання рэўю ўжо можа быць апублікаваная ў базе arXiv - найбуйнейшым рэпазітары навуковых прац. Арганізатары канферэнцый гэтага не забараняюць, аднак рэкамендуюць у публікацыі для arXiv выкарыстоўваць іншую назву і іншую анатацыю. Але калі артыкул быў там размешчаны, знайсці яго ўсё роўна не складзе працы.

Рэцэнзентаў, якія ацэньваюць артыкул, заўсёды некалькі. Аднаму з іх адводзіцца роля метарэцэнзента, які павінен толькі прагледзець вердыкты сваіх калег і прыняць фінальнае рашэнне. Калі рэцэнзенты разышліся ў ацэнцы артыкула, метарэцэнзент для паўнаты карціны таксама можа яго прачытаць.

Часам, прагледзеўшы адзнаку і каментары, аўтар атрымлівае магчымасць уступіць у дыскусію з рэцэнзентам; ёсць нават шанец пераканаць яго памяняць рашэнне (аднак такая сістэма працуе далёка ў не ўсіх канферэнцый, а сур'ёзна паўплываць на вынесены вердыкт атрымоўваецца яшчэ значна радзей). У дыскусіі нельга спасылацца на іншыя навуковыя працы, за выключэннем тых, спасылкі на якія ў артыкуле ўжо ёсць. Можна толькі "дапамагчы" рэцэнзенту лепш зразумець змесціва артыкула.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Канферэнцыі і часопісы

Артыкулы па камп'ютарных навуках часцей адпраўляюць менавіта на канферэнцыі, чым у навуковыя часопісы. Чыннік у тым, што да публікацый у часопісах прад'яўляецца патрабаванні, якія складаней выканаць, а працэс рэцэнзавання можа доўжыцца месяцы і нават гады. Кампутарныя навукі - вельмі хутка якая развіваецца галіна, таму аўтары звычайна не гатовыя чакаць публікацыі так доўга. Аднак артыкул, ужо прыняты на канферэнцыю, можна затым дапоўніць (напрыклад, прывесці больш разгорнутыя вынікі) і апублікаваць у часопісе, дзе абмежаванні па аб'ёме не настолькі цвёрдыя.

Падзеі на канферэнцыі

Фармат прысутнасці аўтараў ухваленых артыкулаў на канферэнцыі вызначаюць рэцэнзенты. Калі артыкулу дадзена зялёнае святло, то вам часцей за ўсё вылучаюць стэнд для постэра. Постэр - гэта статычны слайд з кароткім выкладам артыкула і ілюстрацыямі. Частку залаў канферэнцыі напаўняюць доўгімі радамі стэндаў для постэраў. Значную частку часу аўтар праводзіць каля свайго постэра, маючы зносіны з навукоўцамі, якія зацікавіліся артыкулам.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Крыху больш за прэстыжны варыянт удзелу – гэта хуткі даклад (lightning talk). Калі рэцэнзенты палічылі артыкул годным хуткага дакладу, аўтару даецца каля трох хвілін на выступ перад шырокай аўдыторыяй. З аднаго боку, lightning talk - добрая магчымасць распавесці аб сваёй ідэі не толькі тым, хто па ўласнай ініцыятыве зацікавіўся постэрам. З іншага, ініцыятыўныя наведвальнікі постэра больш падрыхтаваныя, мацней пагружаныя ў вашую пэўную тэму, чым сярэднестатычны слухач у зале. Таму ў хуткім дакладзе трэба яшчэ паспець увесці людзей у курс справы.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Звычайна ў канцы свайго lightning talk аўтары называюць нумар постэра - каб слухачы маглі знайсці яго і лепш разабрацца ў артыкуле.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Апошні, самы прэстыжны варыянт - гэта постэр плюс паўнавартасная прэзентацыя ідэі, калі ўжо не трэба так спяшацца з аповедам.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Але вядома, навукоўцы – уключаючы аўтараў ухваленых артыкулаў – прыязджаюць на чарговую канферэнцыю не толькі сябе паказаць. Па-першае, яны па відавочных прычынах імкнуцца знайсці постэры, якія адносяцца да сваёй вобласці. І па-другое, ім важна папоўніць спіс кантактаў з мэтай сумеснай акадэмічнай працы ў будучыні. Гэта не хантынг — ці, прынамсі, самая першая яго стадыя, за якой як мінімум ідзе ўзаемавыгадны абмен ідэямі, напрацоўкамі і сумесная праца над адным ці некалькімі артыкуламі.

У той жа час прадуктыўны нетворкінг на топавай канферэнцыі цяжкі з-за татальнай адсутнасці вольнага часу. Калі пасля цэлага дня, праведзенага на дакладах і ў дыскусіях у постэраў, вучоны захаваў сілы і ўжо адолеў джэтлаг, то ён адпраўляецца на адну са шматлікіх вечарынак. Іх уладкоўваюць карпарацыі як следства, вечарынкі часта носяць больш хантынгавы характар. Пры гэтым многія госці карыстаюцца імі зусім не для таго, каб знайсці новую працу, а, зноў жа, для нетворкінга. Увечары ўжо няма дакладаў і постэраў — лягчэй «злавіць» спецыяліста, які вас цікавіць.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Ад ідэі да прадакшэна

Кампутарныя навукі - адна з лічаных галін, дзе інтарэсы карпарацый і стартапаў моцна звязаныя з акадэмічным асяроддзем. На NIPS, ICML і іншыя падобныя канферэнцыі прыязджаюць мноства адмыслоўцаў з індустрыі, а не толькі з універсітэтаў. Для сферы computer science гэта тыпова, а для большасці іншых навук – наадварот.

З іншага боку, далёка не ўсе выкладзеныя ў артыкулах ідэі неадкладна ідуць на стварэнне ці паляпшэнне сэрвісаў. Нават усярэдзіне адной кампаніі даследнік можа прапанаваць калегам з сэрвісу прарыўную па навуковых мерках ідэю і атрымаць адмову на ўкараненне па цэлым шэрагу чыннікаў. Аб адной з іх тут ужо згадвалася - гэта розніца паміж «акадэмічным» наборам дадзеных, па якім напісаны артыкул, і рэальным датасетам. Акрамя таго, укараненне ідэі можа зацягнуцца, запатрабаваць вялікай колькасці рэсурсаў або палепшыць толькі які-небудзь адзін паказчык коштам пагаршэння астатніх метрык.

Прэмія імя Іллі Сегаловіча. Аповяд аб кампутарных навуках і публікацыях з нагоды запуску

Сітуацыю ратуе тое, што многія распрацоўшчыкі і самі крыху даследчыкі. Яны наведваюць канферэнцыі, размаўляюць з акадэмікамі на адной мове, прапануюць ідэі, часам удзельнічаюць у стварэнні артыкулаў (напрыклад — у напісанні кода) ці нават самі выступаюць аўтарамі. Калі распрацоўшчык пагружаны ў акадэмічны працэс, сочыць за тым, што адбываецца ў аддзеле даследаванняў, словам – калі ён дэманструе сустрэчны рух да навукоўцаў, то цыкл ператварэння навуковых ідэй у новыя магчымасці сэрвісаў скарачаецца.

Мы жадаем усім маладым даследнікам поспеху і буйных дасягненняў у іх працы. Калі вам гэты пост не расказаў нічога новага, то вы, магчыма, ужо публікаваліся на топавай канферэнцыі. Рэгіструйцеся на прэмію самі і намінуйце навуковых кіраўнікоў.

Крыніца: habr.com

Дадаць каментар