Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Днес стартираме научна награда на името на Иля Сегалович iseg. Ще се присъжда за постижения в областта на компютърните науки. Студенти и докторанти могат да подадат собствена кандидатура за наградата или номинират научни ръководители. Лауреатите ще бъдат избрани от представители на академичната общност и Yandex. Основни критерии за подбор: публикации и презентации на конференции, както и принос за развитието на общността.

Първата церемония по награждаването ще се състои през април. Като част от наградата младите учени ще получат 350 хиляди рубли, а освен това ще могат да отидат на международна конференция, да работят с ментор и да преминат стаж в изследователския отдел на Yandex. Научните ръководители ще получат 700 хиляди рубли.

По повод стартирането на наградата решихме да поговорим тук на Хабре за критериите за успех в света на компютърните науки. Някои читатели на Habr вече са запознати с тези критерии, докато други може да имат погрешно впечатление за тях. Днес ще преодолеем тази празнина - ще се докоснем до всички основни теми, включително статии, конференции, набори от данни и трансфер на научни идеи в услуги.

За учените в областта на компютърните науки основен критерий за успех е публикуването на научната им работа на една от най-добрите международни конференции. Това е първата „контролна точка“ за разпознаване на работата на изследователя. Например в областта на машинното обучение като цяло се отличават Международната конференция за машинно обучение (ICML) и Конференцията за системи за обработка на невронна информация (NeurIPS, преди NIPS). Има много конференции за специфични области на машинното обучение, като компютърно зрение, извличане на информация, речеви технологии, машинен превод и др.

Защо да публикувате идеите си

Хората, които са далеч от компютърните науки, може да имат погрешното схващане, че е по-добре да пазят в тайна най-ценните идеи и да се стремят да печелят от тяхната уникалност. Реалната ситуация в нашата област обаче е точно обратната. Авторитетът на един учен се оценява по значимостта на неговите трудове, по това колко често неговите статии са цитирани от други учени (индекс на цитиране). Това е важна характеристика на неговата кариера. Един изследовател се придвижва нагоре по професионалната стълбица, ставайки по-уважаван в своята общност, само ако постоянно произвежда силна работа, която се публикува, става известна и формира основата за работата на други учени.

Много водещи статии (може би повечето) са резултат от сътрудничество между изследователи в различни университети и компании по целия свят. Важен и много ценен момент в кариерата на един изследовател е, когато той получава възможност сам да намира и отсява идеи въз основа на своя опит – но дори и след това колегите му продължават да му оказват безценна помощ. Учените си помагат да развиват идеи, да пишат статии в сътрудничество - и колкото по-голям е приносът на учения към науката, толкова по-лесно е за него да намери съмишленици.

И накрая, плътността и наличността на информация сега е толкова голяма, че различни изследователи едновременно излизат с много сходни (и наистина ценни) научни идеи. Ако вие не публикувате идеята си, някой друг почти сигурно ще я публикува вместо вас. „Победителят“ често не е този, който е измислил иновацията малко по-рано, а този, който я е публикувал малко по-рано. Или – този, който успя да разкрие идеята възможно най-пълно, ясно и убедително.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Статии и набори от данни

И така, научната статия е изградена около основната идея, която изследователят предлага. Тази идея е неговият принос към компютърните науки. Статията започва с описание на идеята, формулирана в няколко изречения. Това е последвано от въведение, което описва набора от проблеми, решени с помощта на предложената иновация. Описанието и въведението обикновено са написани на прост език, който е разбираем за широка аудитория. След въведението е необходимо да се формализират проблемите, представени на математически език и да се въведе строга нотация. След това, използвайки въведените обозначения, трябва да създадете ясно и изчерпателно изложение на същността на предложената иновация и да идентифицирате разликите от предишни подобни методи. Всички теоретични твърдения трябва или да бъдат подкрепени с препратки към предварително събрани доказателства, или да бъдат доказани независимо. Това може да стане с някои предположения. Например, можете да дадете доказателство за случая, когато има безкрайно количество данни за обучение (очевидно недостижима ситуация) или те са напълно независими един от друг. Към края на статията ученият говори за експерименталните резултати, които е успял да получи.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

За да е по-вероятно рецензентите, наети от организаторите на конференцията, да одобрят доклад, той трябва да има един или повече атрибути. Ключов фактор, който увеличава шансовете за одобрение, е научната новост на предложената идея. Често новостта се оценява във връзка с вече съществуващи идеи - и работата по оценяването й не се извършва от рецензента, а от самия автор на статията. В идеалния случай авторът трябва да разкаже подробно в статията за съществуващите методи и, ако е възможно, да ги представи като специални случаи на неговия метод. Така ученият показва, че възприетите подходи не винаги работят, че той ги обобщава и предлага по-широка, по-гъвкава и следователно по-ефективна теоретична формулировка. Ако новостта е неоспорима, тогава рецензентите не оценяват статията толкова придирчиво - например, те могат да си затворят очите за лош английски.

За да се подсили новостта, е полезно да се включи сравнение със съществуващи методи на един или повече набори от данни. Всеки от тях трябва да бъде отворен и приет в академичната среда. Например, има ImageNet хранилище за изображения и бази данни на такива институти като Модифицирания национален институт за стандарти и технологии (MNIST) и CIFAR (Канадски институт за напреднали изследвания). Трудността е, че такъв „академичен“ набор от данни често се различава по структура на съдържанието от реалните данни, с които индустрията работи. Различни данни означават различни резултати от предложения метод. Учените, които частично работят за индустрията, се опитват да вземат това предвид и понякога вмъкват откази от отговорност като „на нашите данни резултатът е такъв и такъв, но на публичния набор от данни – такъв и такъв“.

Случва се така, че предложеният метод е напълно „пригоден“ към отворена база данни и не работи с реални данни. Можете да се преборите с този често срещан проблем, като отворите нови, по-представителни набори от данни, но често говорим за частно съдържание, което компаниите просто нямат право да отварят. В някои случаи те извършват (понякога сложно и старателно) анонимизиране на данни - премахват всички фрагменти, които сочат към конкретно лице. Например, лицата и числата на снимките се изтриват или стават нечетливи. Освен това, за да може наборът от данни не само да бъде достъпен за всички, но и да се превърне в стандарт сред учените, на който е удобно да се сравняват идеи, е необходимо не само да се публикува, но и да се напише отделна цитирана статия за то и неговите предимства.

По-лошо е, когато няма отворени масиви от данни в изучаваната тема. Тогава рецензентът може само да приеме на вяра резултатите, представени от автора. Теоретично авторът може дори да ги надцени и да остане незабелязан, но в академична среда това е малко вероятно, тъй като противоречи на желанието на огромното мнозинство учени да развиват науката.

В редица области на машинното обучение, включително компютърното зрение, също е обичайно да се прикачват връзки към код (обикновено към GitHub) със статии. Самите статии или съдържат много малко код, или са псевдокод. И тук отново възникват трудности, ако статията е написана от изследовател от фирма, а не от университет. По подразбиране кодът, написан в корпорация или стартиране, е обозначен с NDA. Изследователите и техните колеги трябва да работят усилено, за да отделят кода, свързан с описваната идея, от вътрешни и със сигурност затворени хранилища.

Възможността за публикуване също зависи от актуалността на избраната тема. Уместността до голяма степен се диктува от продуктите и услугите: ако корпорация или стартираща компания се интересува от изграждането на нова услуга или подобряването на съществуваща въз основа на идея от статия, това е плюс.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Както вече споменахме, документите по компютърни науки рядко се пишат сами. Но като правило един от авторите отделя много повече време и усилия от останалите. Най-голям е неговият принос към научната новост. В списъка на авторите такова лице е посочено първо - и в бъдеще, когато се позовава на статия, те могат само да го споменават (например „Иванов и други“ - „Иванов и други“ в превод от латински). Изключително ценен е обаче приносът и на другите – иначе е невъзможно да бъдеш в списъка на авторите.

Процес на преглед

Докладите обикновено спират да се приемат няколко месеца преди конференцията. След като дадена статия бъде изпратена, рецензентите имат 3–5 седмици, за да я прочетат, оценят и коментират. Това се случва по системата на единично сляпо, когато авторите не виждат имената на рецензентите, или на двойно сляпо, когато самите рецензенти не виждат имената на авторите. Вторият вариант се счита за по-безпристрастен: няколко научни статии показват, че популярността на автора влияе върху решението на рецензента. Например, той може да смята, че учен с голям брой вече публикувани статии е априори достоен за по-висок рейтинг.

Освен това, дори в случай на двойно сляпо, рецензентът вероятно ще познае автора, ако работят в една и съща област. Освен това, по време на прегледа, статията може вече да е публикувана в базата данни arXiv, най-голямото хранилище на научни статии. Организаторите на конференцията не забраняват това, но препоръчват използването на различно заглавие и различно резюме в публикациите за arXiv. Но ако статията е публикувана там, все още няма да е трудно да я намерите.

Винаги има няколко рецензенти, които оценяват една статия. На един от тях е възложена ролята на мета-рецензент, който трябва само да прегледа присъдите на своите колеги и да вземе окончателното решение. Ако рецензентите не са съгласни със статията, мета-рецензентът може също да я прочете за пълнота.

Понякога, след преглед на оценката и коментарите, авторът има възможност да влезе в дискусия с рецензента; дори има шанс да го убедите да промени решението си (такава система обаче не работи за всички конференции и още по-малко е възможно да повлияете сериозно на присъдата). В дискусията не можете да се позовавате на други научни трудове, с изключение на вече споменатите в статията. Можете само да „помогнете“ на рецензента да разбере по-добре съдържанието на статията.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Конференции и списания

Статиите по компютърни науки се изпращат по-често на конференции, отколкото на научни списания. Това е така, защото публикациите в списанията имат изисквания, които са по-трудни за изпълнение и процесът на партньорска проверка може да отнеме месеци или дори години. Компютърните науки са много бързо развиваща се област, така че авторите обикновено не желаят да чакат толкова дълго за публикуване. Въпреки това, статия, която вече е приета за конференцията, може след това да бъде допълнена (например чрез представяне на по-подробни резултати) и публикувана в списание, където ограниченията за пространство не са толкова строги.

Събития на конференцията

Форматът за присъствие на автори на одобрени статии на конференцията се определя от рецензентите. Ако статията получи зелена светлина, тогава най-често ви се разпределя щанд за плакати. Постерът е статичен слайд с резюме на статията и илюстрации. Някои конферентни зали са пълни с дълги редици стойки за плакати. Авторът прекарва значителна част от времето си близо до своя плакат, общувайки с учени, които се интересуват от статията.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Малко по-престижен вариант за участие е светкавична беседа. Ако рецензентите сметнат, че статията заслужава бърз доклад, на автора се дават около три минути, за да говори пред широка публика. От една страна, мълниеносният разговор е добра възможност да разкажете за идеята си не само на онези, които са се заинтересували от плаката по собствена инициатива. От друга страна, проактивните посетители на постери са по-подготвени и по-задълбочени във вашата конкретна тема от обикновения слушател в залата. Следователно, в бърз доклад, все още трябва да имате време, за да запознаете хората с новостите.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Обикновено в края на своя светкавичен разговор авторите назовават номера на плаката, така че слушателите да могат да го намерят и да разберат по-добре статията.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Последният, най-престижен вариант е плакат плюс пълноценно представяне на идеята, когато вече няма нужда да бързате да разказвате историята.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Но разбира се, учените - включително авторите на одобрени статии - идват на следващата конференция не само за да се похвалят. Първо, те са склонни да намират плакати, свързани с тяхната област по очевидни причини. И второ, за тях е важно да разширят списъка си с контакти с цел съвместна академична работа в бъдеще. Това не е лов - или поне първият му етап, който най-малкото е последван от взаимноизгоден обмен на идеи, разработки и съвместна работа по една или повече статии.

В същото време продуктивният нетуъркинг на топ конференция е труден поради пълната липса на свободно време. Ако след цял ден, прекаран в презентации и дискусии на постери, ученият е запазил силата си и вече е преодолял часовото забавяне, тогава той отива на едно от многото партита. Те се организират от корпорации - в резултат на това партитата често имат по-ловен характер. В същото време много гости ги използват изобщо не за намиране на нова работа, а отново за работа в мрежа. Вечерта няма повече доклади и плакати - по-лесно е да „хванете“ специалиста, който ви интересува.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

От идея до производство

Компютърните науки са една от малкото индустрии, където интересите на корпорациите и стартиращите фирми са тясно свързани с академичната среда. NIPS, ICML и други подобни конференции привличат много хора от индустрията, не само от университетите. Това е характерно за областта на компютърните науки, но обратното за повечето други науки.

От друга страна, не всички идеи, представени в статиите, веднага отиват към създаване или подобряване на услугите. Дори в рамките на една фирма изследователят може да предложи на колегите от службата пробивна за научните стандарти идея и да получи отказ да я реализира по ред причини. Един от тях вече беше споменат тук - това е разликата между „академичния“ набор от данни, върху който е написана статията, и реалния набор от данни. В допълнение, изпълнението на дадена идея може да се забави, да изисква голямо количество ресурси или да подобри само един индикатор с цената на влошаване на други показатели.

Награда на името на Иля Сегалович. История за компютърни науки и стартиране на публикации

Ситуацията се спасява от факта, че много разработчици сами са малко изследователи. Те посещават конференции, говорят на един език с академици, предлагат идеи, понякога участват в създаването на статии (например писане на код) или дори сами действат като автори. Ако разработчикът е потопен в академичния процес, следи какво се случва в изследователския отдел, с една дума - ако демонстрира противодействие към учените, тогава цикълът на превръщане на научните идеи в нови възможности за обслужване се съкращава.

Пожелаваме на всички млади изследователи успех и големи постижения в работата. Ако тази публикация не ви каза нищо ново, тогава може би вече сте публикували на топ конференция. Регистрирайте се за награда себе си и номинирайте научни ръководители.

Източник: www.habr.com

Добавяне на нов коментар