Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Сьогодні ми запускаємо наукову премію імені Іллі Сегаловича iseg. Вона присуджуватиметься за досягнення в галузі комп'ютерних наук. Студенти та аспіранти можуть подати власну заявку на премію чи висунути наукових керівників. Лауреатів оберуть представники академічної спільноти та Яндекса. Головні критерії відбору: наявність публікацій та виступів на конференціях, а також внесок у розвиток спільноти.

Перше нагородження відбудеться вже у квітні. У рамках премії молоді вчені отримають по 350 тисяч рублів, а також зможуть поїхати на міжнародну конференцію, попрацювати з ментором і пройти стажування у відділі досліджень Яндекса. Науковці отримають по 700 тисяч рублів.

З нагоди запуску премії ми вирішили розповісти тут, на Хабрі, про критерії успіху у світі комп'ютерних наук. Частина читачів Хабра вже знайомі з цими критеріями, а в інших могло скластися про них хибне враження. Сьогодні ми усунемо цей розрив — торкнемося всіх основних тем, включаючи статті, конференції, датасети та перенесення наукових ідей у ​​сервіси.

Для вчених у галузі computer science основним критерієм успіху є публікація своєї наукової роботи на одній з топових міжнародних конференцій. Це перший "чекпоінт" визнання роботи дослідника. Наприклад, у галузі машинного навчання в цілому виділяють International Conference on Machine Learning (ICML) та Conference on Neural Information Processing Systems (NeurIPS, раніше NIPS). Є безліч конференцій з окремих сфер ML, таких як комп'ютерний зір, інформаційний пошук, мовні технології, машинний переклад тощо.

Навіщо публікувати свої ідеї

У далеких від computer science людей може скластися хибна думка, що краще тримати найцінніші ідеї в секреті і прагнути отримати вигоду на їх унікальності. Проте реальна ситуація у нашій сфері рівно зворотна. Про авторитет вченого судять за значимістю його робіт, з того, як часто на його статті посилаються інші вчені (індекс цитованості). Це найважливіша характеристика його кар'єри. Дослідник просувається професійними сходами, стаючи більш поважним у своєму середовищі, тільки якщо він постійно видає сильні роботи, які публікуються, стають відомими і лягають в основу робіт інших вчених.

Багато топових статей (а можливо, і більшість) — результат колаборації дослідників у різних університетах та компаній у різних країнах світу. Важливим і дуже цінним у кар'єрі дослідника є момент, коли він отримує можливість знаходити та відсівати ідеї самостійно на основі свого досвіду, але навіть після цього колеги продовжують надавати йому неоціненну допомогу. Вчені допомагають один одному опрацьовувати ідеї, пишуть статті у співавторстві — і чим більший внесок вченого в науку, тим простіше знайти однодумців.

Зрештою, щільність і доступність інформації зараз настільки велика, що у різних дослідників одночасно з'являються дуже схожі (і справді цінні) наукові ідеї. Якщо ідею не опублікувати, то хтось майже напевно опублікує її за вас. «Переможцем» часто надає не той, хто вигадав нововведення трохи раніше, а той, хто трохи раніше його опублікував. Або той, хто зумів розкрити ідею максимально повно, зрозуміло і переконливо.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Статті та набори даних

Отже, наукова стаття будується довкола основної ідеї, яку дослідник пропонує. Ця ідея – його внесок у комп'ютерні науки. Стаття починається з опису ідеї, сформульованого у кількох реченнях. Потім слідує вступ, де описується спектр проблем, що вирішуються за допомогою запропонованого нововведення. Опис і вступ зазвичай пишуться простою мовою, зрозумілою для широкої аудиторії. Після вступу необхідно вже математичною мовою формалізувати викладені проблеми, запровадити суворі позначення. Потім за допомогою введених позначень потрібно скласти виразне і вичерпне виклад суті пропонованого нововведення, позначити відмінності від попередніх, схожих методів. Усі теоретичні викладки потрібно або підкріплювати посиланнями на раніше складені докази, або доводити самостійно. Це може бути зроблено з будь-якими припущеннями. Наприклад, можна навести доказ для випадку, коли даних у навчанні нескінченно багато (очевидно, недосяжна ситуація) або вони повністю незалежні один від одного. Ближче до кінця статті вчений розповідає про експериментальні результати, які йому вдалося отримати.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Щоб рецензенти, яких залучили організатори конференції, з більшою ймовірністю схвалили статтю, вона повинна мати один або кілька атрибутів. Ключовий фактор, який збільшує шанси на схвалення, — наукова новизна ідеї, що пропонується. Часто новизна оцінюється щодо вже існуючих ідей, причому роботу з її оцінки виконує не рецензент, а сам автор статті. В ідеальному випадку автор повинен розгорнуто розповісти у статті про існуючі методи і, якщо це можливо, подати їх як окремі випадки свого методу. Тим самим вчений показує, що прийняті підходи працюють не завжди, що він їх узагальнив та запропонував ширшу, гнучкішу і тому ефективнішу теоретичну постановку. Якщо новизна незаперечна, то в іншому рецензенти оцінюють статтю не так прискіпливо — наприклад, можуть заплющити очі на погану англійську.

Щоб підкріпити новизну, корисно додати до статті порівняння з існуючими методами на одному або кількох наборах даних. Кожен із них має бути відкритим, прийнятим в академічному середовищі. Наприклад, є репозиторій зображень ImageNet та бази таких інститутів, як Modified National Institute of Standards and Technology (MNIST) та CIFAR (Canadian Institute For Advanced Research). Складність у цьому, що подібний «академічний» датасет часто відрізняється структурою вмісту від реальних даних, із якими має справу індустрія. Різні дані – різні результати запропонованого методу. Вчені, які частково працюють на індустрію, намагаються враховувати це і іноді вставляють застереження виду «на наших даних результат такий-то, а на загальнодоступному датасеті – такий-то».

Буває, що запропонований метод повністю «заточується» відкритою базою і не працює на реальних даних. Боротися з цією поширеною проблемою можна, відкриваючи нові, більш репрезентативні датасети, але часто йдеться про приватний контент, який компанії просто не мають права відкрити. У деяких випадках вони проводять (іноді складну та копітку) анонімізацію даних — видаляють будь-які фрагменти, що вказують на конкретну людину. Наприклад, особи та номери на фотографіях стирають або роблять нерозбірливими. Крім того, щоб датасет не просто був доступний всім, а став стандартом серед вчених, на якому зручно порівнювати ідеї, необхідно не тільки опублікувати його, але й написати про нього та його переваги окрему цитовану статтю.

Гірше, коли у досліджуваній темі відсутні відкриті датасети. Тоді рецензенту залишається прийняти на віру результати, наведені автором. Теоретично автор навіть може завищити їх і залишитися непойманим, але в академічному середовищі це малоймовірно, оскільки йде врозріз з прагненням переважної більшості вчених розвивати науку.

У ряді областей ML, включаючи комп'ютерний зір, також прийнято прикріплювати до статей посилання код (зазвичай — на GitHub). У самих статтях коду або обмаль, або це псевдокод. І тут, знову ж таки, виникають складнощі, якщо стаття пишеться дослідником із компанії, а не з університету. За замовчуванням код, написаний у корпорації чи стартапі, має NDA. Дослідникам та їхнім колегам доводиться докладати чимало зусиль, щоб відокремити код, що відноситься до описуваної ідеї, від внутрішніх і точно закритих репозиторіїв.

Шанс на публікацію залежить від актуальності обраної теми. Актуальність багато в чому диктується продуктами та сервісами: якщо корпорація чи стартап зацікавлені в тому, щоб на основі ідеї зі статті побудувати новий сервіс чи покращити існуючий, це плюс.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Як уже говорилося, статті з комп'ютерних наук вкрай рідко пишуться поодинці. Але, як правило, один із авторів витрачає набагато більше часу та сил, ніж інші. Його внесок у наукову новизну – найбільший. У списку авторів таку людину вказують першою — і надалі, посилаючись на статтю, можуть згадувати лише її (наприклад, «Ivanov et al» — «Іванов та інші» у перекладі латиною). Проте внесок решти також є вкрай цінним — інакше неможливо опинитись у списку авторів.

Процес рецензування

Статті зазвичай припиняють приймати за кілька місяців до конференції. Після надсилання статті рецензенти мають 3–5 тижнів на те, щоб прочитати, оцінити та прокоментувати її. Це відбувається за системою single blind, коли автори не бачать імена рецензентів, або double blind, коли самі рецензенти не бачать імена авторів. Другий варіант вважається більш неупередженим: у кількох наукових працях було показано, що популярність автора впливає рішення рецензента. Наприклад, він може вважати, що вчений з великою кількістю вже опублікованих статей апріорі гідний вищої оцінки.

При цьому навіть у разі double blind рецензент, напевно, вгадає автора, якщо вони працюють в одній сфері. Крім того, стаття на момент проходження ревью вже може бути опублікована в базі arXiv - найбільшому репозиторії наукових праць. Організатори конференцій цього не забороняють, проте рекомендують у публікації для arXiv використовувати іншу назву та іншу анотацію. Але якщо стаття була там розміщена, знайти її все одно не складе труднощів.

Рецензентів, які оцінюють статтю, завжди кілька. Одному з них відводиться роль метарецензента, який має лише переглянути вердикти своїх колег та ухвалити фінальне рішення. Якщо рецензенти розійшлися щодо оцінки статті, метарецензент для повноти картини також може її прочитати.

Іноді, переглянувши оцінку та коментарі, автор отримує можливість розпочати дискусію з рецензентом; є навіть шанс переконати його змінити рішення (проте така система працює далеко не в усіх конференцій, а всерйоз вплинути на винесений вердикт вдається набагато рідше). У дискусії не можна посилатися на інші наукові роботи, за винятком тих, посилання на які вже є. Можна лише «допомогти» рецензентові краще зрозуміти зміст статті.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Конференції та журнали

Статті з комп'ютерних наук частіше надсилають саме на конференції, ніж у наукові журнали. Причина в тому, що до публікацій у журналах висуваються вимоги, які складніше дотриматися, а процес рецензування може тривати місяці і навіть роки. Комп'ютерні науки — галузь, що дуже швидко розвивається, тому автори зазвичай не готові чекати публікації так довго. Проте статтю, вже прийняту на конференцію, можна потім доповнити (наприклад, навести більш розгорнуті результати) і опублікувати в журналі, де обмеження обсягу не настільки жорсткі.

Події на конференції

Формат присутності авторів затверджених статей на конференції визначають рецензенти. Якщо статті дано зелене світло, то вам найчастіше виділяють стенд для постера. Постер – це статичний слайд із коротким викладом статті та ілюстраціями. Частину залів конференції наповнюють довгими рядами стендів для постерів. Значну частину часу автор проводить біля свого постера, спілкуючись із вченими, які зацікавилися статтею.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Трохи престижніший варіант участі — це швидка доповідь (lightning talk). Якщо рецензенти визнали статтю гідною швидкої доповіді, автору дається близько трьох хвилин на виступ перед широкою аудиторією. З одного боку, lightning talk — гарна нагода розповісти про свою ідею не лише тим, хто з власної ініціативи зацікавився постером. З іншого боку, ініціативні відвідувачі постера більш підготовлені, сильніше занурені у вашу конкретну тему, ніж середній слухач у залі. Тому у швидкій доповіді треба ще встигнути ввести людей у ​​курс справи.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Зазвичай наприкінці свого lightning talk автори називають номер постера — щоб слухачі могли знайти його та краще розібратися у статті.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Останній, найпрестижніший варіант – це постер плюс повноцінна презентація ідеї, коли вже не треба так поспішати з оповіданням.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Але, звісно, ​​вчені — включно з авторами схвалених статей — приїжджають на чергову конференцію не тільки себе показати. По-перше, вони з очевидних причин прагнуть знайти постери, які стосуються своєї галузі. І, по-друге, їм важливо поповнити список контактів з метою спільної академічної роботи в майбутньому. Це не хантінг — чи, принаймні, найперша його стадія, за якою як мінімум слідує взаємовигідний обмін ідеями, напрацюваннями та спільна робота над однією чи кількома статтями.

У той же час продуктивний нетворкінг на топовій конференції скрутний через тотальну відсутність вільного часу. Якщо після цілого дня, проведеного на доповідях і в дискусіях у постерів, учений зберіг сили і вже подолав джетлаг, він вирушає на одну з численних вечірок. Їх влаштовують корпорації — як наслідок, вечірки часто мають більш хантінговий характер. При цьому багато гостей користуються ними зовсім не для того, щоб знайти нову роботу, а, знову ж таки, для нетворкінгу. Увечері вже немає доповідей і постерів — легше «зловити» фахівця, який вас цікавить.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Від ідеї до продакшену

Комп'ютерні науки — одна з лічених галузей, де інтереси корпорацій та стартапів пов'язані з академічним середовищем. На NIPS, ICML та інші подібні конференції приїжджають багато фахівців з індустрії, а не лише університетів. Для сфери computer science це характерно, а більшості інших наук — навпаки.

З іншого боку, далеко ще не всі викладені у статтях ідеї негайно йдуть створення чи поліпшення сервісів. Навіть усередині однієї компанії дослідник може запропонувати колегам з сервісу проривну за науковими мірками ідею і отримати відмову впровадження з низки причин. Про одну з них тут уже згадувалося — це різниця між «академічним» набором даних, за яким написана стаття, та реальним датасетом. Крім того, впровадження ідеї може затягнутися, вимагати великої кількості ресурсів або покращити лише якийсь один показник ціною погіршення решти метрик.

Премія імені Іллі Сегаловича. Розповідь про комп'ютерні науки та публікації з нагоди запуску

Ситуацію рятує те, що багато розробників і самі трохи дослідники. Вони відвідують конференції, розмовляють з академіками однією мовою, пропонують ідеї, часом беруть участь у створенні статей (наприклад, написання коду) або навіть самі виступають авторами. Якщо розробник занурений в академічний процес, стежить за тим, що відбувається у відділі досліджень, словом — якщо він демонструє зустрічний рух до вчених, цикл перетворення наукових ідей у ​​нові можливості сервісів скорочується.

Ми бажаємо всім молодим дослідникам удачі та великих досягнень у їхній роботі. Якщо вам цей пост не розповів нічого нового, то ви, можливо, вже публікувалися на конференції. Реєструйтеся на премію самі та номінуйте наукових керівників.

Джерело: habr.com

Додати коментар або відгук