Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Oggi lanciamo un premio scientifico intitolato a Ilya Segalovich iseg. Verrà assegnato per i risultati ottenuti nel campo dell'informatica. Studenti universitari e post-laurea possono presentare la propria candidatura per il premio o nominare supervisori scientifici. I vincitori saranno scelti dai rappresentanti della comunità accademica e di Yandex. I principali criteri di selezione: pubblicazioni e presentazioni a convegni, nonché contributo allo sviluppo della comunità.

La prima cerimonia di premiazione avrà luogo nel mese di aprile. Come parte del premio, i giovani scienziati riceveranno 350mila rubli e, inoltre, potranno partecipare a una conferenza internazionale, lavorare con un mentore e svolgere uno stage nel dipartimento di ricerca Yandex. I supervisori scientifici riceveranno 700mila rubli.

In occasione del lancio del premio, abbiamo deciso di parlare qui su Habré dei criteri per avere successo nel mondo dell'informatica. Alcuni lettori di Habr hanno già familiarità con questi criteri, mentre altri potrebbero averne una falsa impressione. Oggi colmeremo questa lacuna: toccheremo tutti gli argomenti principali, inclusi articoli, conferenze, set di dati e il trasferimento di idee scientifiche nei servizi.

Per gli scienziati nel campo dell'informatica, il criterio principale per il successo è la pubblicazione del proprio lavoro scientifico in una delle più importanti conferenze internazionali. Questo è il primo “checkpoint” per riconoscere il lavoro del ricercatore. Ad esempio, nel campo del machine learning in generale, si distinguono la International Conference on Machine Learning (ICML) e la Conference on Neural Information Processing Systems (NeurIPS, ex NIPS). Esistono molte conferenze su aree specifiche del machine learning, come la visione artificiale, il recupero delle informazioni, la tecnologia vocale, la traduzione automatica, ecc.

Perché pubblicare le tue idee

Le persone lontane dall'informatica potrebbero avere l'idea sbagliata che sia meglio mantenere segrete le idee più preziose e sforzarsi di trarre profitto dalla loro unicità. Tuttavia, la situazione reale nel nostro settore è esattamente l’opposto. L'autorità di uno scienziato si giudica dal significato delle sue opere, dalla frequenza con cui i suoi articoli vengono citati da altri scienziati (indice delle citazioni). Questa è una caratteristica importante della sua carriera. Un ricercatore sale sulla scala professionale, diventando più rispettato nella sua comunità, solo se produce costantemente un lavoro valido che viene pubblicato, diventa famoso e costituisce la base per il lavoro di altri scienziati.

Molti articoli di punta (forse la maggior parte) sono il risultato della collaborazione tra ricercatori di diverse università e aziende di tutto il mondo. Un momento importante e molto prezioso nella carriera di un ricercatore è quando ha l'opportunità di trovare e vagliare idee da solo in base alla sua esperienza, ma anche dopo i suoi colleghi continuano a fornirgli un aiuto inestimabile. Gli scienziati si aiutano a vicenda a sviluppare idee, a scrivere articoli in collaborazione - e maggiore è il contributo dello scienziato alla scienza, più facile è per lui trovare persone che la pensano allo stesso modo.

Infine, la densità e la disponibilità delle informazioni è oggi così grande che diversi ricercatori escogitano contemporaneamente idee scientifiche molto simili (e davvero preziose). Se non pubblichi la tua idea, quasi sicuramente qualcun altro la pubblicherà per te. Il “vincitore” spesso non è colui che ha inventato l’innovazione un po’ prima, ma colui che l’ha pubblicata un po’ prima. Oppure - colui che è riuscito a rivelare l'idea nel modo più completo, chiaro e convincente possibile.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Articoli e set di dati

Quindi, un articolo scientifico è costruito attorno all'idea principale proposta dal ricercatore. Questa idea è il suo contributo all'informatica. L'articolo inizia con una descrizione dell'idea, formulata in poche frasi. Segue un'introduzione che descrive la gamma di problemi risolti con l'aiuto dell'innovazione proposta. La descrizione e l'introduzione sono solitamente scritte in un linguaggio semplice e comprensibile a un vasto pubblico. Dopo l'introduzione è necessario formalizzare i problemi presentati in linguaggio matematico e introdurre una notazione rigorosa. Quindi, utilizzando le notazioni introdotte, è necessario creare una dichiarazione chiara e completa dell'essenza dell'innovazione proposta e identificare le differenze rispetto a metodi simili precedenti. Tutte le affermazioni teoriche devono essere supportate da riferimenti a prove precedentemente raccolte o provate in modo indipendente. Ciò può essere fatto partendo da alcune ipotesi. Ad esempio, puoi fornire una prova nel caso in cui sia presente una quantità infinita di dati di addestramento (una situazione ovviamente irraggiungibile) o siano completamente indipendenti l'uno dall'altro. Verso la fine dell'articolo lo scienziato parla dei risultati sperimentali che è riuscito ad ottenere.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Affinché i revisori reclutati dagli organizzatori della conferenza abbiano maggiori probabilità di approvare un articolo, questo deve avere uno o più attributi. Un fattore chiave che aumenta le possibilità di approvazione è la novità scientifica dell’idea proposta. Spesso la novità viene valutata in relazione a idee già esistenti e il lavoro di valutazione non viene svolto dal revisore, ma dallo stesso autore dell'articolo. Idealmente, l'autore dovrebbe parlare in dettaglio nell'articolo dei metodi esistenti e, se possibile, presentarli come casi speciali del suo metodo. Lo scienziato dimostra così che gli approcci accettati non sempre funzionano, che li ha generalizzati e ha proposto una formulazione teorica più ampia, più flessibile e quindi più efficace. Se la novità è innegabile, altrimenti i revisori valutano l'articolo in modo non così schizzinoso, ad esempio potrebbero chiudere un occhio sul cattivo inglese.

Per rafforzare la novità, è utile includere un confronto con i metodi esistenti su uno o più set di dati. Ognuno di loro dovrebbe essere aperto e accettato nell'ambiente accademico. Ad esempio, esiste l’archivio di immagini ImageNet e i database di istituti come il Modified National Institute of Standards and Technology (MNIST) e il CIFAR (Canadian Institute For Advanced Research). La difficoltà è che un set di dati “accademici” di questo tipo spesso differisce nella struttura del contenuto dai dati reali con cui si occupa l’industria. Dati diversi significano risultati diversi del metodo proposto. Gli scienziati che lavorano in parte per l’industria cercano di tenerne conto e talvolta inseriscono disclaimer come “sui nostri dati il ​​risultato è così e così, ma sul set di dati pubblici – così e così”.

Succede che il metodo proposto è completamente “su misura” per un database aperto e non funziona su dati reali. Puoi combattere questo problema comune aprendo nuovi set di dati più rappresentativi, ma spesso parliamo di contenuti privati ​​che le aziende semplicemente non hanno il diritto di aprire. In alcuni casi, effettuano l'anonimizzazione (a volte complessa e scrupolosa) dei dati: rimuovono eventuali frammenti che rimandano a una persona specifica. Ad esempio, i volti e i numeri nelle fotografie vengono cancellati o resi illeggibili. Inoltre, affinché il set di dati non solo sia disponibile a tutti, ma diventi uno standard tra gli scienziati su cui è conveniente confrontare le idee, è necessario non solo pubblicarlo, ma anche scrivere un articolo citato separato su esso e i suoi vantaggi.

È peggio quando non ci sono set di dati aperti nell’argomento studiato. Quindi il revisore può accettare solo per fede i risultati presentati dall'autore. In teoria, l'autore potrebbe persino sopravvalutarli e passare inosservato, ma in un ambiente accademico ciò è improbabile, poiché va contro il desiderio della stragrande maggioranza degli scienziati di sviluppare la scienza.

In diverse aree del machine learning, inclusa la visione artificiale, è anche comune allegare collegamenti al codice (solitamente a GitHub) con articoli. Gli articoli stessi contengono pochissimo codice o sono pseudocodice. E anche qui sorgono difficoltà se l'articolo è scritto da un ricercatore di un'azienda e non da un'università. Per impostazione predefinita, il codice scritto in un'azienda o in una startup è etichettato NDA. I ricercatori e i loro colleghi devono lavorare duro per separare il codice relativo all’idea descritta da archivi interni e sicuramente chiusi.

La possibilità di pubblicazione dipende anche dalla rilevanza dell'argomento scelto. La rilevanza è in gran parte dettata da prodotti e servizi: se un’azienda o una startup è interessata a costruire un nuovo servizio o a migliorarne uno esistente sulla base di un’idea tratta da un articolo, questo è un vantaggio.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Come già accennato, gli articoli di informatica raramente vengono scritti da soli. Ma di regola, uno degli autori dedica molto più tempo e impegno rispetto agli altri. Il suo contributo alla novità scientifica è il più grande. Nell'elenco degli autori, tale persona viene indicata per prima - e in futuro, quando si fa riferimento a un articolo, può solo menzionarlo (ad esempio, "Ivanov et al" - "Ivanov e altri" tradotto dal latino). Ma anche i contributi degli altri sono estremamente preziosi, altrimenti è impossibile essere nell'elenco degli autori.

Processo di revisione

Di solito gli articoli non vengono più accettati diversi mesi prima della conferenza. Dopo che un articolo è stato inviato, i revisori hanno 3-5 settimane per leggerlo, valutarlo e commentarlo. Ciò avviene secondo il sistema del singolo cieco, quando gli autori non vedono i nomi dei revisori, o del doppio cieco, quando i revisori stessi non vedono i nomi degli autori. La seconda opzione è considerata più imparziale: diversi articoli scientifici hanno dimostrato che la popolarità dell'autore influenza la decisione del revisore. Ad esempio, può ritenere che uno scienziato con un gran numero di articoli già pubblicati sia a priori degno di un punteggio più alto.

Inoltre, anche nel caso del doppio cieco, il revisore probabilmente indovinerà l'autore se lavora nello stesso campo. Inoltre, al momento della revisione, l’articolo potrebbe già essere pubblicato nel database arXiv, il più grande archivio di articoli scientifici. Gli organizzatori della conferenza non lo vietano, ma raccomandano di utilizzare un titolo diverso e un abstract diverso nelle pubblicazioni per arXiv. Ma se l'articolo è stato pubblicato lì, non sarà comunque difficile trovarlo.

Ci sono sempre diversi revisori che valutano un articolo. A uno di loro viene assegnato il ruolo di meta-revisore, che deve solo rivedere i verdetti dei suoi colleghi e prendere la decisione finale. Se i revisori non sono d'accordo sull'articolo, anche il meta-revisore può leggerlo per completezza.

A volte, dopo aver esaminato la valutazione e i commenti, l'autore ha l'opportunità di avviare una discussione con il revisore; c'è anche la possibilità di convincerlo a cambiare decisione (tuttavia, un tale sistema non funziona per tutte le conferenze, ed è ancora meno possibile influenzare seriamente il verdetto). Nella trattazione non è possibile fare riferimento ad altri lavori scientifici, ad eccezione di quelli già citati nell'articolo. Puoi solo “aiutare” il revisore a comprendere meglio il contenuto dell'articolo.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Convegni e riviste

Gli articoli di informatica vengono presentati più spesso a convegni che a riviste scientifiche. Questo perché le pubblicazioni su riviste hanno requisiti più difficili da soddisfare e il processo di revisione tra pari può richiedere mesi o addirittura anni. L'informatica è un campo in rapida evoluzione, quindi gli autori di solito non sono disposti ad aspettare così a lungo per la pubblicazione. Tuttavia, un articolo già accettato per la conferenza può poi essere integrato (ad esempio presentando risultati più dettagliati) e pubblicato su una rivista in cui i limiti di spazio non sono così rigidi.

Eventi alla conferenza

Il formato per la presenza degli autori degli articoli approvati alla conferenza è determinato dai revisori. Se all'articolo viene dato il via libera, molto spesso ti viene assegnato uno stand per poster. Un poster è una diapositiva statica con un riepilogo dell'articolo e illustrazioni. Alcune sale conferenze sono piene di lunghe file di supporti per poster. L'autore trascorre una parte significativa del suo tempo vicino al suo poster, comunicando con gli scienziati interessati all'articolo.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Un'opzione leggermente più prestigiosa per la partecipazione è un discorso lampo. Se i revisori ritengono che l'articolo meriti una breve relazione, all'autore vengono concessi circa tre minuti per parlare a un vasto pubblico. Da un lato, un discorso lampo è una buona occasione per raccontare la tua idea non solo a coloro che si sono interessati al poster di propria iniziativa. D'altra parte, i visitatori proattivi dei poster sono più preparati e più immersi nel tuo argomento specifico rispetto all'ascoltatore medio in sala. Pertanto, in un rapporto veloce, è ancora necessario avere tempo per aggiornare le persone.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Di solito, alla fine del loro discorso lampo, gli autori nominano il numero del poster in modo che gli ascoltatori possano trovarlo e comprendere meglio l'articolo.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

L'ultima opzione più prestigiosa è un poster più una presentazione completa dell'idea, quando non è più necessario affrettarsi a raccontare la storia.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Ma ovviamente gli scienziati, compresi gli autori degli articoli approvati, verranno alla prossima conferenza non solo per mettersi in mostra. Innanzitutto, tendono a trovare poster relativi al loro campo per ovvi motivi. In secondo luogo, è importante per loro ampliare l'elenco dei contatti ai fini del futuro lavoro accademico congiunto. Questa non è la caccia - o, almeno, la sua primissima fase, alla quale segue almeno uno scambio reciprocamente vantaggioso di idee, sviluppi e lavoro congiunto su uno o più articoli.

Allo stesso tempo, il networking produttivo durante una conferenza importante è difficile a causa della totale mancanza di tempo libero. Se, dopo un'intera giornata trascorsa tra presentazioni e discussioni sui manifesti, lo scienziato ha conservato le forze e ha già superato il jet lag, allora va a una delle tante feste. Sono ospitati da aziende, di conseguenza i partiti hanno spesso un carattere più venatorio. Allo stesso tempo, molti ospiti li usano non per trovare un nuovo lavoro, ma, ancora una volta, per fare rete. La sera non ci sono più rapporti e manifesti: è più facile “catturare” lo specialista che ti interessa.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

Dall'idea alla produzione

L’informatica è uno dei pochi settori in cui gli interessi delle aziende e delle startup sono fortemente legati all’ambiente accademico. NIPS, ICML e altre conferenze simili attirano molte persone provenienti dall'industria, non solo dalle università. Questo è tipico per il campo dell’informatica, ma viceversa per la maggior parte delle altre scienze.

D'altra parte, non tutte le idee presentate negli articoli vanno immediatamente alla creazione o al miglioramento dei servizi. Anche all'interno di un'azienda, un ricercatore può proporre ai colleghi del servizio un'idea rivoluzionaria dal punto di vista scientifico e ricevere il rifiuto di realizzarla per una serie di motivi. Uno di questi è già stato menzionato qui: questa è la differenza tra il set di dati "accademici" su cui è stato scritto l'articolo e il set di dati reale. Inoltre, l’implementazione di un’idea può essere ritardata, richiedere una grande quantità di risorse o migliorare solo un indicatore al costo di deteriorare altri parametri.

Premio intitolato a Ilya Segalovich. Una storia sull'informatica e sul lancio di pubblicazioni

La situazione è salvata dal fatto che molti sviluppatori stessi sono un po' ricercatori. Partecipano a conferenze, parlano la stessa lingua con gli accademici, propongono idee, a volte partecipano alla creazione di articoli (ad esempio, scrivendo codice) o addirittura agiscono essi stessi come autori. Se uno sviluppatore è immerso nel processo accademico, segue ciò che sta accadendo nel dipartimento di ricerca, in una parola: se dimostra un movimento contrario nei confronti degli scienziati, il ciclo di trasformazione delle idee scientifiche in nuove capacità di servizio si accorcia.

Auguriamo a tutti i giovani ricercatori buona fortuna e grandi risultati nel loro lavoro. Se questo post non ti ha detto nulla di nuovo, potresti aver già pubblicato in una conferenza importante. Registrati per il premio te stesso e nominare supervisori scientifici.

Fonte: habr.com

Aggiungi un commento