Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Avui estem llançant un premi científic que porta el nom d'Ilya Segalovich iseg. S'atorgarà per èxits en l'àmbit de la informàtica. Estudiants de grau i postgrau poden presentar la seva pròpia sol·licitud per al premi o nomenar supervisors científics. Els guardonats seran escollits per representants de la comunitat acadèmica i Yandex. Els principals criteris de selecció: publicacions i presentacions a congressos, així com contribució al desenvolupament de la comunitat.

El primer lliurament de premis tindrà lloc a l'abril. Com a part del premi, els joves científics rebran 350 mil rubles i, a més, podran assistir a una conferència internacional, treballar amb un mentor i realitzar pràctiques al departament de recerca de Yandex. Els supervisors científics rebran 700 mil rubles.

Amb motiu de la presentació del premi, hem decidit parlar aquí a Habré dels criteris d'èxit en el món de la informàtica. Alguns lectors d'Habr ja estan familiaritzats amb aquests criteris, mentre que altres poden tenir una falsa impressió sobre ells. Avui superarem aquesta bretxa: tocarem tots els temes principals, inclosos articles, conferències, conjunts de dades i la transferència d'idees científiques als serveis.

Per als científics de l'àmbit de la informàtica, el principal criteri d'èxit és la publicació del seu treball científic en un dels principals congressos internacionals. Aquest és el primer "punt de control" per reconèixer el treball de l'investigador. Per exemple, en l'àmbit de l'aprenentatge automàtic en general, es distingeixen la International Conference on Machine Learning (ICML) i la Conference on Neural Information Processing Systems (NeurIPS, abans NIPS). Hi ha moltes conferències sobre àrees específiques de l'ML, com ara la visió per computador, la recuperació d'informació, la tecnologia de la parla, la traducció automàtica, etc.

Per què publicar les teves idees

Les persones que estan lluny de la informàtica poden tenir la concepció errònia que és millor mantenir en secret les idees més valuoses i esforçar-se per treure'n profit de la seva singularitat. Tanmateix, la situació real al nostre àmbit és exactament la contrària. L'autoritat d'un científic es jutja per la importància de les seves obres, per la freqüència amb què els seus articles són citats per altres científics (índex de citacions). Aquesta és una característica important de la seva carrera. Un investigador avança en l'escala professional, sent més respectat a la seva comunitat, només si produeix constantment un treball fort que es publica, es fa famós i constitueix la base per al treball d'altres científics.

Molts articles destacats (potser la majoria) són el resultat de la col·laboració entre investigadors de diferents universitats i empreses d'arreu del món. Un moment important i molt valuós en la carrera d'un investigador és quan té l'oportunitat de trobar i filtrar idees pel seu compte a partir de la seva experiència, però fins i tot després d'això, els seus col·legues continuen oferint-li una ajuda inestimable. Els científics s'ajuden mútuament a desenvolupar idees, escriuen articles en col·laboració, i com més gran sigui la contribució del científic a la ciència, més fàcil li serà trobar persones amb idees afins.

Finalment, la densitat i la disponibilitat de la informació és ara tan gran que diferents investigadors simultàniament presenten idees científiques molt similars (i realment valuoses). Si no publiqueu la vostra idea, gairebé segur que algú altre la publicarà per a vosaltres. Sovint, el "guanyador" no és el que va presentar la innovació una mica abans, sinó el que la va publicar una mica abans. O, el que va aconseguir revelar la idea de la manera més completa, clara i convincent possible.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Articles i conjunts de dades

Així doncs, un article científic es construeix al voltant de la idea principal que proposa l'investigador. Aquesta idea és la seva contribució a la informàtica. L'article comença amb una descripció de la idea, formulada en poques frases. Tot seguit hi ha una introducció que descriu el ventall de problemes resolts amb l'ajuda de la innovació proposada. La descripció i la introducció s'escriuen generalment en un llenguatge senzill i comprensible per a un públic ampli. Després de la introducció, cal formalitzar els problemes presentats en llenguatge matemàtic i introduir la notació estricta. A continuació, utilitzant les anotacions introduïdes, cal crear una declaració clara i completa de l'essència de la innovació proposada i identificar les diferències amb mètodes similars anteriors. Totes les afirmacions teòriques s'han de recolzar amb referències a proves compilades prèviament o provar-se de manera independent. Això es pot fer amb algunes suposicions. Per exemple, podeu donar una prova per al cas quan hi ha una quantitat infinita de dades d'entrenament (una situació òbviament inassolible) o són completament independents les unes de les altres. Cap al final de l'article, el científic parla dels resultats experimentals que va poder obtenir.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Perquè els revisors reclutats pels organitzadors de la conferència tinguin més probabilitats d'aprovar un article, aquest ha de tenir un o més atributs. Un factor clau que augmenta les possibilitats d'aprovació és la novetat científica de la idea proposada. Sovint, la novetat s'avalua en relació a idees ja existents, i el treball d'avaluació no el porta a terme el revisor, sinó el mateix autor de l'article. Idealment, l'autor hauria d'explicar detalladament a l'article els mètodes existents i, si és possible, presentar-los com a casos especials del seu mètode. Així, el científic demostra que els plantejaments acceptats no sempre funcionen, que els va generalitzar i va proposar una formulació teòrica més àmplia, més flexible i, per tant, més eficaç. Si la novetat és innegable, en cas contrari, els revisors avaluen l'article no tan delicadament; per exemple, poden fer els ulls grossos amb un anglès pobre.

Per reforçar la novetat, és útil incloure una comparació amb els mètodes existents en un o més conjunts de dades. Cadascun d'ells ha de ser obert i acceptat en l'entorn acadèmic. Per exemple, hi ha el dipòsit d'imatges ImageNet i les bases de dades d'instituts com el Modified National Institute of Standards and Technology (MNIST) i el CIFAR (Canadian Institute for Advanced Research). La dificultat és que aquest conjunt de dades "acadèmiques" sovint difereix en l'estructura del contingut de les dades reals amb què tracta la indústria. Dades diferents signifiquen resultats diferents del mètode proposat. Els científics que treballen parcialment per a la indústria intenten tenir-ho en compte i de vegades insereixen exempcions de responsabilitat com "a les nostres dades el resultat és tal i tal, però en el conjunt de dades públics, tal i tal".

Succeeix que el mètode proposat està completament "adaptat" a una base de dades oberta i no funciona amb dades reals. Podeu combatre aquest problema comú obrint nous conjunts de dades més representatius, però sovint estem parlant de contingut privat que les empreses simplement no tenen dret a obrir. En alguns casos, duen a terme l'anonimització (de vegades complexa i minuciosa) de dades: eliminen els fragments que apunten a una persona concreta. Per exemple, les cares i els números de les fotografies s'esborren o es fan il·legibles. A més, perquè el conjunt de dades no només estigui disponible per a tothom, sinó que es converteixi en un estàndard entre els científics sobre el qual és convenient comparar idees, cal no només publicar-lo, sinó també escriure un article citat per separat sobre això i els seus avantatges.

És pitjor quan no hi ha conjunts de dades oberts en el tema que s'estudia. Aleshores, el revisor només pot acceptar els resultats presentats per l'autor sobre la fe. Teòricament, l'autor podria fins i tot sobreestimar-los i no ser detectat, però en un entorn acadèmic això és poc probable, ja que va en contra del desig de la gran majoria dels científics de desenvolupar la ciència.

En diverses àrees de ML, inclosa la visió per computador, també és habitual adjuntar enllaços al codi (generalment a GitHub) amb articles. Els articles en si contenen molt poc codi o són pseudocodi. I aquí, de nou, sorgeixen dificultats si l'article està escrit per un investigador d'una empresa, i no d'una universitat. De manera predeterminada, el codi escrit en una empresa o startup s'anomena NDA. Els investigadors i els seus col·legues han de treballar dur per separar el codi relacionat amb la idea que es descriu dels repositoris interns i certament tancats.

La possibilitat de publicació també depèn de la rellevància del tema escollit. La rellevància depèn en gran mesura dels productes i serveis: si una corporació o startup està interessada a crear un servei nou o millorar-ne un existent a partir d'una idea d'un article, això és un avantatge.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Com ja s'ha esmentat, els articles d'informàtica poques vegades s'escriuen sols. Però, per regla general, un dels autors dedica molt més temps i esforç que els altres. La seva contribució a la novetat científica és la més gran. A la llista d'autors, s'indica primer aquesta persona, i en el futur, quan es refereix a un article, només la poden esmentar (per exemple, "Ivanov et al" - "Ivanov i altres" traduït del llatí). Tanmateix, les contribucions d'altres també són extremadament valuoses; en cas contrari, és impossible estar a la llista d'autors.

Procés de revisió

Normalment, els treballs deixen de ser acceptats uns mesos abans de la conferència. Després d'enviar un article, els revisors tenen entre 3 i 5 setmanes per llegir-lo, avaluar-lo i comentar-lo. Això passa segons el sistema single blind, quan els autors no veuen els noms dels revisors, o el doble cec, quan els mateixos revisors no veuen els noms dels autors. La segona opció es considera més imparcial: diversos articles científics han demostrat que la popularitat de l'autor influeix en la decisió del revisor. Per exemple, pot considerar que un científic amb un gran nombre d'articles ja publicats és a priori digne d'una qualificació més alta.

A més, fins i tot en el cas del doble cec, el revisor probablement endevinirà l'autor si treballa en el mateix camp. A més, en el moment de la revisió, és possible que l'article ja estigui publicat a la base de dades arXiv, el dipòsit més gran d'articles científics. Els organitzadors de la conferència no ho prohibeixen, però recomanen utilitzar un títol i un resum diferents a les publicacions per a arXiv. Però si l'article es va publicar allà, encara no serà difícil trobar-lo.

Sempre hi ha diversos revisors avaluant un article. A un d'ells se li assigna el paper de meta-revisor, que només ha de revisar els veredictes dels seus companys i prendre la decisió final. Si els revisors no estan d'acord amb l'article, el meta-revisor també pot llegir-lo per completar-lo.

De vegades, després de revisar la qualificació i els comentaris, l'autor té l'oportunitat d'entrar en una discussió amb el revisor; fins i tot hi ha l'oportunitat de convèncer-lo perquè canviï la seva decisió (no obstant això, aquest sistema no funciona per a totes les conferències, i encara és menys possible influir seriosament en el veredicte). En la discussió, no podeu fer referència a altres treballs científics, a excepció dels que ja es fa referència a l'article. Només podeu "ajudar" el revisor a entendre millor el contingut de l'article.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Conferències i revistes

Els articles d'informàtica es presenten més sovint a congressos que a revistes científiques. Això es deu al fet que les publicacions de revistes tenen requisits que són més difícils de complir i el procés de revisió per parells pot trigar mesos o fins i tot anys. La informàtica és un camp en moviment molt ràpid, de manera que els autors normalment no estan disposats a esperar tant per publicar-se. Tanmateix, un article que ja ha estat acceptat per a la conferència es pot complementar (per exemple, presentant resultats més detallats) i publicat en una revista on les restriccions d'espai no siguin tan estrictes.

Esdeveniments a la conferència

El format per a la presència dels autors d'articles aprovats a la conferència és determinat pels revisors. Si l'article té llum verda, sovint se us assigna un estand de cartells. Un pòster és una diapositiva estàtica amb un resum de l'article i il·lustracions. Algunes sales de conferències estan plenes de llargues files de cartells. L'autor passa una part important del seu temps a prop del seu pòster, comunicant-se amb científics interessats en l'article.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Una opció de participació una mica més prestigiosa és una xerrada llampec. Si els revisors consideren que l'article mereix un informe ràpid, l'autor disposa d'uns tres minuts per parlar amb un públic ampli. D'una banda, una xerrada llampec és una bona oportunitat per explicar la teva idea no només a aquells que es van interessar pel cartell per iniciativa pròpia. D'altra banda, els visitants proactius del cartell estan més preparats i més immersos en el vostre tema específic que l'oient mitjà a la sala. Per tant, en un informe ràpid, encara cal tenir temps per posar al dia la gent.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Normalment, al final de la seva xerrada llampec, els autors anomenen el número del cartell perquè els oients el puguin trobar i entendre millor l'article.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

L'última opció més prestigiosa és un pòster més una presentació completa de la idea, quan ja no cal afanyar-se a explicar la història.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

Però, per descomptat, els científics -inclosos els autors d'articles aprovats- vénen a la propera conferència no només per mostrar-se. En primer lloc, solen trobar cartells relacionats amb el seu camp per raons òbvies. I en segon lloc, és important que ampliïn la seva llista de contactes amb la finalitat de treballar conjuntament en el futur. No es tracta d'una caça, o, almenys, de la seva primera etapa, que almenys va seguida d'un intercanvi d'idees, desenvolupaments i treball conjunt d'un o més articles de benefici mutu.

Al mateix temps, la creació de xarxes productives en una conferència de primer nivell és difícil a causa de la manca total de temps lliure. Si després d'un dia sencer dedicat a presentacions i discussions en pòsters, el científic ha conservat les seves forces i ja ha superat el jet lag, aleshores va a una de les moltes festes. Són organitzats per corporacions; com a resultat, les festes sovint tenen un caràcter més caçador. Al mateix temps, molts convidats no els utilitzen en absolut per trobar una feina nova, sinó, de nou, per fer xarxa. Al vespre no hi ha més informes ni cartells: és més fàcil "atrapar" l'especialista que us interessa.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

De la idea a la producció

La informàtica és una de les poques indústries on els interessos de les corporacions i les startups estan fortament lligats a l'entorn acadèmic. NIPS, ICML i altres conferències similars atrauen molta gent de la indústria, no només les universitats. Això és típic per al camp de la informàtica, però viceversa per a la majoria de les altres ciències.

D'altra banda, no totes les idees que es presenten als articles es dirigeixen immediatament a la creació o millora dels serveis. Fins i tot dins d'una empresa, un investigador pot proposar als col·legues del servei una idea avançada pels estàndards científics i rebre una negativa a implementar-la per diverses raons. Un d'ells ja s'ha esmentat aquí: aquesta és la diferència entre el conjunt de dades "acadèmiques" en què es va escriure l'article i el conjunt de dades real. A més, la implementació d'una idea es pot retardar, requerir una gran quantitat de recursos o millorar només un indicador a costa de deteriorar altres mètriques.

Premi que porta el nom d'Ilya Segalovich. Una història sobre informàtica i llançament de publicacions

La situació es salva pel fet que molts desenvolupadors mateixos són una mica investigadors. Assisteixen a conferències, parlen la mateixa llengua amb els acadèmics, proposen idees, de vegades participen en la creació d'articles (per exemple, escrivint codi), o fins i tot actuen com a autors. Si un desenvolupador està immers en el procés acadèmic, segueix el que està passant al departament de recerca, en una paraula, si demostra un moviment contrari cap als científics, el cicle de convertir les idees científiques en noves capacitats de servei s'escurça.

Desitgem a tots els joves investigadors molta sort i grans èxits en el seu treball. Si aquesta publicació no t'ha dit res de nou, és possible que ja hagis publicat en una conferència principal. Registra't per premium tu mateix i nomena supervisors científics.

Font: www.habr.com

Afegeix comentari