Podcast „ITMO Research_“: hvernig á að nálgast samstillingu AR efnis við sýningu á mælikvarða heils leikvangs

Þetta er fyrsti hluti textauppskriftar seinna viðtalsins fyrir dagskrána okkar (Apple Podcasts, Yandex.Músík). Útgáfugestur - Andrey Karsakov (kapc3d), Ph.D., yfirrannsakandi við National Center for Cognitive Research, dósent við Deild of Digital Transformations.

Síðan 2012 hefur Andrey starfað í rannsóknarhópnum Visualization and Computer Graphics. Tekið þátt í stórum hagnýtum verkefnum á ríkis- og alþjóðavettvangi. Í þessum hluta samtalsins tölum við um reynslu hans af AR-stuðningi við opinbera viðburði.

Podcast „ITMO Research_“: hvernig á að nálgast samstillingu AR efnis við sýningu á mælikvarða heils leikvangs
Photo Shoot ThisisTenging RAEng (Unsplash.com)

Verkefnasamhengi og markmið

Tímakóði (eftir hljóðútgáfur) — 00:41

dmitrykabanov: Mig langar að byrja á Evrópuleikunum. Hann er fjölþættur, nokkur lið tóku þátt í undirbúningnum og að útvega aukinn veruleika fyrir þúsundir áhorfenda rétt á meðan viðburður á leikvanginum stendur er nokkuð alvarlegt verkefni. Hvað varðar þátttöku þína, var það hugbúnaður fyrst?

kapc3d: Já, við gerðum forritunarhlutann og veittum stuðning á meðan á sýningunni stóð. Nauðsynlegt var að fylgjast með, fylgjast með og ræsa allt í rauntíma og einnig vinna með sjónvarpshópnum. Ef við lítum á þetta verkefni í heild sinni, þá getum við talað um opnunar- og lokunarathafnir Evrópuleikir í Minsk, sem og um opnunarhátíð meistaramótsins WorldSkills í Kazan. Þetta var sama vinnufyrirkomulagið en ólíkir atburðir. Það voru tveir mánuðir á milli þeirra. Við undirbjuggum verkefnið ásamt strákunum frá fyrirtækinu Sechenov.com.

Við hittum þá fyrir tilviljun Vísindahátíð, sem fram fór haustið 2018. Meistaranemar okkar sýndu námskeiðsverkefni sitt um VR. Strákarnir komu til okkar og spurðu hvað við værum að gera á rannsóknarstofunni okkar. Það leit eitthvað á þessa leið:

— Þú vinnur með VR en geturðu unnið með aukinn veruleika?

- Jæja, svona, já.

- Það er svona verkefni, með svona inngangsskýringum. Getur þú gert það?

Þeir klóruðu sér aðeins í ræpunum, það virðist ekki vera neitt óraunhæft:

- Við skulum reyna að rannsaka allt fyrst og finna síðan lausn.

Dmitriy: Veita þeir aðeins fjölmiðlastuðning?

Andrew: Þeir gera fullan stafla. Frá sjónarhóli stjórnunar og skipulags taka þeir algjörlega þátt í leikstjórn, uppsetningu, vali á landslagi, flutningum og öðrum tækniaðstoð. En þeir vildu gera eitthvað sérstakt fyrir Evrópuleikina. Þessar tæknibrellur, eins og blandaður raunveruleiki, hafa verið gerðar fyrir sjónvarp í nokkuð langan tíma, en þær eru ekki þær fjárhagslega hagkvæmustu hvað tæknilega útfærslu varðar. Þess vegna leituðu krakkar að öðrum valkostum.

Dmitriy: Við skulum ræða vandamálið nánar. Í hverju fólst það?

Andrew: Það er viðburður. Það tekur einn og hálfan tíma. Við þurfum að ganga úr skugga um að áhorfendur sem horfa á hana í beinni og þeir sem sitja á leikvanginum geti séð aukinn raunveruleikaáhrif í fullri samstillingu við lifandi sýningu hvað varðar tíma og staðsetningu á síðunni.

Það voru ýmsar tæknilegar takmarkanir. Það var ómögulegt að gera tímasamstillingu í gegnum internetið, vegna þess að óttast var um of mikið álag á netið með fullum básum og möguleika á að þjóðhöfðingjar mættu á viðburðinn, sem gæti truflað farsímakerfin.

Andrey Karsakov, mynd frá efni frá ITMO háskólanum
Podcast „ITMO Research_“: hvernig á að nálgast samstillingu AR efnis við sýningu á mælikvarða heils leikvangsVið vorum með tvo lykilþætti í þessu verkefni - persónulega upplifunina sem fólk getur fengið í gegnum farsíma og það sem fer inn í sjónvarpsútsendingar og upplýsingaskjái á leikvanginum sjálfum.

Ef einstaklingur er skyndilega að horfa á þætti af auknum veruleika í gegnum farsíma og kemur á sama tíma á skjáinn ætti hann að sjá sömu mynd.

Við þurftum tvö nánast mismunandi kerfi til að vera algjörlega samstillt í tíma. En sérkenni slíkra sýninga er að þetta eru flóknir atburðir þar sem mikill fjöldi tækniþjónustu kemur við sögu og allar aðgerðir eru gerðar samkvæmt tímakóðum. Tímakóði er tiltekið augnablik í tíma þar sem eitthvað byrjar: ljós, hljóð, fólk að fara, sviðsblöð opnast og svo framvegis. Við urðum að laga okkur að þessu kerfi þannig að allt færi af stað á réttum tíma. Annar eiginleiki var að senur og þættir með auknum veruleika tengdust handriti.

Dmitriy: En ákvaðstu að hætta að nota tímakóða vegna mikillar hættu á force majeure, eða reiknaðir þú upphaflega út einhverja afleiginleika og áttaðir þig á því að álagið á allt kerfið yrði frekar mikið?

Andrew: Ef þú býrð til samstillingarþjónustu fyrir slíkan markhóp, þá er það ekki mjög erfitt. Í öllum tilvikum mistakast beiðnir ekki á einni nóttu. Já, álagið er mikið, en það er ekki neyðartilvik. Spurning hvort það sé þess virði að eyða fjármagni og tíma í þetta ef netið slokknar allt í einu. Við vorum ekki viss um að þetta myndi ekki gerast. Á endanum virkaði allt, með truflunum vegna álags, en það virkaði og við samstilltum í samræmi við tímakóðann eftir öðru kerfi. Þetta var ein af alþjóðlegum áskorunum.

Erfiðleikar við innleiðingu frá UX sjónarhorni

Tímakóði (eftir hljóðútgáfur) — 10:42

Andrew: Við þurftum líka að taka með í reikninginn að völlurinn er ekki klassískur tónleikastaður og samstilla kerfin yfir rýmið fyrir farsíma. Svo, fyrir nokkru síðan fór ég í veiru saga um aukinn veruleika á Eminem tónleikum, þá var mál með Loboda.

Photo Shoot Robert bless (Unsplash.com)
Podcast „ITMO Research_“: hvernig á að nálgast samstillingu AR efnis við sýningu á mælikvarða heils leikvangsEn þetta er alltaf upplifun fyrir framan þig - allur hópurinn stendur fyrir framan sviðið, samstillingin er frekar einföld. Ef um völl er að ræða þarf að gera sér grein fyrir því hvoru megin hringsins þú ert, hlutfallslega stöðu, þannig að völlurinn passi inn í rýmið sem er í sýndarumhverfinu. Það var súr áskorun. Þeir reyndu að leysa það með ýmsum hætti, og niðurstaðan varð tilfelli nálægt því sem var útfært af Loboda, en ekki að öllu leyti.

Við leyfum notandanum að ákveða hvar hann er. Við gerðum merkingar fyrir völlinn þar sem fólk valdi sér geira, röð, stað. Allt þetta í fjórum „smellum“. Næst þurftum við að ákveða stefnuna á sviðið. Til að gera þetta sýndum við skuggamynd af því hvernig atriðið ætti í grófum dráttum að líta út frá sérsniðnu sjónarhorni. Hann sameinaði það, pikkaði og það er það - sviðið settist niður. Við reyndum að einfalda þetta ferli eins mikið og hægt var. Samt eru 90% áhorfenda sem vildu horfa á þáttinn ekki þeir sem hafa reynslu af samskiptum við aukinn veruleika.

Dmitriy: Var sérstök umsókn fyrir þetta verkefni?

Andrew: Já, forrit fyrir iOS og Android, sem við ýttum í búðina. Það var sérstök kynningarherferð fyrir það. Áður var lýst í smáatriðum hvernig á að hlaða niður og svo framvegis.

Dmitriy: Þú þarft að skilja að það er enginn staður fyrir mann til að prófa líkamlega og læra hvernig á að nota slíkt forrit. Þess vegna varð verkefnið að „fræða“ áhorfendur flóknara.

Andrew: Já já. Með UX fengum við mikið af höggum vegna þess að notandinn vill fá upplifunina með þremur smellum: hlaðið niður, sett upp, ræst - það virkaði. Margir eru of latir til að fylgja flóknum leiðbeiningum, lesa leiðbeiningar og svo framvegis. Og við reyndum ekki að útskýra allt fyrir notandanum eins mikið og mögulegt er í kennslunni: gluggi opnast hér, aðgangur að myndavélinni hér, annars virkar hún ekki, og svo framvegis. Sama hversu margar skýringar þú skrifar, sama hversu ítarlegar þú tyggur það, sama hvaða gifs þú setur inn, fólk les það ekki.

Í Minsk söfnuðum við miklum viðbrögðum um þennan hluta og höfum þegar breytt miklu fyrir forritið í Kazan. Við settum ekki aðeins inn hljóðrit og tímakóða sem samsvara tilteknum þætti aukins veruleika, heldur tókum við öll hljóðritin og tímakóðann í heild sinni. Þannig að forritið heyrði hvað var að gerast þegar það var ræst, og - ef einstaklingur skráði sig inn á röngum augnabliki - gaf það út upplýsingarnar: „Félagi, fyrirgefðu, AR þátturinn þinn verður eftir 15 mínútur.

Smá um arkitektúrinn og nálgun við samstillingu

Tímakóði (eftir hljóðútgáfur) — 16:37

Dmitriy: Ákváðuð þið að samstilla með hljóði?

Andrew: Já, það gerðist óvart. Við vorum að skoða valkosti og rákumst á fyrirtæki Cifrasoft frá Izhevsk. Þeir búa til ekki sérstaklega háþróaða, en járnvinnandi SDK, sem gerir þér kleift að samstilla hljóðið við tímasetninguna. Kerfið var staðsett til að vinna með sjónvarpi, þegar þú getur sýnt eitthvað í forriti sem byggir á hljóði skilyrtrar auglýsingar eða gefið gagnvirka upplifun byggða á kvikmyndalagið.

Dmitriy: En það er eitt - þú situr í stofunni þinni og annað - leikvangur með þúsundum manna. Hvernig reyndust hlutirnir fyrir þig með gæðum hljóðupptöku og síðari viðurkenningu?

Andrew: Það var mikill ótti og efasemdir, en í flestum tilfellum var allt vel viðurkennt. Þeir búa til undirskriftir á hljóðrásinni með lævísum reikniritum sínum - niðurstaðan vegur minna en upprunalega hljóðskráin. Þegar hljóðneminn hlustar á hljóðið í kring reynir hann að finna þessa eiginleika og þekkja lagið út frá þeim. Við góðar aðstæður er samstillingarnákvæmni 0,1-0,2 sekúndur. Þetta var meira en nóg. Við slæmar aðstæður var misræmið allt að 0,5 sekúndur.

Mikið veltur á tækinu. Við unnum með stóran tækjaflota. Fyrir iPhone eru aðeins 10 gerðir. Þeir virkuðu vel hvað varðar gæði og aðra eiginleika. En með androids er dýragarðurinn eins og móðir mín. Ekki alls staðar kom í ljós að hljóðsamstillingin virkaði. Það voru tilvik þar sem ómögulegt var að heyra mismunandi lög á mismunandi tækjum vegna sérkennis. Einhvers staðar hverfa lágtíðnin, einhvers staðar byrja hátíðnin að blístra. En ef tækið var með normalizer á hljóðnemanum virkaði samstillingin alltaf.

Dmitriy: Vinsamlegast segðu okkur frá arkitektúrnum - hvað var notað í verkefnið?

Andrew: Við gerðum forritið í Unity - einfaldasta kostinn hvað varðar fjölvettvang og að vinna með grafík. Notaði AR Foundation. Við sögðum strax að við vildum ekki flækja kerfið, svo við takmörkuðum okkur við flota tækja sem styðja ARKit og ARCore til að hafa tíma til að prófa allt. Við gerðum viðbót fyrir DigitalSoft SDK, það er á GitHub okkar. Við bjuggum til vefumsjónarkerfi þannig að forskriftir myndu keyra í samræmi við tímalínuna.

Við föndruðum aðeins við agnakerfið, því notandinn getur farið inn hvenær sem er í tilteknum þætti og við þurfum að hann sjái allt frá því augnabliki sem hann samstillti sig. Við fiktum við kerfi sem gerir kleift að spila atburðarás skýrt í tíma, svo hægt sé að fletta þrívíddarupplifuninni fram og til baka, eins og í kvikmynd. Þó að það virki út fyrir kassann með klassískum hreyfimyndum, þurftum við að fikta við agnakerfi. Á einhverjum tímapunkti byrja þeir að spawna og ef þú finnur þig einhvers staðar fyrir spawnpunktinn eru þeir ekki enn fæddir, þó svo virðist sem þeir ættu að vera það. En þetta vandamál er í raun frekar auðvelt að leysa.

Fyrir farsímahlutann er arkitektúrinn frekar einfaldur. Fyrir sjónvarpsútsendingar er allt flóknara. Við höfðum takmarkanir á vélbúnaði. Viðskiptavinurinn setti skilyrði: „Hér erum við með svona og svona vélbúnaðargarð, í grófum dráttum, allt þarf að vinna á honum.“ Við lögðum strax áherslu á þá staðreynd að við myndum vinna með tiltölulega lággjaldamyndatökukort. En fjárhagsáætlun þýðir ekki að þeir séu slæmir.

Það voru takmarkanir á vélbúnaði, á myndupptökukortum og vinnuskilyrðum - hvernig við ættum að taka á móti myndinni. Handtakakort - Blackmagic Design, unnið samkvæmt innri lyklakerfi - þetta er þegar myndbandsrammi kemur til þín frá myndavélinni. Kortið er með eigin vinnslukubba þar sem rammi er einnig settur inn sem verður að leggja ofan á þann sem kemur inn. Kortið blandar þeim saman - við snertum ekki neitt annað þar og höfum ekki áhrif á rammann frá myndbandsupptökuvélinni. Hún spýtir niðurstöðunni út í stjórnklefann í gegnum myndbandsúttakið. Þetta er góð aðferð til að leggja yfir titla og annað svipað, en hún hentar ekki mjög vel fyrir blandaðan raunveruleikaáhrif vegna þess að það eru margar takmarkanir á rendering pipeline.

Dmitriy: Hvað varðar rauntímatölvu, hlutbindingu eða eitthvað annað?

Andrew: Hvað varðar gæði og að ná tilætluðum áhrifum. Vegna þess að við vitum ekki hvað við erum að setja myndina ofan á. Við sendum einfaldlega upplýsingar um lit og gagnsæi ofan á upprunalega strauminn. Sum áhrif eins og ljósbrot, rétt gagnsæi og viðbótarskugga er ekki hægt að ná með þessu kerfi. Til að gera þetta þarftu að gera allt saman. Til dæmis er engin leið til að skapa áhrif loftskekkju frá eldi eða heitu malbiki. Sama gildir um tilfærslu gagnsæisáhrifa að teknu tilliti til brotstuðuls. Við gerðum upphaflega efni út frá þessum takmörkunum og reyndum að nota viðeigandi áhrif.

Skoða þessa færslu á Instagram

Lok II Evrópuleikanna í Minsk.

A staða deilt með Alena Lanskaya (@alyonalanskaya) þann 30. júní 2019 kl. 3:19 PDT

Dmitriy: Varstu nú þegar með eigið efni í fyrsta verkefninu fyrir Evrópuleikana?

Andrew: Nei, aðalstig efnisþróunar var gert af strákunum frá Sechenov.com. Grafíkarar þeirra teiknuðu grunnefnið með hreyfimyndum og öðru. Og við settum allt inn í vélina, bættum við aukabrellum, aðlaguðum hana þannig að allt virkaði rétt.

Ef við tölum um leiðsluna, þá settum við allt saman fyrir sjónvarpsútsendingar á Unreal Engine 4. Fyrir tilviljun byrjuðu þeir á því augnabliki að efla tækin sín fyrir blandaðan veruleika. Það kom í ljós að allt er ekki svo einfalt. Jafnvel nú eru öll verkfæri hrá, við þurftum að klára mikið í höndunum. Í Minsk unnum við að sérsmíði á vélinni, það er að segja við endurskrifuðum nokkra hluti inni í vélinni þannig að við gætum til dæmis teiknað skugga ofan á raunverulega hluti. Á þeirri útgáfu af vélinni sem var núverandi á þeim tíma voru engir eiginleikar sem leyfðu að þetta væri gert með venjulegum verkfærum. Af þessum sökum bjuggu strákarnir okkar til sína eigin sérsniðnu samsetningu til að útvega allt sem var bráðnauðsynlegt.

Önnur blæbrigði og aðlögun að WorldSkills í Kazan

Tímakóði (eftir hljóðútgáfur) — 31:37

Dmitriy: En allt þetta á frekar stuttum tíma?

Andrew: Frestir voru þröngir Kazan verkefnið, samkvæmt Minsk - eðlilegt. Um hálft ár til uppbyggingar, en að teknu tilliti til þess að sex manns áttu í hlut. Á sama tíma vorum við að búa til farsímahlutann og þróa tæki til sjónvarpsframleiðslu. Það var ekki aðeins myndúttak. Til dæmis rakningarkerfi með ljósfræði, til þess þurftir þú að búa til þín eigin verkfæri.

Dmitriy: Var einhver aðlögun frá einu verkefni til annars? Á einum og hálfum mánuði þurfti að nýta þróunina og flytja verkefnið með nýju efni yfir á nýja síðu?

Andrew: Já, það var í einn og hálfan mánuð. Við höfðum skipulagt tveggja vikna frí fyrir allt liðið eftir Minsk verkefnið. En strax eftir lokun koma strákarnir frá Sechenov.com upp og segja: „Jæja, þá skulum við fara í Kazan. Við náðum samt að hvíla okkur örlítið en fórum frekar fljótt yfir í þetta verkefni. Við kláruðum tæknivinnu. Mestur tíminn fór í efni, því fyrir WorldSkills gerðum við það alfarið, við samræmdum það bara við framleiðsluteymið. Það var aðeins handrit af þeirra hálfu. En það var auðveldara - það var engin þörf á auka endurtekningu. Þegar þú býrð til efni sjálfur sérðu strax hvernig það virkar í vélinni og þú getur fljótt breytt og samræmt.


Varðandi farsímahlutann tókum við tillit til allra fíngerða sem við höfðum í Minsk. Við gerðum nýja forritshönnun, endurhönnuðum arkitektúrinn aðeins, bættum við kennsluefni, en reyndum að gera það eins stutt og skýrt og hægt var. Við fækkuðum fjölda notendaskrefa frá því að ræsa forritið til að skoða innihaldið. Einn og hálfur mánuður var nóg til að ljúka viðunandi verkefni. Eftir eina og hálfa viku komumst við á síðuna. Þar var auðveldara að vinna þar sem allt eftirlit með verkefninu var í höndum skipuleggjenda, ekki þurfti að samræma við aðrar nefndir. Það var einfaldara og auðveldara að vinna í Kazan og alveg eðlilegt að það væri minni tími.

Dmitriy: En ákvaðstu að láta nálgunina við samstillingu vera eins og hún var, byggð á hljóði?

Andrew: Já, við fórum frá því með hljóði. Það tókst vel. Eins og þeir segja, ef það virkar, ekki snerta það. Við tókum einfaldlega tillit til blæbrigða á gæðum hljóðrásarinnar. Þegar þeir gerðu introið var þjálfunarþáttur sem fólk gat prófað áður en þátturinn byrjaði. Það kom á óvart að þegar á því augnabliki sem brautin er spiluð á leikvanginum er stormandi lófaklapp, „í beinni“, gerir kerfið þér kleift að samstilla vel við þetta lag, en ef á þessu augnabliki er hljóðritað lófaklapp blandað við lagið, þá lag er ekki lengur veiddur. Tekið var tillit til slíkra blæbrigða og allt var samstillt nokkuð vel hvað hljóð varðar.

PS Í seinni hluta blaðsins er fjallað um sjónræna gagnasýn, ferlilíkön í öðrum verkefnum, leikjaþróun og meistaranámið "Tölvuleikjaþróunartækni" Við birtum framhaldið í næstu grein. Þú getur hlustað og stutt okkur hér:

PPS Á meðan, á ensku útgáfunni af Habr: nánari skoðun á ITMO háskólanum.

Heimild: www.habr.com

Bæta við athugasemd