Podcast "ITMO Research_": cara mendekati penyegerakan kandungan AR dengan rancangan pada skala keseluruhan stadium

Ini adalah bahagian pertama transkrip teks wawancara kedua untuk program kami (Podcast Apple, Yandex.Muzik). Tetamu Keluaran - Andrey Karsakov (kapc3d), Ph.D., penyelidik kanan di Pusat Penyelidikan Kognitif Kebangsaan, profesor bersekutu di Fakulti Transformasi Digital.

Sejak 2012, Andrey telah bekerja dalam kumpulan penyelidikan Visualisasi dan Grafik Komputer. Terlibat dalam projek besar yang digunakan di peringkat negeri dan antarabangsa. Dalam bahagian perbualan ini, kita bercakap tentang pengalamannya dalam sokongan AR untuk acara awam.

Podcast "ITMO Research_": cara mendekati penyegerakan kandungan AR dengan rancangan pada skala keseluruhan stadium
Photo Ini RAEng Kejuruteraan (Unsplash.com)

Konteks dan objektif projek

Kod masa (oleh versi audio) β€” 00:41

dmitrykabanov: Saya ingin memulakan dengan projek Sukan Eropah. Ia berbilang komponen, beberapa pasukan mengambil bahagian dalam persiapan, dan menyediakan realiti tambahan untuk ribuan penonton semasa acara di stadium adalah tugas yang agak serius. Dari segi penglibatan anda, adakah perisian pertama?

kapc3d: Ya, kami melakukan bahagian pengaturcaraan dan memberikan sokongan semasa persembahan. Ia adalah perlu untuk menjejaki, memantau dan melancarkan segala-galanya dalam masa nyata, dan juga bekerjasama dengan kumpulan televisyen. Jika kita mempertimbangkan projek ini secara keseluruhan, maka kita boleh bercakap tentang upacara pembukaan dan penutupan Sukan Eropah di Minsk, serta mengenai upacara pembukaan kejohanan WorldSkills di Kazan. Ia adalah skema kerja yang sama, tetapi acara yang berbeza. Terdapat jurang dua bulan antara mereka. Kami menyediakan projek itu bersama-sama dengan lelaki dari syarikat itu Sechenov.com.

Kami bertemu mereka secara kebetulan Pesta Sains, yang berlaku pada musim luruh 2018. Pelajar sarjana kami mempamerkan projek kursus mereka mengenai topik VR. Lelaki itu datang kepada kami dan bertanya apa yang kami lakukan di makmal kami. Ia kelihatan seperti ini:

β€” Anda bekerja dengan VR, tetapi bolehkah anda bekerja dengan realiti tambahan?

- Ya, agak, ya.

- Terdapat tugas sedemikian, dengan nota pengenalan sedemikian. Boleh awak lakukannya?

Mereka menggaru sedikit lobak mereka, nampaknya tidak ada apa-apa yang tidak realistik:

- Mari kita cuba mengkaji segala-galanya dahulu, dan kemudian mencari penyelesaian.

Dmitriy: Adakah mereka hanya menyediakan sokongan media?

Andrew: Mereka membuat timbunan penuh. Dari sudut pandangan pengurusan dan organisasi, mereka terlibat sepenuhnya dalam pengarahan, pementasan, pemilihan pemandangan, logistik dan sokongan teknikal yang lain. Tetapi mereka mahu melakukan sesuatu yang istimewa untuk Sukan Eropah. Kesan khas ini, seperti realiti campuran, telah dibuat untuk televisyen untuk masa yang agak lama, tetapi ia bukanlah yang paling mesra bajet dari segi pelaksanaan teknikal. Oleh itu, lelaki itu mencari pilihan alternatif.

Dmitriy: Mari kita bincangkan masalah dengan lebih terperinci. Terdiri daripada apa?

Andrew: Ada acara. Ia berlangsung satu setengah jam. Kami perlu memastikan penonton yang menontonnya secara langsung dan mereka yang duduk di stadium dapat melihat kesan realiti tambahan dalam penyegerakan penuh dengan rancangan langsung dari segi masa dan lokasi di tapak.

Terdapat beberapa batasan teknikal. Adalah mustahil untuk melakukan penyegerakan masa melalui Internet, kerana terdapat kebimbangan mengenai beban berlebihan pada rangkaian dengan pendirian penuh dan prospek ketua negara menghadiri acara itu, yang boleh menyekat rangkaian mudah alih.

Andrey Karsakov, gambar dari bahan dari Universiti ITMO
Podcast "ITMO Research_": cara mendekati penyegerakan kandungan AR dengan rancangan pada skala keseluruhan stadiumKami mempunyai dua komponen utama untuk projek ini - pengalaman peribadi yang orang boleh perolehi melalui peranti mudah alih, dan perkara yang masuk ke dalam siaran televisyen dan skrin maklumat di stadium itu sendiri.

Jika tiba-tiba seseorang menonton episod realiti tambahan melalui peranti mudah alih dan pada masa yang sama muncul di skrin, dia sepatutnya melihat gambar yang sama.

Kami memerlukan dua sistem yang hampir berbeza untuk disegerakkan sepenuhnya dalam masa. Tetapi keistimewaan rancangan sedemikian adalah bahawa ini adalah acara yang kompleks di mana sejumlah besar perkhidmatan teknikal terlibat dan semua operasi dilakukan mengikut kod masa. Kod masa ialah detik tertentu dalam masa di mana sesuatu bermula: cahaya, bunyi, orang pergi, kelopak pentas dibuka dan sebagainya. Kami terpaksa menyesuaikan diri dengan sistem ini supaya semuanya bermula pada masa yang sesuai. Ciri lain ialah adegan dan episod dengan realiti tambahan adalah berkaitan skrip.

Dmitriy: Tetapi adakah anda memutuskan untuk meninggalkan penggunaan kod masa kerana risiko force majeure yang tinggi, atau adakah anda pada mulanya mengira beberapa ciri kuasa dan menyedari bahawa beban pada keseluruhan sistem akan menjadi agak tinggi?

Andrew: Jika anda membuat perkhidmatan penyegerakan untuk khalayak sedemikian, maka ia tidak begitu sukar. Walau apa pun, permintaan tidak akan gagal dalam sekelip mata. Ya, bebannya tinggi, tetapi ini bukan kecemasan. Persoalannya ialah sama ada ia bernilai menghabiskan sumber dan masa untuk ini jika rangkaian tiba-tiba terputus. Kami tidak pasti ini tidak akan berlaku. Akhirnya, semuanya berfungsi, dengan gangguan disebabkan oleh beban, tetapi ia berfungsi, dan kami menyegerakkan mengikut kod masa mengikut skema yang berbeza. Ini adalah salah satu cabaran global.

Kesukaran pelaksanaan dari sudut UX

Kod masa (oleh versi audio) β€” 10:42

Andrew: Kami juga perlu mengambil kira bahawa stadium bukanlah tempat konsert klasik, dan menyegerakkan sistem merentasi ruang untuk peranti mudah alih. Jadi, suatu ketika dahulu saya viral cerita realiti tambahan di konsert Eminem, kemudian ada kes dengan Loboda.

Photo Robert Bye (Unsplash.com)
Podcast "ITMO Research_": cara mendekati penyegerakan kandungan AR dengan rancangan pada skala keseluruhan stadiumTetapi ini sentiasa menjadi pengalaman di hadapan anda - seluruh orang ramai berdiri di hadapan pentas, penyegerakan agak mudah. Dalam kes stadium, anda perlu memahami bahagian mana bulatan anda berada, kedudukan relatif, supaya stadium sesuai dengan ruang yang wujud dalam persekitaran maya. Ia adalah cabaran yang masam. Mereka cuba menyelesaikannya dalam pelbagai cara, dan hasilnya adalah kes yang hampir dengan apa yang dilaksanakan oleh Loboda, tetapi tidak dalam semua aspek.

Kami membiarkan pengguna memutuskan di mana dia berada. Kami membuat penandaan untuk stadium, di mana orang ramai memilih sektor, barisan, tempat. Semua ini dalam empat "klik". Seterusnya kami terpaksa menentukan arah ke pentas. Untuk melakukan ini, kami menunjukkan siluet tentang rupa kira-kira pemandangan itu dari perspektif tersuai. Dia menggabungkannya, mengetuk dan itu sahaja - pentas duduk. Kami cuba memudahkan proses ini sebanyak mungkin. Namun, 90% daripada penonton yang ingin menonton rancangan itu bukanlah mereka yang mempunyai pengalaman berkomunikasi dengan realiti tambahan.

Dmitriy: Adakah terdapat permohonan berasingan untuk projek ini?

Andrew: Ya, aplikasi untuk iOS dan Android, yang kami tolak ke kedai. Terdapat kempen promosi yang berasingan untuknya. Sebelum ini telah diterangkan secara terperinci cara memuat turun dan sebagainya.

Dmitriy: Anda perlu memahami bahawa tidak ada tempat untuk seseorang menguji secara fizikal dan belajar cara menggunakan aplikasi sedemikian. Oleh itu, tugas "mendidik" penonton menjadi lebih rumit.

Andrew: Ya Ya. Dengan UX, kami mendapat banyak masalah, kerana pengguna ingin mendapatkan pengalaman dalam tiga klik: dimuat turun, dipasang, dilancarkan - ia berjaya. Ramai orang terlalu malas untuk mengikuti tutorial yang kompleks, membaca tutorial, dan sebagainya. Dan kami tidak cuba menjelaskan segala-galanya kepada pengguna sebanyak mungkin dalam tutorial: tetingkap akan dibuka di sini, akses kepada kamera di sini, jika tidak, ia tidak akan berfungsi, dan sebagainya. Tidak kira berapa banyak penjelasan yang anda tulis, tidak kira seberapa terperinci anda mengunyahnya, tidak kira apa gif yang anda masukkan, orang tidak membacanya.

Di Minsk kami mengumpul banyak maklum balas mengenai bahagian ini, dan telah banyak berubah untuk aplikasi di Kazan. Kami meletakkan di sana bukan sahaja fonogram dan kod masa yang sepadan dengan episod realiti tambahan tertentu, tetapi kami mengambil semua fonogram dan kod masa secara keseluruhannya. Jadi aplikasi mendengar apa yang berlaku pada masa pelancaran, dan - jika seseorang log masuk pada masa yang salah - ia memberikan maklumat: "Kawan, saya minta maaf, episod AR anda akan berada dalam masa 15 minit."

Sedikit tentang seni bina dan pendekatan penyegerakan

Kod masa (oleh versi audio) β€” 16:37

Dmitriy: Adakah anda memutuskan untuk menyegerakkan melalui bunyi?

Andrew: Ya, ia berlaku secara tidak sengaja. Kami sedang mencari pilihan dan terjumpa sebuah syarikat Cifrasoft dari Izhevsk. Mereka membuat SDK yang tidak begitu canggih, tetapi berfungsi dengan besi, yang membolehkan anda menyegerakkan bunyi dengan pemasaan. Sistem ini diletakkan untuk berfungsi dengan TV, apabila anda boleh memaparkan sesuatu dalam aplikasi berdasarkan bunyi iklan bersyarat atau memberikan pengalaman interaktif berdasarkan trek filem.

Dmitriy: Tetapi ini satu perkara - anda sedang duduk di ruang tamu anda, dan satu lagi perkara - stadium dengan beribu-ribu orang. Bagaimana keadaan anda berjaya dengan kualiti rakaman bunyi dan pengecaman seterusnya?

Andrew: Terdapat banyak ketakutan dan keraguan, tetapi dalam kebanyakan kes semuanya diiktiraf dengan baik. Mereka membina tandatangan pada trek audio dengan algoritma licik mereka - hasilnya kurang berat daripada fail audio asal. Apabila mikrofon mendengar bunyi sekeliling, ia cuba mencari ciri ini dan mengecam trek berdasarkan ciri tersebut. Dalam keadaan baik, ketepatan penyegerakan ialah 0,1-0,2 saat. Ini sudah lebih daripada cukup. Dalam keadaan buruk, percanggahan adalah sehingga 0,5 saat.

Banyak bergantung pada peranti. Kami bekerja dengan kumpulan peranti yang besar. Untuk iPhone ada 10 model sahaja. Mereka berfungsi dengan baik dari segi kualiti dan ciri lain. Tetapi dengan android zoo adalah seperti ibu saya. Tidak di mana-mana ternyata penyegerakan bunyi berfungsi. Terdapat kes apabila adalah mustahil untuk mendengar trek yang berbeza pada peranti yang berbeza disebabkan oleh beberapa keanehan. Di suatu tempat frekuensi rendah hilang, di suatu tempat frekuensi tinggi mula berdehit. Tetapi jika peranti mempunyai normalizer pada mikrofon, penyegerakan sentiasa berfungsi.

Dmitriy: Sila beritahu kami tentang seni bina - apakah yang digunakan dalam projek itu?

Andrew: Kami membuat aplikasi dalam Unity - pilihan paling mudah dari segi berbilang platform dan bekerja dengan grafik. Yayasan AR terpakai. Kami segera mengatakan bahawa kami tidak mahu merumitkan sistem, jadi kami mengehadkan diri kami kepada kumpulan peranti yang menyokong ARKit dan ARCore untuk mempunyai masa untuk menguji segala-galanya. Kami membuat pemalam untuk DigitalSoft SDK, ia berada di GitHub kami. Kami mencipta sistem pengurusan kandungan supaya skrip berjalan mengikut garis masa.

Kami bermain-main sedikit dengan sistem zarah, kerana pengguna boleh masuk pada bila-bila masa dalam episod tertentu, dan kami memerlukannya untuk melihat segala-galanya dari saat dia menyegerakkan. Kami bermain-main dengan sistem yang membolehkan senario dimainkan dengan jelas mengikut masa, supaya pengalaman XNUMXD boleh ditatal ke depan dan ke belakang, seperti dalam filem. Walaupun ia berfungsi di luar kotak dengan animasi klasik, kami terpaksa bermain-main dengan sistem zarah. Pada satu ketika, mereka mula bertelur, dan jika anda mendapati diri anda berada di suatu tempat sebelum titik bertelur, mereka masih belum dilahirkan, walaupun ia kelihatan seperti sepatutnya. Tetapi masalah ini sebenarnya agak mudah untuk diselesaikan.

Untuk bahagian mudah alih, seni binanya agak mudah. Untuk penyiaran televisyen semuanya lebih rumit. Kami mempunyai sekatan perkakasan. Pelanggan menetapkan syarat: "Di sini kami mempunyai taman perkakasan ini dan ini, secara kasarnya, semuanya perlu diusahakan." Kami segera menumpukan pada fakta bahawa kami akan bekerja dengan kad tangkapan video yang agak bajet. Tetapi bajet tidak bermakna mereka buruk.

Terdapat sekatan pada perkakasan, pada kad tangkapan video dan pada keadaan kerja - bagaimana kita harus menerima gambar itu. Kad tangkap - Reka Bentuk Blackmagic, berfungsi mengikut skema kekunci Dalaman - ini adalah apabila bingkai video datang kepada anda daripada kamera. Kad itu mempunyai cip pemprosesan sendiri, di mana bingkai juga dimasukkan, yang mesti ditumpangkan di atas yang masuk. Kad itu mencampurkannya - kami tidak menyentuh apa-apa lagi di sana dan tidak menjejaskan bingkai daripada kamera video. Dia meludahkan hasilnya ke bilik kawalan melalui output video. Ini ialah kaedah yang baik untuk menindih tajuk dan perkara lain yang serupa, tetapi ia tidak begitu sesuai untuk kesan realiti campuran kerana terdapat banyak sekatan pada saluran paip render.

Dmitriy: Dari segi pengkomputeran masa nyata, pengikatan objek, atau sesuatu yang lain?

Andrew: Dari segi kualiti dan mencapai kesan yang diingini. Kerana kita tidak tahu apa yang kita letakkan gambar di atas. Kami hanya menghantar maklumat warna dan ketelusan di atas strim asal. Beberapa kesan seperti pembiasan, ketelusan yang betul dan bayang-bayang tambahan tidak boleh dicapai dengan skema ini. Untuk melakukan ini, anda perlu membuat semuanya bersama-sama. Sebagai contoh, tiada cara untuk mencipta kesan herotan udara daripada api atau asfalt panas. Begitu juga dengan pemindahan kesan ketelusan dengan mengambil kira indeks biasan. Kami pada mulanya membuat kandungan berdasarkan sekatan ini dan cuba menggunakan kesan yang sesuai.

Lihat siaran ini di Instagram

Penutupan Sukan Eropah II di Minsk.

Jawatan yang dikongsi oleh Alena Lanskaya (@alyonalanskaya) pada 30 Jun 2019 jam 3:19 petang PDT

Dmitriy: Adakah anda sudah mempunyai kandungan anda sendiri dalam projek pertama untuk Sukan Eropah?

Andrew: Tidak, peringkat utama pembangunan kandungan dilakukan oleh lelaki dari Sechenov.com. Artis grafik mereka melukis kandungan asas dengan animasi dan perkara lain. Dan kami menyepadukan segala-galanya ke dalam enjin, menambah kesan tambahan, menyesuaikannya supaya semuanya berfungsi dengan betul.

Jika kita bercakap tentang saluran paip, maka untuk penyiaran televisyen kami memasang segala-galanya pada Unreal Engine 4. Secara kebetulan, mereka pada masa itu mula meningkatkan alat mereka untuk realiti campuran. Ternyata semuanya tidak begitu mudah. Sekarang pun semua alatan masih mentah; kami terpaksa menyiapkan banyak perkara dengan tangan. Di Minsk kami mengusahakan binaan tersuai enjin, iaitu, kami menulis semula beberapa perkara di dalam enjin supaya, sebagai contoh, kami boleh melukis bayang-bayang di atas objek sebenar. Versi enjin yang semasa pada masa itu tidak mempunyai ciri yang membolehkan ini dilakukan menggunakan alat standard. Atas sebab ini, pekerja kami membuat pemasangan tersuai mereka sendiri untuk menyediakan segala-galanya yang amat diperlukan.

Nuansa lain dan penyesuaian kepada WorldSkills di Kazan

Kod masa (oleh versi audio) β€” 31:37

Dmitriy: Tetapi semua ini dalam tempoh masa yang agak singkat?

Andrew: Tarikh akhir adalah padat projek Kazan, menurut Minsk - biasa. Kira-kira enam bulan untuk pembangunan, tetapi mengambil kira fakta bahawa enam orang terlibat. Pada masa yang sama, kami membuat bahagian mudah alih dan membangunkan alatan untuk pengeluaran televisyen. Terdapat bukan sahaja output gambar. Sebagai contoh, sistem penjejakan dengan optik, untuk ini anda perlu mencipta alat anda sendiri.

Dmitriy: Adakah terdapat sebarang penyesuaian daripada satu projek ke projek yang lain? Dalam sebulan setengah, adakah perlu untuk mengambil kesempatan daripada perkembangan dan memindahkan projek dengan kandungan baharu ke tapak baharu?

Andrew: Ya, selama sebulan setengah. Kami telah merancang percutian selama dua minggu untuk seluruh pasukan selepas projek Minsk. Tetapi sejurus selepas penutupan, lelaki dari Sechenov.com datang dan berkata: "Baiklah, mari kita lakukan Kazan." Kami masih dapat berehat sedikit, tetapi beralih kepada projek ini dengan cepat. Kami menyelesaikan beberapa kerja teknikal. Kebanyakan masa dihabiskan untuk kandungan, kerana untuk WorldSkills kami melakukannya sepenuhnya, kami hanya menyelaraskannya dengan pasukan produksi. Hanya ada skrip di pihak mereka. Tetapi ia lebih mudah - tidak perlu untuk lelaran tambahan. Apabila anda mencipta kandungan sendiri, anda akan melihat dengan serta-merta cara kandungan tersebut berfungsi dalam enjin, dan anda boleh mengedit dan menyelaraskan dengan cepat.


Mengenai bahagian mudah alih, kami mengambil kira semua kehalusan yang kami ada di Minsk. Kami membuat reka bentuk aplikasi baharu, mereka bentuk semula sedikit seni bina, menambah tutorial, tetapi cuba menjadikannya sesingkat dan sejelas mungkin. Kami mengurangkan bilangan langkah pengguna daripada melancarkan aplikasi kepada melihat kandungan. Sebulan setengah sudah cukup untuk menyiapkan projek yang mencukupi. Dalam seminggu setengah kami sampai ke tapak. Lebih mudah untuk bekerja di sana kerana semua kawalan ke atas projek adalah di tangan penganjur, tidak perlu menyelaraskan dengan jawatankuasa lain. Ia adalah lebih mudah dan lebih mudah untuk bekerja di Kazan dan ia adalah perkara biasa bahawa terdapat sedikit masa.

Dmitriy: Tetapi adakah anda memutuskan untuk meninggalkan pendekatan kepada penyegerakan sebagaimana adanya, berdasarkan bunyi?

Andrew: Ya, kami meninggalkannya dengan bunyi. Ia berfungsi dengan baik. Seperti yang mereka katakan, jika ia berfungsi, jangan sentuhnya. Kami hanya mengambil kira nuansa kualiti trek audio. Apabila mereka membuat intro, terdapat episod latihan untuk orang ramai mencuba sebelum pertunjukan bermula. Sungguh mengejutkan apabila pada saat bermain trek di stadium terdapat tepukan ribut, "live", sistem membolehkan anda menyegerakkan dengan baik dengan trek ini, tetapi jika pada masa ini tepukan yang dirakam bercampur dengan trek, maka trek tidak lagi ditangkap. Nuansa sedemikian telah diambil kira, dan semuanya disegerakkan dengan baik dari segi bunyi.

PS Dalam bahagian kedua isu ini kita bercakap tentang visualisasi data saintifik, pemodelan proses dalam projek lain, pembangunan permainan dan program sarjana "Teknologi pembangunan permainan komputer" Kami akan menerbitkan sambungan dalam artikel seterusnya. Anda boleh mendengar dan menyokong kami di sini:

PPS Sementara itu, pada versi bahasa Inggeris Habr: melihat lebih dekat Universiti ITMO.

Sumber: www.habr.com

Tambah komen