播客「ITMO Research_」:如何實現 AR 內容與整個體育場規模的演出同步

這是我們節目第二次訪談的文字記錄的第一部分(蘋果播客, Yandex.音樂)。 問題嘉賓- 安德烈·卡爾薩科夫 (卡普3D),博士,國家認知研究中心高級研究員,數位轉型學院副教授。

自 2012 年以來,Andrey 一直在視覺化和電腦圖形研究組工作。 曾參與國家級及國際級大型應用計畫。 這一部分的對話,我們聊聊他在AR支持公共活動的經驗。

播客「ITMO Research_」:如何實現 AR 內容與整個體育場規模的演出同步
照片 這就是工程 RAEng (Unsplash.com)

專案背景和目標

時間碼(透過 音訊版本) — 00:41

德米特里·卡巴諾夫: 我想從歐洲運動會計畫開始。它是由多個組成部分組成的,多個團隊參與了準備工作,在體育場舉行的活動期間為數千名觀眾提供擴增實境是一項相當艱鉅的任務。就您的參與而言,是軟體優先嗎?

卡普3D: 是的,我們做了編程部分並在演出期間提供了支援。有必要即時追蹤、監控和啟動一切,並與電視集團合作。如果我們把這個項目作為一個整體來考慮,那麼我們可以談談開幕式和閉幕式 歐洲運動會 在明斯克,以及錦標賽開幕式 世界技能大賽 在喀山。 這是相同的工作計劃,但事件不同。 他們之間有兩個月的差距。 我們和公司的人一起準備了這個項目 謝切諾夫網站.

我們偶然遇見了他們 科學節,發生在2018年秋天。 我們的碩士生展示了他們關於 VR 主題的課程專案。 這些人走過來問我們在實驗室做什麼。 它看起來像這樣:

— 你使用 VR 工作,但你能使用擴增實境嗎?

- 嗯,有點,是的。

- 有這樣一個任務,有這樣的介紹性筆記。你可以做到嗎?

他們稍微搔了一下蘿蔔,似乎沒有什麼不切實際的地方:

- 讓我們先嘗試研究一切,然後找到解決方案。

德米特里: 他們只提供媒體支援嗎?

安德魯: 他們組成了一個完整的堆疊。 從管理和組織的角度來看,他們完全參與導演、佈景、佈景選擇、後勤和其他技術支援。 但他們想為歐洲運動會做一些特別的事。 這些特效,如混合現實,已經為電視製作了相當長的一段時間,但就技術實現而言,它們並不是最經濟的。 因此,人們尋找替代選擇。

德米特里: 讓我們更詳細地討論這個問題。它由什麼組成?

安德魯: 有一個事件。 持續一個半小時​​。 我們需要確保現場觀看的觀眾和坐在場館內的觀眾能夠在現場的時間和地點上看到與現場表演完全同步的擴增實境效果。

存在許多技術限制。透過網路進行時間同步是不可能的,因為人們擔心滿座的網路負載過大,以及國家元首出席活動的前景,這可能會堵塞行動網路。

安德烈·卡爾薩科夫,照片來自 材料來自ITMO大學
播客「ITMO Research_」:如何實現 AR 內容與整個體育場規模的演出同步我們這個計畫有兩個關鍵組成部分——人們可以透過行動裝置獲得的個人體驗,以及進入體育場本身的電視廣播和資訊螢幕的內容。

如果一個人突然透過行動裝置觀看擴增實境劇集,同時出現在螢幕上,他應該會看到相同的圖片。

我們需要兩個幾乎不同的系統在時間上完全同步。 但這類節目的特殊之處在於,這些都是複雜的事件,涉及大量的技術服務,並且所有操作都是根據時間代碼進行的。 時間碼是某件事開始的特定時刻:燈光、聲音、人們離開、舞台花瓣開放等等。 我們必須適應這個系統,以便一切都能在正確的時間開始。 另一個特點是,擴增實境的場景和情節與劇本相關。

德米特里: 但是,您是因為不可抗力的高風險而決定放棄使用時間碼,還是您最初計算了一些功率特性並意識到整個系統的負載會相當高?

安德魯: 如果你為這樣的受眾做一個同步服務,那麼難度也不是很大。 無論如何,請求不會在一夜之間失敗。 是的,負載很高,但這不是緊急情況。 問題是,如果網路突然中斷,是否值得為此花費資源和時間。 我們不確定這不會發生。 最終,一切正常,雖然由於負載而中斷,但它有效,並且我們根據不同的方案根據時間代碼進行同步。 這是全球挑戰之一。

從使用者體驗的角度來看實施的困難

時間碼(透過 音訊版本) — 10:42

安德魯: 我們還必須考慮到體育場不是一個經典的音樂會場地,並為移動設備同步跨空間的系統。 所以前段時間我就火紅了 擴增實境故事 在阿姆的音樂會上,還有洛博達的案例。

照片 羅伯特·拜伊 (Unsplash.com)
播客「ITMO Research_」:如何實現 AR 內容與整個體育場規模的演出同步但這始終是一種在你面前的體驗——整個人群站在舞台前,同步非常簡單。就體育場而言,您需要了解自己位於圓的哪一側以及相對位置,以便體育場適合虛擬環境中存在的空間。這是一個艱難的挑戰。他們試圖以各種方式解決這個問題,結果與洛博達實施的情況很接近,但並非在所有方面都如此。

我們讓用戶決定他在哪裡。 我們為體育場做了標記,人們可以在那裡選擇一個區域、一排、一個地方。 所有這一切只需四次“點擊”。 接下來我們必須確定舞台的方向。 為此,我們從自訂角度展示了場景的大致輪廓。 他將其組合起來,輕敲一下,就這樣——舞台坐下了。 我們試圖盡可能簡化這個過程。 儘管如此,90%想要觀看該節目的觀眾並不是那些有過增強現實交流經驗的人。

德米特里: 該項目是否有單獨的申請?

安德魯: 是的,我們將其推送到商店的 iOS 和 Android 應用程式。為此有一個單獨的促銷活動。前面已經詳細介紹如何下載等等。

德米特里: 您需要了解,沒有地方可以讓人們進行物理測試並學習如何使用此類應用程式。因此,「教育」觀眾的任務變得更加複雜。

安德魯: 是的是的。在用戶體驗方面,我們遇到了很多障礙,因為用戶希望透過三次點擊來獲得體驗:下載、安裝、啟動 - 它起作用了。很多人都懶得去遵循複雜的教學、閱讀教學等等。我們並沒有試圖在教程中盡可能地向用戶解釋一切:這裡會打開一個窗口,在這裡訪問相機,否則它將無法工作,等等。無論你寫了多少解釋,無論你咀嚼得多麼詳細,無論你插入什麼動圖,人們都不會閱讀。

在明斯克,我們收集了有關這部分的大量回饋,並且已經針對喀山的應用程式進行了許多更改。我們不僅把那些與擴增實境的特定情節相對應的錄音和時間代碼放在那裡,而且我們還完整地獲取了所有錄音和時間代碼。因此,應用程式會聽到啟動時發生的情況,並且 - 如果有人在錯誤的時間登錄 - 它會給出信息:“同志,對不起,你的 AR 劇集將在 15 分鐘後播出。”

關於同步架構和方法的一些信息

時間碼(透過 音訊版本) — 16:37

德米特里: 您決定透過聲音同步嗎?

安德魯: 是的,這是偶然發生的。我們在尋找選項時發現了一家公司 西弗拉軟體 來自伊熱夫斯克。他們製作了一個雖然不是特別複雜但非常可靠的 SDK,可以讓你將聲音與時間同步。該系統被定位為與電視配合使用,您可以根據條件廣告的聲音在應用程式中顯示某些內容,或根據電影曲目提供互動式體驗。

德米特里: 但這是一回事——你坐在客廳裡,而另一回事——一個有數千人的體育場。您覺得錄音的品質和隨後的認可度如何?

安德魯: 有很多恐懼和懷疑,但在大多數情況下,一切都得到了很好的認識。 他們用巧妙的演算法在音軌上建立簽名 - 結果比原始音訊檔案更輕。 當麥克風聆聽周圍的聲音時,它會嘗試找到這些特徵並根據它們識別曲目。 在良好的條件下,同步精度為0,1-0,2秒。 這已經足夠了。 在惡劣條件下,差異可達 0,5 秒。

很大程度取決於設備。我們使用了大量設備。 iPhone 僅有 10 種型號。他們在品質和其他功能方面表現良好。但對機器人來說,動物園就像我的母親。事實證明,聲音同步並非在所有地方都有效。在某些情況下,由於某些特殊性,無法在不同裝置上聽到不同的曲目。某處低頻消失,某處高頻開始喘息。但如果設備的麥克風上有標準化器,則同步始終有效。

德米特里: 請告訴我們有關架構的資訊 - 該專案中使用了什麼?

安德魯: 我們在 Unity 中製作了應用程式 - 就多平台和圖形處理而言,這是最簡單的選擇。 使用 AR 基金會。 我們立即表示,我們不想讓系統變得複雜,因此我們將自己限制在支援 ARKit 和 ARCore 的裝置上,以便有時間測試所有內容。 我們為DigitalSoft SDK製作了一個插件,它 在我們的 GitHub 上。 我們創建了一個內容管理系統,以便腳本可以根據時間軸運行。

我們對粒子系統進行了一些修改,因為使用者可以隨時進入特定的情節,我們需要他從同步那一刻起看到所有內容。我們修補了一個系統,可以讓場景及時清晰地播放,這樣 3D 體驗就可以像電影一樣來回滾動。雖然它可以直接使用經典動畫,但我們必須修改粒子系統。在某個時刻,它們開始產卵,如果你發現自己在產卵點之前的某個地方,那麼它們還沒有出生,儘管看起來它們應該出生。但這個問題其實很容易解決。

對於行動部分,架構非常簡單。 對於電視廣播來說,一切都更加複雜。 我們有硬體限制。 客戶提出了一個條件:“我們這裡有這樣那樣的硬體園區,大致來說,一切都需要在上面進行。” 我們立即關注這樣一個事實:我們將使用相對預算的視訊擷取卡。 但預算並不意味著它們不好。

硬體、視訊擷取卡和工作條件(我們應該如何接收圖片)都有限制。 擷取卡 - Blackmagic Design,根據內部鍵控方案工作 - 這是當視訊畫面從相機傳送給您時。 該卡有自己的處理晶片,其中還插入了一個框架,該框架必須疊加在傳入框架的頂部。 這張卡將它們混合在一起——我們不會碰那裡的任何其他東西,也不會影響攝影機的畫面。 她透過視訊輸出將結果輸出到控制室。 這是疊加標題和其他類似事物的好方法,但它不太適合混合現實效果,因為渲染管道有很多限制。

德米特里: 在即時計算、物件綁定還是其他方面?

安德魯: 在品質和達到預期效果方面。因為我們不知道要把圖片放在什麼上面。我們只是在原始串流之上發送顏色和透明度資訊。此方案無法實現某些效果,例如折射、正確的透明度和附加陰影。為此,您需要將所有內容一起渲染。例如,無法透過火或熱瀝青來產生空氣扭曲的效果。考慮到折射率的透明效果的傳遞也是如此。我們最初根據這些限制製作內容,並嘗試使用適當的效果。

在Instagram上查看此帖子

第二屆歐洲運動會在明斯克閉幕。

分享的帖子 阿琳娜·蘭斯卡婭 (@alyonalanskaya) 太平洋夏令時間 30 年 2019 月 3 日下午 19:XNUMX

德米特里: 您在歐洲運動會的第一個項目中已經有自己的內容了嗎?

安德魯: 不,內容開發的主要階段是由 Sechenov.com 的人員完成的。他們的圖形藝術家用動畫和其他東西繪製了基本內容。我們將所有內容整合到引擎中,並添加了額外的效果,對其進行了調整,以便一切正常運作。

如果我們談論管道,那麼對於電視廣播,我們在虛幻引擎 4 上組裝了所有內容。巧合的是,他們就在那時開始增強他們的混合現實工具。事實證明,一切都沒有那麼簡單。即使現在所有的工具都是原始的;我們必須手工完成很多工作。在明斯克,我們對引擎進行了客製化構建,也就是說,我們重寫了引擎內部的一些東西,例如,我們可以在真實物體的頂部繪製陰影。當時的引擎版本不具備使用標準工具來完成此操作的功能。因此,我們的人員製作了自己的客製化組件,以提供至關重要的一切。

其他細微差別和對喀山世界技能大賽的適應

時間碼(透過 音訊版本) — 31:37

德米特里: 但這一切都是在相當短的時間內完成的嗎?

安德魯: 期限很緊 喀山計畫,根據明斯克 - 正常。開發時間約為六個月,但考慮到有六人參與。同時,我們正在製作移動部分並開發電視製作工具。不僅有圖片輸出。例如,具有光學元件的追蹤系統,為此您必須建立自己的工具。

德米特里: 從一個項目到另一個項目是否有任何調整?一個半月的時間,是不是要趁著事態的發展,把有新內容的項目轉移到新的地點?

安德魯: 是的,已經有一個半月了。 我們計劃在明斯克計畫結束後為整個團隊放兩週假。 但交易結束後,Sechenov.com 的人就上來說:“好吧,那我們就去喀山吧。” 我們還是設法休息了一下,但很快就轉向了這個項目。 我們完成了一些技術工作。 大部分時間都花在了內容上,因為對於世界技能大賽我們完全做了這件事,我們只是與製作團隊協調。 他們只有一個劇本。 但這更容易——不需要額外的迭代。 當您自己創建內容時,您會立即看到它在引擎中的工作方式,並且可以快速編輯和協調。


關於移動部分,我們考慮了明斯克的所有微妙之處。 我們進行了新的應用程式設計,稍微重新設計了架構,添加了教程,但試圖使其盡可能簡短和清晰。 我們減少了從啟動應用程式到查看內容的使用者步驟數。 一個半月的時間足以完成一個足夠的專案。 一周半後我們到達了現場。 在那裡工作更容易,因為專案的所有控制權都掌握在組織者手中;不需要與其他委員會協調。 在喀山工作更簡單、更輕鬆,時間更少也是很正常的。

德米特里: 但是您是否決定保留基於聲音的同步方法?

安德魯: 是的,我們透過聲音離開了它。效果很好。正如他們所說,如果它有效,就不要碰它。我們只是考慮了音軌品質的細微差別。當他們做介紹時,有一個訓練集供人們在節目開始前嘗試。令人驚訝的是,當在體育場內播放該曲目的瞬間,出現了暴風雨般的掌聲,“現場”,系統允許您與該曲目很好地同步,但如果此時錄製的掌聲與該曲目混合在一起,那麼軌跡不再被捕獲。這些細微差別都被考慮在內,一切在聲音方面都同步得很好。

PS 在本期的第二部分中,我們討論科學數據視覺化、其他專案中的流程建模、遊戲開發和碩士課程“電腦遊戲開發技術」 我們將在下一篇文章中發布續篇。 您可以在這裡聆聽並支持我們:

PPS 同時,關於 Habr 的英文版: 近距離觀察ITMO大學.

來源: www.habr.com

添加評論