Google開發視覺編碼器VideoPrism,在通用影片理解任務表現優異
· 2024-02-28

Google新開發的VideoPrism,是一款可處理多種影片理解任務的先進視覺編碼器,在多項基準模型中打敗當前先進的基礎模型,而且與大型語言模型結合,在多個視覺語言基準測試中更設下新的技術水準

Google開發了一個針對廣泛影片理解任務設計的基礎視覺編碼器VideoPrism,研究人員藉由新的預訓練資料和建模策略,使其可以用於分類、定位(Localization)、檢索、字幕和問答等影片理解任務,並且在多個基準測試中表現優於專門為任務設計的模型。

影片相較於靜態影像擁有更豐富的視覺內容,包括實體間的運動、變化和動態關係等,研究人員提到,要分析這種複雜性,以及處理公開影片資料的巨大多樣性,需要超越傳統影像理解的模型。而過去相關的研究中,通常是針對任務量身訂做模型,而到了最近,影片基礎模型諸如VideoCLIP、InternVideo、VideoCoCa和UMT有了一些進展,但是要用單一模型處理影片資料的多樣性仍是一大挑戰。

Google提出的VideoPrism則是通用影片理解的單一模型,而使其能力更加強大的原因之一,歸功於大量的訓練影片資料。VideoPrism的預訓練資料集,是目前已知最大且最多樣的影片訓練語料庫,由多個公開和私人資料集所組合而成,涵蓋了YT-Temporal-180M、InternVid、VideoCC和WTS-70M等。這個預訓練資料集擁有3,600萬個帶有高品質字幕的精選影片,以及5.82億個存在雜訊文字的影片片段,像是自動生成轉錄字幕的影片等。

而VideoPrism的訓練採用了標準視覺Transformer(ViT)的分解設計,共分為兩階段,第一階段研究人員先用高品質的影片文字資料和帶有雜訊文字的影片資料,以對比學習(Contrastive Learning)技術教導模型將影片和文字描述配對,而這個階段建立了語義語言內容和視覺內容相配對的基礎。

對比學習是一種自監督學習方法,不仰賴傳統的標籤資料訓練模型,其核心思想在於使相似樣本的表示更接近,不相似樣本的表示更遠離,也就是最小化正向影片文字對之間的距離,同時最大化負影片文字對之間的距離。

經過影片文字對的對比訓練之後,進入訓練第二階段,研究人員透過遮罩影片建模框架,來訓練模型預測影片中缺失的部分,而與標準方法不同的地方是,研究人員會要模型同時預測影片的整體特徵,和影片中每一個小部分的特徵,以有效利用第一階段訓練所獲得的知識。在這個階段,研究人員還會隨機打亂預測出來的Token,以防止模型學到一些捷徑,像是模型可能依據固定順序或是模式就能做出預測,而隨機的方式可迫使模型深入理解影片內容,而不只是依賴表面特徵。

實驗證實VideoPrism在多個影片理解任務表現良好,VideoPrism擁有廣泛的應用範圍,能夠處理影片分類、定位、影片文字檢索、影片字幕生成、問答和科學影片理解。而在33個基準測試中,VideoPrism在其中30個達到了目前最好的表現,在影片分類與定位任務方面,VideoPrism超越現有其他先進的基礎模型。

當VideoPrism能夠與大型語言模型結合時,VideoPrism在影片文字檢索、字幕生成和影片問答任務中,更可展現強大的能力,在多數視覺語言基準測試中豎立新標竿。整體而言,VideoPrism為一款強大且多功能的通用影片編碼器,而其有效性和靈活性可被用於廣泛的影片理解任務。

Popular articles
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
British gambling levy rates confirmed for each vertical
Regulation
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
Indiana online casino bill stalls in House committee
Regulation
Home
Game
Cooperation
Find
My