Google發表首個可同時理解文字與視覺,並完成任務的Robotic Transformer 2
· 2023-07-31

基於上一代RT-1模型的機器人訓練資料,再輔以大量網路圖文資訊訓練而成的RT-2模型,讓機器人更能理解與執行未知任務

Google DeepMind強調新一代機器人模型RT-2透過大量來自網路的文字與影像來學習真實世界,再輔以機器人訓練資料,不僅能理解複雜的推理,還能直接輸出動作,在那些機器人未曾見過的背景、物件(如上圖的番茄醬等三種醬料瓶)或環境的狀態下,效能表現高出上一代RT-1模型近2倍。(/Google)

Google在上周五(7/28)發表了新一代的AI機器人模型Robotic Transformer 2(RT-2),它以來自網路的文字與圖像(visual-language model,VLM) 進行訓練,再結合上一代Robotic Transformer 1(RT-1)機器人的訓練資料,成為全球第一個視覺-語言-行動(vision-language-action,VLA)模型,讓機器人更能理解與執行人類所要求的任務。

Google在去年12月發表的RT-1模型主要是仰賴於實體世界操作的機器人資料進行訓練,所蒐集的資料是13個機器人在17個月之間,於13萬個場景中所執行的逾700種任務。

而RT-2最大的改變就是引進了VLM,讓機器人模型得以透過大量來自網路的文字與影像來學習真實世界,再輔以上述的機器人訓練資料來執行各種行動。

_Google

Google DeepMind負責機器人的科學家Vincent Vanhoucke表示,過去的機器人都是一個口號一個動作,想像人們想執行一件事時,必須拆解每一個動作並指使身體移動,但RT-2不僅能理解複雜的推理,還能直接輸出動作,只要輸入少量的機器人訓練資料,系統就能把蘊藏於語言與視覺訓練資料中的概念,轉成直接的機器人行動,包括未曾接受過訓練的任務。

舉例來說,過去若想要機器人系統丟棄某個垃圾,那麼必須先明確地訓練機器人辨識垃圾,再訓練它們撿起垃圾,以及將垃圾丟棄,但被餵入大量網路資料的RT-2,已經知道什麼是垃圾,而且就算未經特別訓練也知道該如何把垃圾丟掉,例如RT-2可以辨識香蕉皮與吃光的零食袋是垃圾。

Google DeepMind比較了RT-2與自家的RT-1、Reusable Representations for Robotic Manipulation(R3M),以及來自Meta的Manipulation of Open-World Objects(MOO)在曾訓練與不曾訓練上的任務表現,顯示RT-2與RT-1於前者的表現相當,成功率都有90%左右,而在那些機器人未曾見過的背景、物件或環境的狀態下,RT-2具備明顯的優勢,效能達62%,遠高於RT-1的32%。至於Meta的MOO在已知場景的效能則有75%,未知則略高於RT-1。

_Google

Popular articles
Kazakhstan plans to penalise online casino promotions
Regulation
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
Indiana online casino bill stalls in House committee
Regulation
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
Home
Game
Cooperation
Find
My