Google發表首個可同時理解文字與視覺,並完成任務的Robotic Transformer 2
· 2023-07-31

基於上一代RT-1模型的機器人訓練資料,再輔以大量網路圖文資訊訓練而成的RT-2模型,讓機器人更能理解與執行未知任務

Google DeepMind強調新一代機器人模型RT-2透過大量來自網路的文字與影像來學習真實世界,再輔以機器人訓練資料,不僅能理解複雜的推理,還能直接輸出動作,在那些機器人未曾見過的背景、物件(如上圖的番茄醬等三種醬料瓶)或環境的狀態下,效能表現高出上一代RT-1模型近2倍。(/Google

Google在上周五(7/28)發表了新一代的AI機器人模型Robotic Transformer 2(RT-2),它以來自網路的文字與圖像(visual-language model,VLM) 進行訓練,再結合上一代Robotic Transformer 1(RT-1)機器人的訓練資料,成為全球第一個視覺-語言-行動(vision-language-action,VLA)模型,讓機器人更能理解與執行人類所要求的任務。

Google在去年12月發表的RT-1模型主要是仰賴於實體世界操作的機器人資料進行訓練,所蒐集的資料是13個機器人在17個月之間,於13萬個場景中所執行的逾700種任務。

而RT-2最大的改變就是引進了VLM,讓機器人模型得以透過大量來自網路的文字與影像來學習真實世界,再輔以上述的機器人訓練資料來執行各種行動。

_Google

Google DeepMind負責機器人的科學家Vincent Vanhoucke表示,過去的機器人都是一個口號一個動作,想像人們想執行一件事時,必須拆解每一個動作並指使身體移動,但RT-2不僅能理解複雜的推理,還能直接輸出動作,只要輸入少量的機器人訓練資料,系統就能把蘊藏於語言與視覺訓練資料中的概念,轉成直接的機器人行動,包括未曾接受過訓練的任務。

舉例來說,過去若想要機器人系統丟棄某個垃圾,那麼必須先明確地訓練機器人辨識垃圾,再訓練它們撿起垃圾,以及將垃圾丟棄,但被餵入大量網路資料的RT-2,已經知道什麼是垃圾,而且就算未經特別訓練也知道該如何把垃圾丟掉,例如RT-2可以辨識香蕉皮與吃光的零食袋是垃圾。

Google DeepMind比較了RT-2與自家的RT-1、Reusable Representations for Robotic Manipulation(R3M),以及來自Meta的Manipulation of Open-World Objects(MOO)在曾訓練與不曾訓練上的任務表現,顯示RT-2與RT-1於前者的表現相當,成功率都有90%左右,而在那些機器人未曾見過的背景、物件或環境的狀態下,RT-2具備明顯的優勢,效能達62%,遠高於RT-1的32%。至於Meta的MOO在已知場景的效能則有75%,未知則略高於RT-1。

_Google

热门文章
菲律宾博彩技术赛道迎来新变局,B2B 供应模式加速渗透
东南亚资讯
哈萨克斯坦计划对在线赌场促销活动进行处罚
游戏风向
英国确认各垂直行业的赌博税税率
游戏风向
准备好了将你的收益最大化吗?尝试ProPush.me Constructor!
广告营销
张侨伟参议员排除全面禁止,敦促菲律宾规范网络赌博
东南亚资讯
越南博彩管控逐步放宽,惟本土需求仍显乏力
东南亚资讯
印度最高法院受理公益诉讼,要求全国禁封“伪装”成社交游戏的赌博平台
游戏风向
横跨全球6个城市,灰度8场派对邀你共看世界杯,重塑高质量社交新场景
灰度头条
斯里兰卡博弈产业大转型,官方:剑指南亚拉斯维加斯
游戏风向
密西西比州众议院委员会推进提议增加赌场税的法案
游戏风向
巴西拟将博彩税率提高至24% 税收将用于社保和医疗领域
游戏风向
BETFAIR 网络攻击80万用户资料泄露
游戏风向
JILI 宣布与全球板球传奇 AB de Villiers(ABD)达成重磅战略合作
体育游戏
越南在线博彩业政策收紧 催生市场新机遇
东南亚资讯
巴西颁布新法赋权央行封锁非法博彩账户及 Pix 交易
支付动态
首页
游戏
合作
发现
我的