Google I/O:Gemini模型家族新成員Gemini 1.5 Flash及第六代雲端TPU報到
· 2024-05-15

Google 表示,新發布的Gemini 1.5 Flash模型屬於既有Gemini 1.5 Pro的精簡版,特別針對大規模容量及大規模的高頻率任務進行最佳化,它也是速度最快的Gemini API版本

TPU的全名為張量處理單元(Tensor Processing Unit),是Google專為神經網路機器學習所設計的特殊應用積體電路(ASIC),Google自2015年便開始於內部使用TPU,一直到2018才開始將其授權給第三方使用。

Google積極開發TPU,上一版的Cloud TPU v5p甫於去年12月發表,第六代的Trillium在高頻寬記憶體(HBM)的容量與頻寬都提高了一倍,晶片互連頻寬也提高一倍,同時它配備第三代、專門用來處理高階排序及推薦任務的SparseCore加速器;且其每個核心的峰值運算性能比TPU v5p增加了4.7倍,效率亦比TPU v5p多出了67%。

此外,Trillium在單一的Pod中最多可擴展到256個TPU,並可藉由多層技術(Multislice Technology)及Titanium智慧處理單元拓展至數百個Pod,可造就連結數十萬個晶片的超級電腦架構,以支援高性能運算任務。

想當然爾,Trillium TPU將支撐下一波AI模型的訓練,除了Google DeepMind將用它來訓練與服務未來的Gemini模型之外,也有其它業者已計畫利用Trillium TPU來訓練模型。同時Trillium TPU也會成為Google Cloud AI Hypercomputer超級電腦服務的基礎。

Gemini模型家族加入新成員Gemini 1.5 Flash

原本Google的Gemini模型家族有3種版本,分別是可於手機上運作的Gemini Nano、通用版的Gemini Pro,以及最強大的Gemini Ultra,但本周添了新血Gemini Flash,由於它奠基在Gemini 1.5上,目前稱為Gemini 1.5 Flash。

根據Google的解釋,Gemini 1.5 Flash是利用Gemini 1.5 Pro蒸餾而成,屬於Gemini 1.5 Pro的精簡版,它將大模型的基本知識與技能轉移到更小卻更高效的模型中。它們同樣支援100萬個Token的脈絡,但Gemini 1.5 Flash特別針對大規模容量及大規模的高頻率任務進行了最佳化,它是速度最快的Gemini API版本。

儘管它僅是輕量級的Gemini 1.5 Pro,但Google強調它對於大量資訊有強大的多模態推理能力,擅長摘要、聊天應用程式、圖像、影像字幕、從大量文字及表格中汲取資料等。

Gemini 1.5 Flash每100萬個Token的輸入費用為0.35美元,每100萬個Token的輸出費用則是0.53美元,比Gemini 1.5 Pro分別是3.5美元及1.75美元的價格便宜許多。

影片生成模型Veo報到

在推出了圖像生成模型Imagen及音樂生成模型Lyria之後,由Google所開發的影片生成模型Veo也在本周出爐。

根據DeepMind的說明,Veo可用來生成1080p且可超過1分鐘的高解析度影片,並支援不同電影與視覺風格。它可準確捕捉使用者所輸入文字的細微差別及語氣,還能理解各種電影效果的提示,例如延遲攝影或空拍。

Veo將使每個人都能製作影片,不管是經驗豐富的製作人、企圖分享知識的教育家,或只是充滿抱負的創作者。

Veo的部分功能將在未來幾周透過Google實驗室中的新工具VideoFX,遞送給部分創作者,目前屬封閉預覽階段,得先提出申請。

視覺語言模型PaliGemma可將視覺資訊轉為文字

本周開源的視覺語言模型(Vision-Language Model,VLM)PaliGemma則是奠基在Google的開源語言模型Gemma及視覺模型SigLIP之上,它是個多模態模型,可輸入圖像或文字,並生成文字,支援多種視覺語言任務,例如圖像的字幕、短影片的字幕、視覺問答、閱讀文字、檢測物件,或是物件分割等。

PaliGemma是個小型語言模型,意謂著它不需要大量的記憶體或處理能力即可執行,適用於個人電腦、智慧型手機或物聯網裝置等資源受限的設備,可用來啟用更多的搜尋能力,或是幫助視障人士理解周圍的世界。

將AI整合至搜尋的AI Overviews與Ask Photos with Gemini

AI技術的發展最終還是要回歸到應用上。即日起,Google將在美國市場全面推出AI Overviews,這是Google在去年5月發表AI搜尋測試平臺Search Labs時所實驗的服務之一,如今將它正名為AI Overviews。

AI Overviews奠基在Gemini模型上,由於還在發展中,目前並沒有精確的定義,大抵是利用AI來協助搜尋用戶找到更完整、更有組織的答案。例如當使用者搜尋「閃電與打雷的連結」時,AI Overviews就會跳出一篇完整的答案,使用者可選擇簡化該答案,或是要求它更細緻地說明解答。

此外,Google也打算進一步強化AI Overviews的能力,藉由Gemini模型的多步驟推論功能,協助解答使用者的複雜問題,認為與其將問題分成不同的搜尋,不如一次就提出複雜的問題,例如要找一家熱門、位置好、交通方便而且有折扣的瑜珈教室,只要交給AI Overviews就能直接找出答案。該功能隨後將透過Search Labs開放預覽。

Ask Photos with Gemini則是將多模態模型應用在Google Photos的AI服務,亦即幫使用者於Google Photos中找到所需的照片,簡單的像是「秀出我去過的國家公園的最佳照片。」還能進一步詢問「我去年在哪裡露營?」或是「我的禮券何時會過期?」

Google計畫近日就會開始部署Ask Photos with Gemini,這是項實驗性功能,不確定能否成為正式功能。

Google

Popular articles
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
1spin4win releases unique slot Don Catleone Hold and Win featuring gangster cats
Online Game
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
1spin4win grows its Latin American presence by partnering with Fortuna Juegos
Online Game
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
HUIDU Invites You to Booth T70 at iGB L!VE 2026 — Let’s Ignite London This July!
HUIDU Focus
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
Indiana online casino bill stalls in House committee
Regulation
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Vietnam's tightening online gaming policy creates new market opportunities
Southeast Asia
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
Home
Game
Cooperation
Find
My