AI趨勢周報第261期:UI螢幕互動成多模態模型新戰場,蘋果揭露新研究成果
支付動態 · 2024-10-12

蘋果揭露多模態模型MM1.5系列成果,還能處理行動裝置螢幕理解任務;兩位機器學習先鋒獲得諾貝爾物理獎;Meta預告影片生成AI模型Movie Gen;蘋果新模型1秒內將2D圖片轉為3D;可大幅改進AI模型運算效能!PyTorch釋出torchao函式庫

諾貝爾物理獎     神經網路     機器學習  

兩位機器學習先鋒獲得諾貝爾物理獎

瑞典皇家科學院日前宣佈2024年諾貝爾物理獎得主,包括現年91歲的John Hopfield和76歲的Geoffrey Hinton,來表彰他們從1980年代開始,就以人工神經網路打下機器學習基礎。瑞典皇家科學院表示,人們談論的AI,通常指以人工神經網路為基礎的機器學習,也就是受大腦結構啟發,在人工神經網路中,大腦的神經元由不同值的節點來表現,節點之間透過連結來相互影響,如同大腦中的突觸,並可調整連結的強弱。

其中,Hopfield是著名的理論物理學家及神經科學家,曾建立開創性的Hopfield網路,以一種特殊的方式來儲存並重建模式(Pattern)。簡單地說,該網路是透過物理學中,能量最小化的過程來進行自我組織與學習,成為之後許多深度學習研究的靈感來源。Hinton則以Hopfield網路為基礎,利用統計物理學工具,以不同方式建立了Boltzmann機器網路,能自動學習、辨識資料中的特徵,比如分類圖片,此舉推動了機器學習的重大發展。(詳全文)

  影片生成     Meta     配樂  

Meta預告影片生成AI模型Movie Gen

Meta最近揭露AI影片生成模型Meta Movie Gen,可生成高品質的圖片和影片、音效或配樂,效能比OpenAI Sora等先進模型要好。不過,Movie Gen還在開發中,Meta在官方部落格稱其為AI媒體研究的重大突破,具多模態能力,可處理圖片、影像和聲音,開發者輸入文字提示即可產生影片和音訊、編輯現有影片,或是將圖片轉化為影片,克服了生成影片常出現的物件扭曲/模糊、動作不自然、或罕見動作不完整等問題。

早在2022年,Meta就發布第一代多模態AI模型Make-A-Scene,能產製影音、圖片和3D動畫,第二代則是基於擴散模型的Llama Image基礎模型,提供更高影音品質及圖片編輯功能。Movie Gen屬於第三代,融合所有模態,是以經授權或公開可用的資料集訓練而成的300億參數Transformer模型。該模型有4個版本,包括影片生成、個人化影片生成、精準影片編輯和聲音生成版本。Meta指出,Movie Gen將成為Meta未來多項新服務的底層引擎,比如明年將用於IG,未來也會整合其他平臺產品。(詳全文)

  3D     蘋果     Depth Pro  

蘋果新模型1秒內將2D圖片轉為3D

蘋果日前展示最新視覺模型Depth Pro,能在不使用相機影像情況下,將2D圖片轉化成3D圖,在V100 GPU上0.3秒就完成。Depth Pro是一種零樣本單眼深度估計(Monocular depth estimation)的基礎模型,能在高解析度深度圖片中,加入細節銳利度,成為高品質3D圖像。

使用單眼深度估計技術的好處是,可應用於任何類型圖片,還能零樣本訓練出具可量測的深度,能準確重製物件形狀、場景佈局。尤其,這種模型預測方法不需要感測器數據,即可準確預測,也能用任何單一圖片來合成想要的圖片。

在研究方法上,團隊使用2個視覺Transformer(ViT)模型,包括影像補片編碼器和一個影像編碼器,前者將圖片切成小補片,完成特徵提取、推論圖片畫素的深度,後者以上下文訊息提升深度估計的準確性。在後處理階段,團隊以真實和合成資料集來提升量測準確性,以及物件邊界追蹤能力,再加上另一個影像編碼器模型提供的焦距估計,來優化3D圖片生成結果。最後,蘋果也發布Depth Pro模型程式碼和加權值。(詳全文)

  Gemini Nano     Android     Google  

輕量模型Gemini Nano開放測試

Google最近提供開發工具AI Edge SDK,Android開發者可用來試用Gemini Nano模型,打造各種場景的Android應用。進一步來說,Gemini Nano是Google Gemini系列模型之一,專門針對裝置端任務設計,模型可在裝置端完成所有運算,不需連接雲端伺服器。也就是說,敏感資料可留在裝置,且模型無需網路連線,也能提供完整功能。

Gemini Nano適用的場景有智慧回覆、文字改寫、校對或是檔案摘要,開發者可透過AI Edge SDK整合,控制輸出隨機性、Top K和回應最大長度等推理參數,來滿足不同應用需求。目前,Google開放給開發者測試的是Gemini Nano 2模型,而且,Google也開發一套Android系統服務AICore,可讓開發者簡單在裝置端執行模型,不必自己發布執行環境、模型和其他元件。(詳全文)

  Copilot Labs    微軟     瀏覽體驗  

微軟發表新Copilot AI服務與功能

最近,微軟發表AI服務Copilot Labs,內含各種實驗性的新AI功能,首波新功能包括可理解使用者所檢視網頁的Copilot Vision、能回答複雜問題的Think Deeper。其中,Copilot Vision是瀏覽器Edge的視覺AI助手,使用者允許,它就能與使用者正在閱讀的網頁互動,或是建議下一步,如摘錄、翻譯、尋找商品等。Think Deeper負責回答複雜問題,如使用者可詢問應該要搬到A城市還是B城市,或詢問哪款汽車最適合使用者的需求。

同時,微軟也推出能與使用者語音交流的Copilot Voice、可摘錄新聞或天氣訊息的Copilot Daily,其中,Copilot Voice是一個AI語音助理,有4種不同聲音,可在所有支援Copilot的平臺上使用。但該功能目前僅支援英文,只在美國、加拿大、英國、澳洲及紐西蘭等市場推出。Copilot Daily則是Copilot Voice衍生服務之一,使用者可透過Copilot Voice聲音,來唸出新聞與天氣重點。Copilot Voice與Copilot Daily目前皆免費使用。此外,微軟還更新瀏覽體驗,使用者能直接在Microsoft Edge中的網址列,輸入@copilot來啟用Copilot,或輸入Bing generative search來體驗生成式搜尋。(詳全文)

  PyTorch     運算效能     torchao  

可大幅改進AI模型運算效能!PyTorch釋出torchao函式庫

PyTorch最近發布全新原生函式庫torchao,透過低精度資料型態、量化和稀疏性技術,減少模型的計算成本和記憶體使用量,讓模型執行更有效率。torchao提供一套容易上手的工具組,支援多種模型推論和訓練最佳化方法,可廣泛用於PyTorch模型,LLaMA 3和Diffusion模型的效能都顯著提升。

低精度資料型態是torchao加速的關鍵之一,該工具支援float8、int4等低精度資料型態,能有效減少計算成本和記憶體使用需求,像是在LLaMA 3 70B模型預訓練中,torchao提供了float8訓練流程,可將模型運算加速達1.5倍。在推論方面,torchao提供多種量化方式,包括權重量化和動態啟動量化。使用者可透過API自行選擇適合的量化策略,來達到最佳推論效能。稀疏性技術也是torchao提升模型效率的重要手段,有了稀疏性,torchao可最佳化模型參數計算,降低不必要的運算耗能。(詳全文)

  多模態模型    NVLM      Nvidia  

Nvidia開源媲美GPT-4o的多模態模型NVLM 1.0

Nvidia在上個月發表多模態大型語言模型NVLM 1.0,號稱能與封閉的GPT-4o或開源的Llama 3-V 405B、InternVL 2等模型媲美,最近則開源NVLM 1.0模型權重,接下來還會提供基於Megatron-Core框架的程式碼。就NVLM 1.0模型設計來說,Nvidia先是比較解碼器架構模型,也採用交叉注意力機制模型,根據其優缺點提出一種全新架構,來提升訓練效率和多模態推論能力。

NVLM 1.0 72B在許多基準測試上雖然不是最突出,但在視覺語言及純文字任務上,都與Llama 3-V、GPT-4o、Claude 3.5 Sonnet和Gemini 1.5 Pro等模型相當,尤其在衡量光學字元辨識能力的OCRBench、自然圖像理解能力的VQAv2基準測試表現優異。NVLM 1.0 72B的指令遵循能力也不錯,且由於結合了OCR、推論、定位、常識、世界知識與程式碼撰寫等能力,綜合理解能力也更強大。(詳全文)

/蘋果、Meta、Nvidia

  AI近期新聞 

1. OpenAI釋出更快的語音辨識模型Whisper large-v3-turbo

2. O1-engineer程式碼撰寫工具在GitHub上開源,以OpenAI API驅動

:iThome整理,2024年10月

熱門文章
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
超級PAC籌資4800萬美元:體育博彩勢力加碼
合規與政策
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
西班牙監管機構警告在線賭博平臺存在身份盜竊行為
合規與政策
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
首頁
遊戲
合作
發現
我的