AI趨勢周報第263期:又快又小又準確,史丹佛大學提出另類電腦視覺模型
支付動態 · 2024-11-14

史丹佛大學整合卷積網路和邏輯閘網路,打造比電腦視覺SOTA模型快上1,900倍的LogicTreeNet;DeepMind開源學術版AlphaFold 3模型;工研院建AI測試實驗室;微軟開源多代理AI系統;GitHub發布Java專用助理;Hugging Face發表輕量級小型語言模型

  AlphaFold 3     Google DeepMind     蛋白質結構  

DeepMind開源學術版AlphaFold 3模型

Google DeepMind最近開源AlphaFold 3模型程式碼,供學術界研究者下載、進行蛋白質結構預測的相關研究。AlphaFold 3是一款可預測蛋白質和重要分子(如DNA、RNA、小分子等)三維結構及其互動作用的模型。

而且,有別於只能預測單一蛋白質結構的AlphaFold 2,AlphaFold 3進一步提升對複雜分子互動作用的模擬能力,研究者更能理解分子如何在細胞內互動,進而推動藥物開發和疾病治療的研究。之前,DeepMind只透過伺服器來提供AlphaFold3的預測服務,也限制預測的數量和種類。但在學界呼籲下,DeepMind重新評估該項政策,日前決定開放模型程式碼,供具學術資格的研究員下載使用。(詳全文)

  多模態     GUI互動     微軟  

微軟也用多模態LLM打造GUI代理工具

上個月,微軟開源一款GUI代理程式OmniParser,結合了多模態大語言模型(LLM)和其他模型,來辨識裝置UI畫麵(如手機螢幕)、自動執行互動指令,是多模態LLM的另一新應用 。微軟團隊表示,GPT-4V和GPT-4o這類LLM,在處理一般任務時表現優異,但要作為通用代理、只靠視覺輸入來處理跨系統任務,仍不夠準確。

為解決難題,微軟先建立2個專屬資料集,包括網頁中可互動的icon資料集、icon描述資料集(即說明UI元件與其功能),來分別訓練2套模型。一套是偵測模型,以第一個資料集微調而成,用來辨識螢幕中可互動的icon圖標,另一套是圖說模型,以第二個資料集訓練而成,用來解釋偵測到的UI元件功能。這兩套模型都採Transformer解碼器架構,組合起來就是OmniParser。

微軟表示,經測試,OmniParser可精準辨識UI中的元件,並生成正確的功能解釋,可搭配GPT-4V執行精準的GUI代理任務、與系統互動。微軟並非第一家在該領域有所突破的企業,蘋果和Anthropic也發表過這類領域研究成果;隨著GUI解析技術的成熟,AI在跨平臺操作中的靈活性將大幅提升,讓自動化應用越來越可行。(詳全文)

 AI評測     工研院     語言模型  

工研院建AI測試實驗室,推語言模型可信任評測服務

去年底,數位部啟動AI產品與系統評測中心,要建立國家級AI模型評測機制,來衡量企業所使用的AI服務是否安全可靠。在數位部支援下,最近,工研院宣佈建置臺灣第一家AI測試實驗室,參考了國際可信任AI框架和標準,也聯手AI產品與系統評測中心(AIEC)專家和技術委員,開發出可信任語言模型評測工具,可用來自動化測試模型的準確性、公平性、可靠性、隱私和資安等能力。

工研院量測技術發展中心執行長藍玉屏說明,這些測試工具,參考了國際和國內專家審議的測試題庫,來讓模型作答,並評估生成內容的可信任性。而隨著AI應用發展,工研院也會加強對AI技術的測試、探索新技術應用的評測方法。另一方面,工研院也與法國國家計量院(LNE)簽署合作協議,要來交流AI評測技術。(詳全文)

  多代理     微軟     Magentic-One  

微軟開源多代理AI系統

最近,微軟釋出一款多代理AI系統Magentic-One,專門為跨領域、開放式網頁與檔案操作任務設計,並在GitHub開源。進一步來說,該系統以Microsoft AutoGen框架為基礎,允許多個代理相互協作完成複雜任務,可用於程式開發、資料分析和研究等領域。

Magentic-One採多代理架構,由主導代理Orchestrator負責規畫任務、追蹤進度,也會分配具體子任務給其他4個代理。不同代理有不同專長,包括從本機檔案中擷取資訊、操作網頁瀏覽器,或編寫和執行Python程式碼等。Magentic-One高度模組化、隨插即用,可根據開發者需求,靈活新增或移除代理。在開源Magentic-One的同時,微軟也釋出相對應的評估工具AutoGenBench,供開發者在控制變數和隔離環境下進行系統測試,確保該系統的穩定表現。(詳全文)

  GitHub    Java      Copilot助理  

GitHub發布Java專用助理

最近,GitHub推出一款Java開發新工具:Java Copilot升級助理(Copilot Upgrade Assistant for Java),並開放技術預覽。該工具採用GAI來自動化升級Java應用程式的執行環境、框架和相依性,簡化企業用戶的操作。

在技術預覽版中,Copilot升級助理能協助開發者設定JDK、Maven路徑、特定功能分支名稱等參數,也能辨別專案中的主要相依項目,像是Spring Boot和JUnit等測試框架。完成設定後,Copilot助理能生成一系列升級任務,開發者也能在儀錶板即時檢視每個步驟的進度。要是在升級過程中發生錯誤,Copilot助理也會自動修復,並建立動態建置與修復迴圈嘗試多種解決問題的方法。(詳全文)

  Hugging Face     小型語言模型     SmolLM2  

Hugging Face發表輕量級小型語言模型SmolLM2

最近,AI社群Hugging Face發布一系列可在手機上執行的小型語言模型SmolLM2。這是繼7月首次問世後,SmolLM家族的最新版本,包括參數量135M、360M與1.7B三種版本。其中,135M參數模型又可分為基礎版和Instruct版,360M與1.7B參數模型則各自分成基礎、Instruct和GGUF(GPT-Generated Unified Format)版本,共11個模型,皆以Apache 2.0授權開源。

135M、360M與1.7B都是以公開資料集和Hugging Face編排的資料集訓練,但1.7B版本還多了數學與程式碼資料集。這些資料集分別有2兆、4兆與11兆個字元(Token)。相較於第一代,SmolLM2在指令遵從、知識與理解能力表現更好,也拜Argilla資料集之賜,Instruct模型還支援改寫、重要摘要與函式呼叫等任務。不過,SmolLM2模型只能理解和生成英文內容,也還存在事實準確性、邏輯一致性以及偏差等問題。(詳全文)

  GitHub     引導式對話     開發  

主動反問釐清需求!GitHub Copilot新添引導式對話功能

日前,GitHub更新Copilot助理,新添引導式對話能力,並在Visual Studio 2022 17.12第3預覽版上線。GitHub Copilot開發團隊指出,這項更新可讓Copilot在需求不清楚時,能主動提問開發者、釐清上下文,協助開發者更快完成任務。

他們表示,在之前的版本中,不少開發者要花時間思考,如何正確表達需求,可能還要篩選過多的生成內容。但新功能可減少開發者寫提示詞的困擾,能隨開發者需求調整回應,提供精簡的資訊。同時,GitHub Copilot也整合資料處理工具Data Wrangler,開發者能以自然語言進行資料清理與轉換,並透過資料的上下文生成程式碼,更精準地處理資料。(詳全文)

/史丹佛大學、微軟、Hugging Face

  AI近期新聞 

1. 數位部數位產業署回覆民間對加強投資AI新創計畫的民間意見

2. 蘋果Intelligence第一波功能上線了

3. 微軟替記事本及小畫家添增AI能力,改寫與自動填補邁入預覽

4. 阿里雲開源Qwen 2.5-Coder全系列模型

5. 國泰金控廣徵500名AI、IT和國際人才

:iThome整理,2024年11月

熱門文章
印度最高法院受理公益訴訟,要求全國禁封「偽裝」成社交遊戲的賭博平台
合規與政策
越南在線博彩業政策收緊 催生市場新機遇
東南亞資訊
越南博彩管控逐步放寬,惟本土需求仍顯乏力
東南亞資訊
橫跨全球6個城市,灰度8場派對邀你共看世界盃,重塑高質量社交新場景
灰度頭條
菲律賓網絡賭博和加密貨幣仍構成持續的洗錢風險
東南亞資訊
JILI 宣佈與全球板球傳奇 AB de Villiers(ABD)達成重磅戰略合作
體育遊戲
菲律賓博彩技術賽道迎來新變局,B2B 供應模式加速滲透
東南亞資訊
哈薩克計劃對線上賭場促銷活動進行處罰
合規與政策
灰度在iGB L!VE 2026展位T70和你相約7月,一起點燃倫敦的熱情!
灰度頭條
印第安納州在線賭場法案在眾議院委員會停滯不前
合規與政策
斯里蘭卡博弈產業大轉型,官方:劍指南亞拉斯維加斯
合規與政策
新澤西州7月博彩收入創6.06億美元新高,頒布禁令
合規與政策
GGC Awards 2026 璀璨科倫坡:致敬 iGaming 行業的領航者與創新力量
灰度頭條
巴西擬將博弈稅率提高至24% 稅收將用於社保與醫療領域
合規與政策
英國確認各垂直行業的賭博稅稅率
合規與政策
首頁
遊戲
合作
發現
我的