

AI2釋出2款語言模型,以及所有相關數據如訓練程式碼、預訓練資料集、評估套件等;Juniper發表AIOps服務;AI可自我評估輸出對錯!Google釋出新框架;OpenAI推出2大新嵌入式模型;Google Cloud與Hugging Face宣布策略聯盟
AI資源中心 負責任AI 隱私安全
美國設立AI資源中心
美國國家科學基金會(NSF)日前發表國家AI研究資源測試(NAIRR),要實現共享研究基礎設施的願景,第一步是要強化、普及化負責任AI和創新的重大資源,預計為期2年。
NAIRR與10個美國聯邦機構,25家企業、非營利和慈善組織合作,如國家科學基金會、美國太空總署、美國國家標準與技術研究院,以及AI2、AWS、AMD、Google、Hugging Face、IBM、微軟、Nvidia等,要讓美國的研究人員和教育者能存取先進的運算、資料集、模型、軟體、訓練等支援。
NAIRR分為4個主要領域,首先是可用來存取、分配各種AI資源,並實現開放式AI研究的NAIRR Open,再來是NAIRR Secure,專門支援那些需要隱私和安全的AI研究。第三個是NAIRR Software,負責AI軟體、平臺、工具和服務的研究,最後一個是NAIRR Classroom,目的是要擴大全美的AI研究,包括藉由教育、訓練、使用者支援及外展服務來接觸更多社群。(詳全文)
Google Cloud Hugging Face Vertex AI
Google Cloud與Hugging Face宣布策略聯盟
被稱為AI界GitHub的Hugging Face最近與Google Cloud策略聯盟,讓Google Cloud成為Hugging Face的AI訓練和推論的首選服務,雙方也計畫整合彼此服務。
Hugging Face的願景是讓所有企業使用開源模型和技術,來打造自己的AI,目前已在平臺上提供將近50萬種共享模型和10萬個資料集。Hugging Face表示,此次將與Google在開放科學、開源、雲和硬體領域進行合作,比如開發者可用Google AI平臺Vertex AI來訓練、微調和部署Hugging Face的模型,並於Google Kubernetes Engine(GKE)上使用Hugging Face專用的深度學習容器。此外,這次合作和允許更多開源開發者存取Cloud TPU v5e,並支援基於Nvidia H100 Tensor Core GPU的A3 VM,也能利用Google Cloud市集替Hugging Face托管平臺進行簡單的管理與計費,包括Inference、Endpoints、Spaces與AutoTrain等。(詳全文)
文字審核 OpenAI Embedding
OpenAI推出2大新嵌入式模型
OpenAI最近再度更新旗下產品,包括GPT-4 Turbo預覽模型和文字審核模型,同時還推出了2個新的文字嵌入式模型text-embedding-3-small與text-embedding-3-large。進一步來說,GPT-4 Turbo預覽版可更徹底完成程式碼生成任務,也減少模型有時會落下任務的懶惰狀況,還修復了非英語UTF-8生成的錯誤。審核API則是一款免費工具,能用來幫助使用者辨識有害文字,不管是text-moderation-latest或text-moderation-stable都會採用最新的text-moderation-007版本。
至於新模型,則有text-embedding-3-small和text-embedding-3-large,前者的多語言檢索(MIRACL)評測比前一代模型的31.4%提高至44%,常用的英文任務評測(MTEB)則從61%增加至62.3%。而且text-embedding-3-small價格更便宜,其每1,000個標記的費用只要0.00002美元。而text-embedding-3-large最多可建立3,072個維度的嵌入向量,相較於text-embedding-3-small與text-embedding-ada-002,其MIRACL的平均分數為54.9%,每1,000個標記的費用為0.00013美元。OpenAI說明,這2個嵌入式模型能讓開發者在嵌入時,權衡效能與成本,依照實際需求並藉由維度API參數來控制嵌入大小,在不損及重要概念的前提下,減少嵌入成本。(詳全文)
微軟 Visual Studio Copilot 命令
GitHub Copilot加入2大新功能
微軟更新Visual Studio Copilot聊天擴充套件,添加兩項新功能,第一項是可以指示Copilot執行特定工作的斜線命令(Slash Commands),另一項是上下文變數(Context Variables),開發者可使用符號#,在與Copilot對話中引用特定檔案。
進一步來說,斜線命令是一個特殊命令,開發者在與Copilot聊天時,可用斜線命令要求Copilot對程式碼執行特定操作,像是「/doc」新增文件註解、「/explain」則要求Copilot解釋程式碼、「/fix」是要Copilot對所選取的程式碼提出修復建議等。而上下文變數功能,可讓開發者使用符號#,將解決方案中的檔案加入到與Copilot的對話中。當開發者直接引用檔案時,Copilot可存取該檔案內容,並針對該檔案提供更具體的回答,比如開發者可以詢問「#Main.c檔案的運作方式為何?」或「#Calculator.cs檔案的目的是什麼?」Copilot就會根據該檔案提供答案。(詳全文)

Google 影片生成 時空擴散
可生成5秒高品質影片,Google揭露時空擴散模型Lumiere
Google最近發表一款影片生成模型Lumiere,是一種文字轉影片的擴散模型,可用來產生真實、多樣且動作連貫的影片。該模型使用時空U-Net(STUNet)架構,可一次生成完整的影片長度,不需經過多次處理。
因為,該架構可在空間和時間上同時對訊號降採樣(Downsample),在更緊湊的時空表示中執行大部分運算。也因此,Lumiere能生成更長時間、動作更連貫的影片,可產生長達5秒的影片。Google表示,5秒影片的長度,已經超過大多數媒體作品中平均鏡頭的時長了。
就運作流程來說,Lumiere會先由基礎模型在像素空間生成圖像草稿,再透過一系列空間超解析度(SSR)模型,來提高這些圖像的解析度和細節。同時,團隊還採用Multidiffusion方法,來解決SSR時窗不連續的問題,確保影片的一致性和連續性。(詳全文)
/Google、微軟
AI近期新聞
1. ChatGPT用戶可在對話中呼叫GPTs
2. Meta釋出700億參數的程式碼生成模型Code Llama
3. 美政府要求AI公司提交安全測試報告,雲端業者需通報外國AI客戶
:iThome整理,2024年2月