【2024 IT十大趨勢 5】雲端巨頭大推各類GAI工具，LLMOps工具鏈成形加速更多AI場景應用落地-HUIDU Official Website

【2024 IT十大趨勢 5】雲端巨頭大推各類GAI工具，LLMOps工具鏈成形加速更多AI場景應用落地

· 2024-01-05

去年生成式AI大爆發，3大公雲業者也紛紛祭出LLMOps工具，如支援提示工程、RAG、模型自動評比，更預告將在今年亮相更多新工具

Google Cloud

過去一年堪稱是生成式AI元年，大型語言模型（LLM）強大的表現和泛化能力，帶給企業無限的應用空間。但模型規模越大，開發、部署和維運也就越複雜，於是，LLMOps因運而生，專門針對大型語言模型的各個生命周期提供管理工具，來滿足企業營運LLM應用的需求。

LLMOps的5大特點

進一步來說，LLMOps是機器學習維運MLOps的分支，是一套專門針對大型語言模型開發、部署和維運的實踐方法。有別於MLOps，LLMOps有5大特點，其一是基礎模型選擇。因為，在LLMOps中，使用者通常選擇預訓練過的基礎模型，如開源的Llama 2、Falcon，或透過API呼叫GPT-4、Gemini Pro等模型，作為LLM應用的基底，而非從頭打造。

再來，為確保LLM產出預期的答案，LLMOps還提供特殊工具，來讓使用者實作一系列模型優化，像是提示工程、檢索增強生成（RAG）、全參數微調或參數高效能微調（PEFT），甚至是人類回饋增強學習（RLHF）。其中，RAG是利用資料檢索，搭配特定資料庫，來作為模型生成答案的參考範圍。

不只如此，LLMOps的模型評估和衡量指標，也與MLOps不同。比如，MLOps常以AUC、準確率、F1分數等容易清楚計算的指標，來衡量AI模型表現，但LLM並非如此，還需要特殊的基準測試和指標，如BLEU，或設計特定領域的題目、再透過其他LLM（如GPT-4）或以人工來評分答案，才能判斷模型表現。

此外，LLM應用的部署也與一般ML模型不同，比如需要串接額外的向量資料庫或提示，來更好發揮LLM效能。LLM上線後，不只需要維運工具來把關模型是否漂移，還需要專屬工具來衡量提示與答案組的品質。這些就是LLMOps的5大特點。

3大公雲投入，LLMOps工具鏈開始成形

在生成式AI遍地開花之際，3大公雲業者也瞄準LLMOps需求，開始布局LLMOps工具鏈，更在2023下半年加碼投入。比如，微軟早在去年5月推出Azure AI Studio平臺，來管理生成式AI基礎模型的建立、訓練、評估、部署和維運階段，更特別鎖定提示工程，推出名為Prompt Flow的生成提示工程工具，來讓開發者設計、優化和管理生成提示，提高語言模型回應的精準度。

而且，微軟還納入提示流程圖功能，清楚顯示輸入問題、提示建立、提示整合，到LLM回應與輸出的過程，不只讓開發者掌握每個提示的生命周期，還能作為比對工具，來查看每個步驟的輸入和輸出、了解各流程環節對模型回應的影響，透過微調和實驗來優化模型輸出品質。

不只是提示，微軟這款平臺還針對搜尋、推薦相關的內容生成需求，支援RAG，來作為調用LLM的預處理機制。去年11月，微軟更進一步將LLMOps擴展至小型語言模型，公開預覽了Windows AI Studio，提供Phi-2在內的多款小型基礎模型供選擇，開發者微調模型後，還一樣能透過Prompt Flow工具和Gradio模板來測試模型。

另一方面，Google也在去年5月，大動作升級機器學習開發平臺Vertex AI，在其中的模型花園添加更多開源和商用LLM基礎模型，還在平臺上提供多項微調方法，包括提示設計、LoRA微調、蒸餾和RLHF，讓Vertex AI更貼近生成式AI開發需求。

而且，就在上個月推出Gemini模型的同時，Google還揭露一系列Vertex AI新LLMOps工具，涵蓋了模型增強、與外部資料或API互動、自動化LLM評比和更多GAI控制機制。比如，增強工具能強化RAG機制、串接外部向量資料庫，來實現Vertex AI的多模態嵌入檢索，而自動化LLM評比工具Auto SxS，還能一對一自動比較兩個模型對指定任務的執行結果，並在模型部署上線後，自動追蹤每次從輸入到輸出的回應速度，來掌握模型效能。甚至，Google還預告要在Vertex AI平臺上新添多模型協作框架，來調度多個模型。

AWS也在去年發展LLMOps，不只在2023年9月正式推出全託管AI平臺Bedrock，讓開發者透過API來使用多種基礎模型、簡單客製化，還在12月進一步推出支援RAG機制的無伺服器向量引擎，可儲存和查詢數十億個嵌入。他們甚至還預告，未來所有AWS資料庫都將具備向量功能，來加速企業整合資料、開發生成式AI應用。

降低企業嘗試門檻，加速GAI深入不同場景

這些工具的出現，加速了企業LLM應用的開發。例如公雲業者的生成式AI開發平臺，提供了數十種熱門的基礎模型供開發者選擇，開發者可快速嘗試不同模型，來找出最合適的基底，作為應用核心。

再來，提示工程工具不只能幫助企業管理提示，還能降低開發LLM應用的門檻。因為，這類提示工程工具可用來建置、調度、評估、測試、部署和監控提示，協助企業找出好的提示，而好的提示能引導LLM給出更高品質的回應。如此一來，企業不需進行複雜的微調，也能提高LLM表現。

而LLMOps的RAG工具和向量資料庫支援，更能加速企業發展多模態應用。尤其，企業可將文字、影音或圖像等資料轉為向量，儲存至向量資料庫，再透過嵌入向量比對，來找出最相近的資料、交給模型生成答案，促進多模態應用發展，可以來因應企業更多元的內部應用，或是更多種業務場景的需求。