【金融GAI先行者经验：玉山金控】从单一应用迈向规模化发展，自建GAI开发框架支持不同业务需求-灰度官网

【金融GAI先行者经验：玉山金控】从单一应用迈向规模化发展，自建GAI开发框架支持不同业务需求

支付動態 · 2024-10-18

从发展个别应用到规模化发展，玉山开始思考如何创建一个共用的开发框架，来快速支持业务需求。评估现成开发框架发现无法满足需求，玉山决定模拟现成框架，自建一套GAI开发框架

到了今年9月，玉山推出GENIE2.0版，不仅改善了使用者介面设计和平台背后串接的模型服务，更把平台基础架构抽换成可扩充的架构，容易集成更多功能组件。

玉山GenAI平台GENIE2.0

甚至，GENIE的定位，也从单一API，成为一个能让业务人员与各种组件沟通的界面。当业务人员和GENIE交互时，表面上是在平台上进行对话，实际上运用了平台背后串接的各式组件。除了既有Chatbot服务，玉山内部前端系统也能直接介接GAI应用服务，让GenAI在无形中辅助业务人员完成工作任务。／玉山金控

创建标准化评测机制，加速测试LLM模型

回应有效性

玉山的GAI应用主要由业务人员和开发人员共同协作完成。业务人员会先提供业务情境，由开发人员提供初版提示，待业务人员拿到提示后，可以在GENIE平台上进行测试，并和开发人员讨论模型回应结果，双方合作修改多个提示版本后，协作打造出一款GenAI应用。

不过，在修改提示阶段，业务人员需要测试多种情境，并和开发人员来回确认测试情境结果，耗时又耗力。

为了加速业务人员测试各种情境，玉山针对各个业务场景，额外设置测试集，通过LLM来为GAI应用评分，将GAI应用评测机制标准化。

创建评测机制后，省下一半的GAI应用开发时长

在创建标准化测试流程时，玉山技术团队会根据应用类型，切割出需要测试片段和测试种类，明确定义测试流程。再来，业务单位会负责提供测试数据集，包括真人回应的标准答案，以及标准答案对应分数。接着，技术团队再运用这套数据集，比对真人回应和模型回应结果，以此创建模型回应评分机制。

目前，玉山的测试集可分为两类，一类是针对搜索任务设计的测试集，另一类是针对回应内容设计的测试集。

以人资助手为例，由于人资经常举办考试，因此，玉山技术团队使用LLM模拟参与考试的行员。当业务人员修改提示，可以对照LLM参与考试的作答分数，来评测模型回应优劣。若LLM作答分数高，代表业务人员修改的提示、产出的模型回应内容有效，反之，若LLM考试分数低，则代表业务人员需要再修改模型回应。这是玉山其中一种测式模型回应内容的形式。

另外，针对搜索任务，玉山金控技术团队在测试集中设计多种搜索结果，让业务人员可以判断测试情境能否有效让模型搜索到正确数据，和正确回答问题。例如，当业务人员输入特定测试情境，业务人员可以得知，模型在测试情境中能否搜索到正确答案，以及能否正确回答问题，或是，模型能搜索到部分答案，但无法完全回答问题。另外，LLM会针对模型回应的正确性进行评分，协助业务人员加速测试各种情境。

玉山尚未创建评测机制前，开发人员需和技术人员反复确认不同测试情境结果，单一应用历经半年开发时长，才正式上线。创建评测机制后，则节省近一半开发时间，以玉山近期上线的随行理专为例，仅花三个月，就从实验走到正式上线。

相关报导