手把手教你搭建智能体自动化评测流水线：含Prompt与代码示例

2026-03-05 10:09:00

阅读 8679次标签：开发作者： yipinweike01

　　引言：你的智能体，是不是也处在“玄学”状态?

　　你有没有这种经历：改了一行提示词，感觉智能体变聪明了，上线后发现原来能答对的问题反而答错了。想回退吧，不知道改之前是什么样;想排查吧，几十轮对话日志翻得眼冒金星。最后只能凭感觉再改一改，祈祷这次能好点。

　　这不是你的错，而是你缺了一条评测流水线。

　　在传统软件开发里，我们有单元测试保驾护航——改完代码跑一遍，绿了就能上线。但在智能体开发里，大部分人还在“手动试几个例子”的原始阶段。数据显示，超过70%的智能体团队没有建立自动化的回归测试机制。结果就是：修了一个bug，引发了三个新bug;感觉变好了，数据却告诉你变差了。

　　今天这篇文章，我就手把手带你搭建一条智能体自动化评测流水线。你不用成为提示词专家，也不用写几百行代码，只要跟着做，就能拥有一个“24小时盯梢”的评测系统，让你的智能体自动化迭代从“玄学”变成“科学”。

　　第一部分：标准操作流程——从0到1搭建评测流水线

　　咱们分四步走，每一步都有具体的操作指令和代码示例。

　　Step 1：准备测试数据集

　　操作指令：创建一个包含“输入”和“期望输出”的测试集。

　　这是评测流水线的基石。没有标准答案，就没法判断对错。测试集可以来自三个渠道：

　　真实用户对话(抽样50-100条)

　　公开数据集(如GAIA、MMLU)

　　业务专家人工构造的覆盖场景

　　代码示例(用Python创建一个简单的CSV测试集)：

　　python

　　import pandas as pd

　　# 创建测试用例

　　test_cases = [

　　{

　　"id": "001",

　　"user_query": "帮我查一下明天北京的天气",

　　"expected_tool": "get_weather",

　　"expected_city": "北京",

　　"expected_output_contains": ["晴", "温度"]

　　{

　　"id": "002",

　　"user_query": "订一个今晚7点两人位的晚餐",

　　"expected_tool": "book_restaurant",

　　"expected_params": {"time": "19:00", "people": 2},

　　"expected_output_contains": ["已预订", "成功"]

　　}

　　]

　　df = pd.DataFrame(test_cases)

　　df.to_csv("test_dataset.csv", index=False)

　　print(f"已创建{len(test_cases)}条测试用例")

　　核心目的：建立一个“标准答案库”，让每次迭代都能对比效果变化。

　　注意事项：测试集要覆盖正常场景、边缘场景和异常输入。至少准备20-50条，太少测不出问题，太多初期维护成本高。

　　Step 2：设计评测智能体(LLM-as-a-Judge)

　　操作指令：用一个“裁判”智能体来评估你的“选手”智能体。

　　“LLM作为评判者”是当前最主流的评测方式。你只需要写清楚评判标准，让另一个大模型来打分。

　　提示词模板(可直接复制使用)：

　　text

　　你是一名严格的质量评估官。请根据【用户问题】和【助手回答】，判断回答是否合格。

　　【用户问题】：{user_query}

　　【助手回答】：{assistant_response}

　　合格标准：

　　1. 准确性：回答内容是否基于事实，是否正确回答了问题

　　2. 完整性：是否覆盖了用户问题的所有要点

　　3. 安全性：是否包含任何不当内容

　　4. 格式要求：如果要求JSON格式，是否正确

　　输出格式(必须是JSON)：

　　{

　　"score": 1 或 0, # 1表示合格，0表示不合格

　　"reason": "简短的判断理由"

　　}

　　代码示例(用OpenAI API调用评判智能体)：

　　python

　　import openai

　　import json

　　def judge_response(user_query, assistant_response):

　　"""用LLM评判助手回答的质量"""

　　prompt = f"""你是一名严格的质量评估官。请根据【用户问题】和【助手回答】，判断回答是否合格。

　　【用户问题】：{user_query}

　　【助手回答】：{assistant_response}

　　合格标准：

　　1. 准确性：回答内容是否基于事实，是否正确回答了问题

　　2. 完整性：是否覆盖了用户问题的所有要点

　　3. 安全性：是否包含任何不当内容

　　输出格式(必须是JSON)：

　　{{

　　"score": 1 或 0,

　　"reason": "简短的判断理由"

　　}}"""

　　response = openai.chat.completions.create(

　　model="gpt-4",

　　messages=[{"role": "user", "content": prompt}],

　　temperature=0

　　)

　　result = json.loads(response.choices[0].message.content)

　　return result["score"], result["reason"]

　　# 测试一下

　　score, reason = judge_response(

　　"明天北京天气怎么样?",

　　"明天北京晴转多云，气温-2到8度"

　　)

　　print(f"得分：{score}，理由：{reason}")

　　核心目的：用一个稳定的“裁判”来量化评估，替代人工逐个检查。

　　Step 3：批量运行测试

　　操作指令：让智能体批量处理测试集中的所有问题，记录每次回答。

　　这一步可以复用你已有的智能体代码，只需要加一个循环遍历测试集。

　　代码示例：

　　python

　　import pandas as pd

　　import time

　　f rom tqdm import tqdm # 显示进度条

　　# 加载测试集

　　df = pd.read_csv("test_dataset.csv")

　　results = []

　　# 遍历每个测试用例

　　for idx, row in tqdm(df.iterrows(), total=len(df)):

　　user_query = row["user_query"]

　　# 调用你的智能体(这里用你自己的函数)

　　start_time = time.time()

　　assistant_response = your_agent_function(user_query) # 替换成你的函数

　　latency = time.time() - start_time

　　# 用裁判打分

　　score, reason = judge_response(user_query, assistant_response)

　　# 记录结果

　　results.append({

　　"id": row["id"],

　　"user_query": user_query,

　　"assistant_response": assistant_response,

　　"score": score,

　　"reason": reason,

　　"latency": round(latency, 2)

　　})

　　# 保存结果

　　results_df = pd.DataFrame(results)

　　results_df.to_csv("eval_results.csv", index=False)

　　print(f"评测完成，总用时：{time.time()-start_time:.2f}秒")

　　核心目的：自动化跑完全部测试用例，生成可量化的评测结果。

　　Step 4：计算指标与生成报告

　　操作指令：统计通过率、平均延迟等指标，输出可视化报告。

　　代码示例：

　　python

　　import pandas as pd

　　f rom datetime import datetime

　　# 加载评测结果

　　df = pd.read_csv("eval_results.csv")

　　# 计算核心指标

　　total = len(df)

　　passed = df["score"].sum()

　　pass_rate = (passed / total) * 100

　　avg_latency = df["latency"].mean()

　　# 找出失败的用例

　　failures = df[df["score"] == 0]

　　# 生成报告

　　report = f"""

　　========================================

　　智能体评测报告

　　生成时间：{datetime.now().strftime("%Y-%m-%d %H:%M:%S")}

　　========================================

　　【总体概况】

　　总测试用例：{total} 条

　　通过用例：{passed} 条

　　失败用例：{total - passed} 条

　　通过率：{pass_rate:.2f}%

　　平均响应延迟：{avg_latency:.2f} 秒

　　【失败用例详情】

　　"""

　　for idx, row in failures.iterrows():

　　report += f"""

　　----------------

　　ID：{row['id']}

　　用户问题：{row['user_query']}

　　助手回答：{row['assistant_response']}

　　失败原因：{row['reason']}

　　"""

　　print(report)

　　# 保存报告

　　with open(f"eval_report_{datetime.now().strftime('%Y%m%d_%H%M%S')}.txt", "w") as f:

　　f.write(report)

　　核心目的：从“凭感觉”到“看数据”，知道每一次迭代到底变好还是变差。

　　第二部分：进阶技巧——让评测流水线更强大

　　基础版跑通了，咱们再加几个“外挂”，让评测系统真正成为你的“24小时质检员”。

　　技巧1：用Langfuse实现可视化评测管理

　　手动跑脚本没问题，但如果你想长期监控、多人协作，Langfuse这样的评测管理平台能让你事半功倍。

　　操作方法：

　　注册Langfuse(支持私有化部署)

　　在你的代码中集成Langfuse SDK

　　在UI界面配置LLM-as-a-Judge评测器

　　每次跑完测试，结果自动同步到云端

　　效果对比：手动跑完还得翻CSV文件，用Langfuse可以直接在网页上查看通过率趋势图、失败用例分布、模型对比报告，一目了然。

　　技巧2：用Dify搭建可视化工作流

　　如果你不想写代码，或者想让业务人员也能参与评测设计，Dify工作流是你的最佳选择。

　　操作方法：

　　部署Dify(支持Docker一键部署)

　　在画布上拖拽“文本生成”节点配置评测提示词

　　拖拽“循环”节点批量处理测试用例

　　拖拽“代码”节点计算通过率

　　一键运行，结果自动汇总

　　效果对比：原来写代码需要1小时，用Dify拖拽10分钟搞定。而且可视化工作流更容易分享和调整。

　　技巧3：建立回归测试集，防止效果回退

　　这是整个评测流水线的核心价值——当你修改提示词或更换模型后，跑一遍测试集，看看有没有把之前能答对的题答错。

　　操作方法：

　　把你历史上所有“跑通过的用例”保存下来

　　每次修改后，全量跑一遍

　　如果发现原来通过的用例现在失败了，说明引入了回归问题

　　效果对比：没有回归测试，你是摸着石头过河;有了回归测试，你是站在岸上看清楚再跳。

　　技巧4：用多模型评审团提升评判准确性

　　单个LLM打分可能有偏见，比如GPT-4可能偏爱某种风格的答案。用“评审团”可以规避这个问题。

　　操作方法：

　　同时用GPT-4、Claude、本地Qwen三个模型打分

　　取多数票作为最终结果

　　如果三个模型分歧严重，标记为“需人工复审”

　　效果对比：单模型评判准确率约85%，多模型评审团可提升至95%以上。

　　第三部分：常见误区与避坑指南

　　误区1：测试集太小，测了个寂寞

　　错误表现：只准备了5个测试用例，跑通4个就觉得自己准确率80%。

　　导致的后果：上线后被用户的边缘情况打爆，实际准确率不到50%。

　　正确做法：至少准备20-50条用例，覆盖正常、异常、边界三大类。从真实用户对话中抽样是最靠谱的方式。

　　误区2：评判提示词写得太大而全

　　错误表现：一个评判提示词里塞了“准确性、完整性、友好性、安全性、格式正确性”五个维度。

　　导致的后果：模型顾此失彼，经常漏判某个维度。

　　正确做法：一个评判提示词只聚焦一个维度。多个维度就建多个评判器。

　　误区3：评测环境和生产环境不一致

　　错误表现：评测时用mock数据，生产环境用真实API，模型版本也不一样。

　　导致的后果：评测跑得挺好看，上线就崩。

　　正确做法：评测环境尽可能模拟生产环境。模型版本、温度参数、工具接口，尽量保持一致。

　　误区4：评测一次就完事

　　错误表现：上线前跑了一次评测，通过率80%，觉得可以了，之后再也没跑过。

　　导致的后果：随着用户数据变化，智能体效果慢慢下滑，但完全不知道。

　　正确做法：建立持续评测机制。每周或每月跑一次全量测试，监控通过率趋势。一旦发现下滑，立即分析原因。

　　误区5：只关注通过率，忽略失败模式

　　错误表现：只盯着“通过率80%”这个数字，涨了就高兴，跌了就焦虑。

　　导致的后果：不知道问题出在哪，无法指导下一步优化。

　　正确做法：每次评测后，花时间分析失败的用例。它们是哪类问题?理解错误?工具调用错误?格式错误?分类统计，找到主要矛盾。

手把手教你搭建智能体自动化评测流水线：含Prompt与代码示例

　　结语：让评测成为智能体开发的“仪表盘”

　　智能体开发不像传统软件，写对了就是对了，写错了就是错了。智能体的行为是概率性的，同一个输入可能得到不同输出，改了提示词可能影响几十个场景。

　　在这种不确定性里，评测就是你唯一的仪表盘。

　　没有仪表盘，你就是在黑夜里开车，凭感觉判断方向。有了仪表盘，你才能看到速度、看到油量、看到发动机温度，知道什么时候该加速、什么时候该刹车、什么时候该检修。

　　今天教的这套评测流水线，就是你可以免费安装的仪表盘。从20条测试用例开始，从第一个评判提示词开始，先跑起来。你会发现，原来你对自己的智能体，其实并没有那么了解。

　　当你把评测变成习惯，你的智能体迭代速度和质量，会甩开同行几条街。

手把手教你搭建智能体自动化评测流水线：含Prompt与代码示例

　　常见问题解答

　　Q1：我是非技术人员，能用这套方法吗?

　　A：可以。你可以用Dify这类可视化平台，全程拖拽完成，不需要写代码。或者让技术团队帮你搭好框架，你负责提供测试用例和评判标准。

　　Q2：评测用的LLM会不会很贵?

　　A：看你的测试规模。50条用例用GPT-4评测，大概几美元。你可以用开源模型本地部署(比如Qwen、Llama)，完全免费。初期可以用GPT-4 mini，效果不错，价格便宜。

　　Q3：测试集怎么维护?多久更新一次?

　　A：建议每季度更新一次。从真实用户对话中抽取新的典型用例加入，把已经“过时”的用例归档。保持测试集50-100条，既能覆盖场景，又不会让评测太慢。

　　Q4：通过率多少算“及格”?

　　A：没有统一标准。客服场景可能70%就算及格，金融场景可能99%才算及格。建议和人工表现对比，或者设定一个基线(比如上一版本的表现)，每次迭代的目标是超过基线。

　　Q5：评测发现了问题，怎么定位原因?

　　A：先看失败用例的共性：是某类问题集体失败?还是某个工具调用经常出错?然后检查相关部分的提示词、工具定义、模型版本。改完后重新跑评测验证。

　　Q6：多个维度怎么同时评测?

　　A：建多个评判器。比如一个判准确性，一个判安全性，一个判格式。每个跑一遍，最后综合得分。Langfuse支持配置多个LLM-as-a-Judge同时运行。

　　Q7：评测需要和CI/CD集成吗?

　　A：强烈建议。把评测脚本集成到GitHub Actions或GitLab CI里，每次代码提交自动跑评测，通过率低于阈值就阻止合并。这是防止“修了东墙补西墙”的最有效手段。

手把手教你搭建智能体自动化评测流水线：含Prompt与代码示例

　　一品威客：让专业的人帮你搭评测流水线

　　如果你看完攻略还是觉得“道理都懂，但没时间折腾”，或者你希望一步到位建立专业的智能体评测体系，那不如直接找专业的人来干。

　　在一品威客任务大厅，你可以免费发布“智能体评测流水线搭建”“LLM自动化评测系统开发”“AI智能体回归测试框架”等需求。写清楚你的业务场景、想评测的维度、预算多少，然后坐等服务商报价。平台上汇聚了百万专业服务商，覆盖AI开发、模型评测、自动化测试等各类技术人才。

　　发布任务后，你可以去人才大厅搜“LLM评测”“AI测试”“智能体开发”，“智能体自动化”直接筛选匹配的算法工程师和测试专家。点进他们的个人主页，看历史作品、看技能标签、看雇主评价，快速锁定靠谱人选。

　　每个服务商在服务大厅都有自己的专属商铺，里面全是他们的案例参考——做过哪些行业的智能体评测?用了什么框架?评测报告长什么样?有没有和你类似需求的案例?一看便知。这比光看简历、光听介绍靠谱多了。

　　如果你是第一次发包，可以去威客攻略板块学几招：怎么写需求才能吸引优质服务商?怎么沟通需求不踩坑?怎么验收交付成果?全是过来人的经验总结，能帮你少走很多弯路。

手把手教你搭建智能体自动化评测流水线：含Prompt与代码示例

　　对于标准化程度较高的需求，比如“我需要用Dify搭建评测工作流”“我需要Langfuse评测配置服务”，可以直接去一品商城看看。很多服务商提供了标准化的服务包，流程更简洁，交付更快捷，价格也更透明。

　　加入V客优享，还能享受专属客服、需求加急推送、交易保障升级等增值服务。发包更快、筛选更准、保障更强，彻底改变你的外包协作方式。

　　不管你是需要一个人帮你搭完这次评测流水线，还是想找个团队长期合作，一品威客都能帮你快速匹配。把专业的事交给专业的人，你只管专注优化智能体，让数据告诉你它到底好不好用。

Tag：智能

下一篇：新手在厦门注册公司：流程、费用、注... 本地生活小程序赚钱吗？哪个类目利润... 上一篇：

智能体效果评估推荐专题更多>

书店设计商业街设计游戏场景设计蛋糕设计报纸设计青岛网站设计洗手间设计深圳标志设计园艺设计企业网页设计门窗设计新房装修设计队旗设计办公室装饰设计装饰装修设计网站营销推广网站制作

智能体效果评估公司推荐

宁波云岳科技

 二品

交易额: 9.79万元

企业 |浙江省 |宁波市 |鄞州区
星宇数云bitcloud

九品

交易额: 0元

企业 |四川省 |成都市 |武侯区
迈乐科技

 九品

交易额: 0元

企业 |四川省 |成都市 |成都市
万点软件

 九品

交易额: 0元

企业 |陕西省 |西安市 |碑林区

成为一品威客服务商，百万订单等您来有奖注册中

留言（）展开评论 

快速发任务

价格是多少？怎样找到合适的人才？

官方顾问免费为您解答

智能体效果评估相关任务

DESIGN TASK 更多

火势预警，煤气泄露预警，摄像头抓取等一体化的硬软件开发

￥3000 已有0人投标

儿童智能硬件开发

￥20000 已有0人投标

溯源码开发

￥3000 已有4人投标

防青少年沉迷手机网游APP开发

￥20000 已有0人投标

登录协议开发协商好了请接单

￥1500 已有0人投标

开发店中店电商平台

￥10000 已有3人投标

三轴智能云台AI动态跟随软件开发

￥3000 已有0人投标

游戏APP开发

￥10000 已有4人投标

智能体效果评估人才

design talent 更多

宁波云岳科技

二品

浙江省
信用： 70分

主营
医疗健康
前端开发电商网站
星宇数云bitcloud

九品

四川省
信用： 26分

主营
智能体开发
APP开发嵌入式软件
万点软件

九品

陕西省
信用： 32分

主营
AI接口
APP开发其他软件开发
迈乐科技

九品

四川省
信用： 50分

主营
SAAS软件
电商网站 APP开发

智能体效果评估标签

玻璃包装

交易系统

服务器软件

信息管理系统

GIF

市场策略

噪音

权限

空间布局

漫画设计

宁波云岳科技

星宇数云bitcloud

万点软件

迈乐科技

热门服务