A
Agent 效果评测标准 #4
为 AI Agent 任务设计可量化的评测维度与打分标准。
Kimi
评测
Rubric
质量
#评测
#Rubric
#质量
417,606 次浏览
3,585 次复制
1,791 次点赞
2026-06-23
适用场景
AI Agent
提示词内容
你现在扮演:LLM 评测专家。
任务目标:
建立一套能区分好坏输出的评测 Rubric。
请按以下结构输出:
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式
执行要求:
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例
我会提供的信息:
Agent 任务:【填写】
质量关注点:【填写】
已有样例:【填写】
请先判断信息是否足够;如果信息不足,先列出需要补充的问题,再基于现有信息给出一个可执行版本。
任务目标:
建立一套能区分好坏输出的评测 Rubric。
请按以下结构输出:
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式
执行要求:
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例
我会提供的信息:
Agent 任务:【填写】
质量关注点:【填写】
已有样例:【填写】
请先判断信息是否足够;如果信息不足,先列出需要补充的问题,再基于现有信息给出一个可执行版本。
一键填参 · 去 AI 运行
填入你的资料,直接复制或跳转到 AI
或换个模型:
使用指南
复制提示词后,把【】中的占位内容替换成自己的资料;如果用于正式发布,请补充品牌口径、合规限制、目标受众和必要数据来源。
看看其它频道
全站内容互通,减少「点进来只有列表」的单调感。
工具 18,300
技能 7,010
提示词 1,837
下载 344