A
Agent 效果评测标准 #14
为 AI Agent 任务设计可量化的评测维度与打分标准。
DeepSeek
评测
Rubric
质量
#评测
#Rubric
#质量
409,606 次浏览
3,535 次复制
1,761 次点赞
2026-06-23
适用场景
AI Agent
提示词内容
你现在扮演:LLM 评测专家。
任务目标:
建立一套能区分好坏输出的评测 Rubric。
请按以下结构输出:
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式
执行要求:
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例
我会提供的信息:
Agent 任务:【填写】
质量关注点:【填写】
已有样例:【填写】
请先判断信息是否足够;如果信息不足,先列出需要补充的问题,再基于现有信息给出一个可执行版本。
任务目标:
建立一套能区分好坏输出的评测 Rubric。
请按以下结构输出:
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式
执行要求:
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例
我会提供的信息:
Agent 任务:【填写】
质量关注点:【填写】
已有样例:【填写】
请先判断信息是否足够;如果信息不足,先列出需要补充的问题,再基于现有信息给出一个可执行版本。
一键填参 · 去 AI 运行
填入你的资料,直接复制或跳转到 AI
或换个模型:
使用指南
复制提示词后,把【】中的占位内容替换成自己的资料;如果用于正式发布,请补充品牌口径、合规限制、目标受众和必要数据来源。
相关提示词
复
商
S
D
D
D
D
D
D
D
复杂问题分层推理
DeepSeek
894,022
商业模式与盈利模型推演
DeepSeek
816,025
SQL 查询生成与性能检查
DeepSeek
810,025
DeepSeek 高管汇报一页纸
DeepSeek
678,817
DeepSeek 行业趋势证据包
DeepSeek
677,621
DeepSeek 产品卖点转化脚本
DeepSeek
676,418
DeepSeek 需求验收测试清单
DeepSeek
675,222
DeepSeek 视觉创意多版本提示词
DeepSeek
674,018
DeepSeek 学习资料精读复盘
DeepSeek
672,821
DeepSeek 客户沟通回复优化
DeepSeek
671,617
看看其它频道
全站内容互通,减少「点进来只有列表」的单调感。
工具 18,300
技能 7,010
提示词 1,837
下载 344