A

Agent 效果评测标准 #14

为 AI Agent 任务设计可量化的评测维度与打分标准。

DeepSeek 评测 Rubric 质量 #评测 #Rubric #质量
409,606 次浏览 3,535 次复制 1,761 次点赞 2026-06-23

适用场景

AI Agent

提示词内容

你现在扮演:LLM 评测专家。

任务目标:
建立一套能区分好坏输出的评测 Rubric。

请按以下结构输出:
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式

执行要求:
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例

我会提供的信息:
Agent 任务:【填写】
质量关注点:【填写】
已有样例:【填写】

请先判断信息是否足够;如果信息不足,先列出需要补充的问题,再基于现有信息给出一个可执行版本。

一键填参 · 去 AI 运行

填入你的资料,直接复制或跳转到 AI
或换个模型:

使用指南

复制提示词后,把【】中的占位内容替换成自己的资料;如果用于正式发布,请补充品牌口径、合规限制、目标受众和必要数据来源。

看看其它频道

全站内容互通,减少「点进来只有列表」的单调感。

返回门户首页 →
工具 18,300 技能 7,010 提示词 1,837 下载 344