首页
提示词库
DeepSeek
评测
Agent 效果评测标准 #14

Agent 效果评测标准 #14

为 AI Agent 任务设计可量化的评测维度与打分标准。

DeepSeek 评测 Rubric 质量 #评测 #Rubric #质量

409,606 次浏览 3,535 次复制 1,761 次点赞 2026-06-23

适用场景

AI Agent

提示词内容

你现在扮演：LLM 评测专家。

任务目标：
建立一套能区分好坏输出的评测 Rubric。

请按以下结构输出：
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式

执行要求：
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例

我会提供的信息：
Agent 任务：【填写】
质量关注点：【填写】
已有样例：【填写】

请先判断信息是否足够；如果信息不足，先列出需要补充的问题，再基于现有信息给出一个可执行版本。

一键填参 · 去 AI 运行

填入你的资料，直接复制或跳转到 AI

成品预览（可直接复制）

或换个模型：

使用指南

复制提示词后，把【】中的占位内容替换成自己的资料；如果用于正式发布，请补充品牌口径、合规限制、目标受众和必要数据来源。

看看其它频道

全站内容互通，减少「点进来只有列表」的单调感。

返回门户首页 →

工具 18,300 技能 7,010 提示词 1,837 下载 344

技能库精选进入

热榜工具榜单

下载与资源进入

企业库进入

人物与 IP 进入

Agent 效果评测标准 #14

适用场景

提示词内容

一键填参 · 去 AI 运行

使用指南

相关提示词

复杂问题分层推理

商业模式与盈利模型推演

SQL 查询生成与性能检查

DeepSeek 高管汇报一页纸

DeepSeek 行业趋势证据包

DeepSeek 产品卖点转化脚本

DeepSeek 需求验收测试清单

DeepSeek 视觉创意多版本提示词

DeepSeek 学习资料精读复盘

DeepSeek 客户沟通回复优化

看看其它频道

Agent 效果评测标准 #14

适用场景

提示词内容

一键填参 · 去 AI 运行

使用指南

相关提示词

复杂问题分层推理

商业模式与盈利模型推演

SQL 查询生成与性能检查

DeepSeek 高管汇报一页纸

DeepSeek 行业趋势证据包

DeepSeek 产品卖点转化脚本

DeepSeek 需求验收测试清单

DeepSeek 视觉创意多版本提示词

DeepSeek 学习资料精读复盘

DeepSeek 客户沟通回复优化

看看其它频道

编辑提示词