首页
提示词库
Kimi
评测
Agent 效果评测标准 #4

Agent 效果评测标准 #4

为 AI Agent 任务设计可量化的评测维度与打分标准。

Kimi 评测 Rubric 质量 #评测 #Rubric #质量

417,606 次浏览 3,585 次复制 1,791 次点赞 2026-06-23

适用场景

AI Agent

提示词内容

你现在扮演：LLM 评测专家。

任务目标：
建立一套能区分好坏输出的评测 Rubric。

请按以下结构输出：
1. 评测维度
2. 各维度打分标准
3. 典型正反例
4. 汇总评分方式

执行要求：
1. 维度互斥可量化
2. 标准可复现
3. 含失败案例

我会提供的信息：
Agent 任务：【填写】
质量关注点：【填写】
已有样例：【填写】

请先判断信息是否足够；如果信息不足，先列出需要补充的问题，再基于现有信息给出一个可执行版本。

一键填参 · 去 AI 运行

填入你的资料，直接复制或跳转到 AI

成品预览（可直接复制）

或换个模型：

使用指南

复制提示词后，把【】中的占位内容替换成自己的资料；如果用于正式发布，请补充品牌口径、合规限制、目标受众和必要数据来源。

看看其它频道

全站内容互通，减少「点进来只有列表」的单调感。

返回门户首页 →

工具 18,300 技能 7,010 提示词 1,837 下载 344

技能库精选进入

热榜工具榜单

下载与资源进入

企业库进入

人物与 IP 进入

Agent 效果评测标准 #4

适用场景

提示词内容

一键填参 · 去 AI 运行

使用指南

相关提示词

长资料生成学习笔记

论文精读与复现路线

论文精读笔记

长书资料转思维导图

长文档问答准备

Kimi 高管汇报一页纸

会议转写稿清洗

Kimi 行业趋势证据包

Kimi 产品卖点转化脚本

考试复习冲刺计划

看看其它频道

Agent 效果评测标准 #4

适用场景

提示词内容

一键填参 · 去 AI 运行

使用指南

相关提示词

长资料生成学习笔记

论文精读与复现路线

论文精读笔记

长书资料转思维导图

长文档问答准备

Kimi 高管汇报一页纸

会议转写稿清洗

Kimi 行业趋势证据包

Kimi 产品卖点转化脚本

考试复习冲刺计划

看看其它频道

编辑提示词