▲ 数据集示意图 | TRAIL overview
一、关于数据集
基础信息
- Hugging Face:https://huggingface.co/datasets/PatronusAI/TRAIL
- 数据集主页:GitHub
- 贡献团队:Patronus AI
- 数据集类型:专业型基准测试
- License:MIT License
数据集背景
核心价值:首个专注于AI智能体 工作流错误诊断 的基准数据集,包含:
- 148条带标注的执行追踪
- 841个跨类别的真实错误案例
- 当前最佳模型准确率仅11%,凸显调试复杂性
二、数据特性
1、核心特征
-
多维度错误分类:
✓ 推理错误(如幻觉)
✓ 系统执行错误(如API问题)
✓ 规划协调错误 -
真实场景数据:
✓ 源自GAIA(开放世界搜索)和SWE-Bench(软件缺陷修复)
✓ 包含单/多智能体系统
2、数据结构
指标 | 数值 |
---|---|
总追踪数 | 148 |
错误跨度(Spans) | 575/1,987 |
GAIA占比 | 118条 |
SWE-Bench占比 | 30条 |
▲ 各模型在TRAIL上的表现
三、数据构建
1、采集流程
-
数据源:
- GAIA任务:使用o3-mini-2025-01-31模型驱动的OpenDeepResearch智能体
- SWE-Bench:采用claude-3-7-sonnet-20250219驱动的CodeAct智能体
-
追踪标准:
- 采用OpenTelemetry的OpenInference规范
- 人工引入指令约束以生成有机错误
2、标注方案
- 四阶段验证:
- 软件工程师标注错误类型/证据/影响等级
- ML研究人员独立复核
- 追踪整体评分(指令遵循/安全性等)
- 最终达成94.37%-94.69%标注一致率
四、使用限制
注意事项
- ❌ 禁止用于训练自动化评估系统
- ⚠️ 当前局限:
- 仅文本输入输出
- 42%错误集中在"输出生成"类别