数据集 - TRAIL - 追踪推理与智能体问题定位数据集

编程乐园

已于 2025-05-22 17:12:46 修改

阅读量274

点赞数 3

文章标签： python ai Perfetto pythonai 数据集 TRAIL

于 2025-05-22 07:15:00 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lovechris00/article/details/148045688

版权

在这里插入图片描述

▲ 数据集示意图 | TRAIL overview

文章目录

一、关于数据集

基础信息

Hugging Face：https://huggingface.co/datasets/PatronusAI/TRAIL
数据集主页：GitHub
贡献团队：Patronus AI
数据集类型：专业型基准测试
License：MIT License

数据集背景

核心价值：首个专注于AI智能体工作流错误诊断的基准数据集，包含：

148条带标注的执行追踪
841个跨类别的真实错误案例
当前最佳模型准确率仅11%，凸显调试复杂性

二、数据特性

1、核心特征

多维度错误分类：
✓ 推理错误（如幻觉）
✓ 系统执行错误（如API问题）
✓ 规划协调错误
真实场景数据：
✓ 源自GAIA（开放世界搜索）和SWE-Bench（软件缺陷修复）
✓ 包含单/多智能体系统

2、数据结构

指标	数值
总追踪数	148
错误跨度(Spans)	575/1,987
GAIA占比	118条
SWE-Bench占比	30条

在这里插入图片描述

▲ 各模型在TRAIL上的表现

三、数据构建

1、采集流程

数据源：
- GAIA任务：使用o3-mini-2025-01-31模型驱动的OpenDeepResearch智能体
- SWE-Bench：采用claude-3-7-sonnet-20250219驱动的CodeAct智能体
追踪标准：
- 采用OpenTelemetry的OpenInference规范
- 人工引入指令约束以生成有机错误

2、标注方案

四阶段验证：
1. 软件工程师标注错误类型/证据/影响等级
2. ML研究人员独立复核
3. 追踪整体评分（指令遵循/安全性等）
4. 最终达成94.37%-94.69%标注一致率

四、使用限制

注意事项

❌ 禁止用于训练自动化评估系统
⚠️ 当前局限：
- 仅文本输入输出
- 42%错误集中在"输出生成"类别

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

编程乐园 请我喝杯伯爵奶茶~！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。