数据集 - TRAIL - 追踪推理与智能体问题定位数据集

在这里插入图片描述

▲ 数据集示意图 | TRAIL overview


一、关于数据集

基础信息


数据集背景

核心价值:首个专注于AI智能体 工作流错误诊断 的基准数据集,包含:

  • 148条带标注的执行追踪
  • 841个跨类别的真实错误案例
  • 当前最佳模型准确率仅11%,凸显调试复杂性

二、数据特性

1、核心特征

  • 多维度错误分类
    ✓ 推理错误(如幻觉)
    ✓ 系统执行错误(如API问题)
    ✓ 规划协调错误

  • 真实场景数据
    ✓ 源自GAIA(开放世界搜索)和SWE-Bench(软件缺陷修复)
    ✓ 包含单/多智能体系统


2、数据结构

指标数值
总追踪数148
错误跨度(Spans)575/1,987
GAIA占比118条
SWE-Bench占比30条

在这里插入图片描述

▲ 各模型在TRAIL上的表现

三、数据构建

1、采集流程

  1. 数据源

    • GAIA任务:使用o3-mini-2025-01-31模型驱动的OpenDeepResearch智能体
    • SWE-Bench:采用claude-3-7-sonnet-20250219驱动的CodeAct智能体
  2. 追踪标准

    • 采用OpenTelemetry的OpenInference规范
    • 人工引入指令约束以生成有机错误

2、标注方案

  • 四阶段验证
    1. 软件工程师标注错误类型/证据/影响等级
    2. ML研究人员独立复核
    3. 追踪整体评分(指令遵循/安全性等)
    4. 最终达成94.37%-94.69%标注一致率

四、使用限制

注意事项

  • ❌ 禁止用于训练自动化评估系统
  • ⚠️ 当前局限:
    • 仅文本输入输出
    • 42%错误集中在"输出生成"类别
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值