自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

栖客

栖霞山下,客坐天涯!

  • 博客(1280)
  • 收藏
  • 关注

原创 行业首本《ChatBI 核心技术》新书正式上市,用自然语言干掉 80% 的报表需求

《ChatBI核心技术:生成式BI解锁智能商业决策新维度》一书聚焦前沿数据分析技术,系统介绍如何通过自然语言处理与AI技术降低数据分析门槛。作者基于十余年数据领域经验,详细解析ChatBI的完整技术栈,包括NL2SQL转换、指标API等核心技术。全书从基础概念到实战应用,涵盖提示工程、大模型微调等关键技术,旨在推动数据分析民主化,让业务人员无需专业技能即可获取数据洞察,提升企业决策效率。

2025-10-22 07:08:59 1744

原创 GEMMA-SQL:轻量架构下的 Text-to-SQL 破壁之道 —— 二十年深耕后的本质洞见

摘要:GEMMA-SQL开创性地采用轻量级开源模型Gemma2B,通过结构化微调和精准提示策略,在SPIDER基准测试中达到66.8%的Test-Suite准确率。其三大创新包括:1) 轻量架构实现高效结构化推理;2) 迭代式数据优化处理流程;3) 少样本提示工程提升泛化能力。相比传统大模型方案,GEMMA-SQL以2B参数超越多个7B+模型,证明"精准适配优于参数堆砌"的技术理念,为Text-to-SQL领域提供了高效、可解释的新范式。

2025-11-16 17:12:10 670

原创 TEXT2SQL-FLOW 横空出世!8.9 万条高质量数据,让 Text-to-SQL 模型战力飙升~

【摘要】北大团队推出TEXT2SQL-FLOW框架,通过六维度数据增强策略自动生成89,544条高质量Text-to-SQL标注数据,构建SQLFLOW数据集。该框架包含SQL验证、多风格问题生成、推理链标注等全流程自动化pipeline,支持主流数据库适配。实验表明,使用SQLFLOW微调的开源模型(如Qwen2.5)在Spider、BIRD等基准上准确率提升8%+,EHRSQL性能翻倍;提出的掩码对齐检索方法使闭源模型少样本学习效果逼近真实SQL检索上限,且无需额外API成本。SQLFLOW在数据多样性

2025-11-16 17:11:39 1654

原创 阿里开源杀疯了!Tongyi DeepResearch 横空出世,30B 参数干翻 GPT-4,AI 自主搞科研时代来了~

阿里通义实验室发布开源AI科研大模型TongyiDeepResearch,305亿参数仅激活33亿即在多个基准测试中超越OpenAI等强手。该模型突破性地实现了从选题到报告生成的端到端自主科研流程,首创将"中期训练"和"后期训练"结合的完整训练框架,并采用自动化数据合成流水线,无须人工标注即可生成高质量训练数据。其创新性地设计了三种训练环境配合不同训练阶段,使模型在7项权威科研测试中创下SOTA成绩,同时在数学推理等通用任务上也表现优异。该开源项目已完整开放模型及框架

2025-11-16 17:11:09 764

原创 救命!大模型推理还能这么玩?CoT-X 框架让小模型秒变 “推理大神”

摘要:普渡大学等机构联合研发的CoT-X框架创新性地解决了大模型Chain-of-Thought推理算力消耗过高的问题。该框架通过大模型生成详细推理链后,采用三步压缩策略(语义分割评分、动态筛选、逻辑补全),将推理能力高效转移给小模型。在7501道医疗考试题的测试中,64token预算下准确率提升40%,且支持跨模型、跨语言应用。实验显示中文表现最优,14B+7B模型组合在256token时可达75%准确率。该技术为边缘设备部署大模型推理能力提供了可行方案,后续将开源代码。(149字)

2025-11-16 17:10:33 317

原创 CoQ 框架:用 SQL + 多 Agent 破解 LLM 表格理解难题,5 大数据集准确率超 SOTA 13%+,代码开源

Rice大学、三星电子和华纳兄弟联合研发的CHAIN-OF-QUERY(CoQ)框架有效解决了大语言模型处理表格数据的难题。通过自然语言简化表格结构、逐句生成SQL避免错误传播、分工协作式推理等创新设计,CoQ在5个权威数据集上表现优异:准确率提升13%以上,无效SQL率降低50%。该框架采用多Agent协作方式,将表格理解拆分为专项任务,显著提升了模型对复杂表格和多步推理任务的处理能力。代码已开源,为研究和应用提供了实用解决方案。

2025-11-16 17:09:56 751

原创 20亿参数逆袭!开源 Text-to-SQL 模型 GEMMA-SQL 实测:碾压 IRNet 等 SOTA,普通 PC 能部署

GEMMA-SQL模型实现自然语言转SQL的重大突破,仅20亿参数却性能卓越,在SPIDER基准测试中准确率超60%,超越多个大模型。该开源模型采用LoRA微调技术,可在普通电脑运行,无需高端硬件。研究显示其prompt设计精妙,支持迭代纠错,通过少样本学习使准确率提升至88%。未来还将优化多语言和跨领域能力,为中小用户提供低成本数据查询解决方案,实现真正的"技术普惠"。

2025-11-16 17:09:15 725

原创 爆火!Text2VectorSQL 横空出世,自然语言一键搞定结构化 + 非结构化数据查询!

摘要:北大、上交等高校团队研发Text2VectorSQL技术,实现自然语言到VectorSQL的转换,统一查询结构化与非结构化数据。通过VectorSQLGen生成训练数据、VectorSQLBench基准测试和UniVectorSQL模型家族,解决了数据缺失、评估标准等难题。实验显示UniVectorSQL-32B性能超越GPT-4o等模型,执行成功率93.9%。该技术已开源,有望革新数据查询方式。(150字)

2025-11-16 17:08:36 935

原创 爆火!TCSR-SQL 横空出世,文本转 SQL 准确率直接飙升 27.8%,真实场景再也不怕 “词不对列” 啦~

摘要:TCSR-SQL技术解决了自然语言查询数据库的痛点,针对"表格内容感知型问题"设计,通过自检索技术将执行准确率提升至77.8%。该技术包含三个核心模块:关键词提取与模糊检测、知识检索与对齐、SQL生成与修订,有效解决了"词不对列""编码未知"等问题。在TCD数据集测试中表现优异,比现有方法提升27.8%,且能与现有技术结合进一步提升效果。虽然编码知识表目前仍需部分手动整理,但已大幅降低数据库查询门槛,使非技术人员也能轻松使用自然语言获取精准数

2025-11-09 16:25:52 587

原创 爆火!3 种多智能体管道让小模型 Text-to-SQL 能力狂飙,最高提升 10.6%!

摘要:最新Text-to-SQL研究突破传统限制,通过创新多智能体协作架构显著提升小模型性能。研究系统测评了24个开源模型(4B-34B参数),发现Gemma3 27B和Qwen2.5-Coder 14B表现优异。提出的三种协作模式——多智能体讨论(MAD)、规划师-编码器(Planner-Coder)和编码器-聚合器(Coder-Aggregator)分别提升小模型性能达10.6%、18%和10个EX点。其中规划师-编码器架构通过任务分解使CodeLlama 7B性能提升150%,实现小模型高效部署。该研

2025-11-09 16:24:32 289

原创 腾讯混元 Image 3.0 横空出世!800 亿参数开源模型,碾压一众闭源顶流?

腾讯混元团队推出的HunyuanImage3.0是一款突破性的开源原生多模态模型,将图像理解与生成整合在统一的自回归框架中。该模型采用800亿参数的混合专家架构,推理时仅激活130亿参数,兼具高性能与高效能。通过严格的三轮数据筛选流程和创新的多模态训练策略,模型展现出卓越的文本理解与图像生成能力。其创新设计包括广义因果注意力机制、自动分辨率功能以及支持思维链推理的训练方法。评估结果显示其性能媲美顶尖闭源模型,成为当前最强的开源图像生成模型。团队已公开代码和权重,推动开源生态发展。

2025-11-09 16:23:23 915

原创 【Qwen3-VL】:使用Qwen3-VL+Streamlit搭建图片理解|2D|3D目标检测平台

本文介绍了一个基于Streamlit框架搭建的3D目标检测平台,该平台具备三种检测模式(图片理解、2D目标检测、3D目标检测)和智能提示词构建功能。系统采用模块化设计,包含相机参数工具、API客户端、图像处理、2D/3D可视化等核心模块。平台支持从JSON文件加载相机参数或自动生成参数,并提供完整的可视化功能,包括3D边界框在2D图像上的投影显示和历史记录管理。通过使用Qwen3-VL多模态模型,该系统实现了对物体空间位置的精确检测与理解,适用于自动驾驶、机器人导航等多种应用场景。用户可通过简洁的界面完成图

2025-11-09 16:22:33 1309

原创 家人们!Text-to-SQL 终于有 “自我进化” 神器了!ORANGE 框架直接把领域知识焊死在模型里

ORANGE框架提出了一种突破性的Text-to-SQL解决方案,通过自动解析历史翻译日志构建领域知识库,有效解决了大语言模型在特定领域SQL转换中的语义理解难题。该方法采用三步流程:知识分解(嵌套CoT解析SQL)、知识验证(概率过滤)和知识增强翻译(相似示例检索),在BIRD等数据集上实现了65.12%的执行准确率,较基线提升3.13%。特别在专业领域和复杂查询场景表现突出,如Science数据集准确率达54.52%。实验表明,该框架具有自我进化能力,知识积累越多性能越强,且适配多种基础模型(最佳达70

2025-11-09 16:20:20 409

原创 家人们!Text-to-SQL 界杀疯了!MARS-SQL 多智能体框架直接把准确率卷到新高度

摘要: 《ChatBI核心技术》新书全面解析ChatBI框架,涵盖从基础概念到核心技术应用。重点介绍MARS-SQL突破性框架,其采用多智能体架构(Grounding/Generation/Validation Agent)实现自然语言转SQL,通过交互式强化学习提升复杂查询处理能力。实验数据显示,在BIRD-dev数据集上准确率达77.84%,Spider-test上达89.75%,显著优于现有方案。书中详细阐述提示工程、AI智能体等关键技术,并包含实战案例,为读者提供完整的ChatBI技术实现路径。该框

2025-11-09 16:19:03 697

原创 惊!SQLSpace 让 Text-to-SQL 开上帝视角:数据集攀比、模型漏洞、查询优化全搞定

摘要:SQLSpace框架创新性地解决了Text-to-SQL评估中的关键痛点。通过自动提取187个多维特征(如SQL复杂度、自然语言特征等)构建二进制向量,该框架首次实现了对模型表现的细粒度分析。实验显示:1)揭示了不同数据集(如SPIDER与BIRD)的深层差异特征;2)识别出所有模型的共性弱点(如处理嵌套查询时准确率骤降30%);3)通过特征改写使模型准确率提升6-7个百分点。该研究为模型选择、数据集构建和查询优化提供了量化依据,论文代码已开源(arXiv:2510.27532v1)。

2025-11-09 16:17:49 1201

原创 救命!Text-to-SQL 居然还能这么玩?动态多轮交互才是真实数据库的打开方式啊!

行业首本《ChatBI 核心技术》新书正式上市,用自然语言干掉 80% 的报表需求家人们谁懂啊!现在好多 Text-to-SQL 模型在静态单轮场景里牛得不行,随便给个自然语言问题就能生成 SQL 查询,推理步骤看着也超丝滑。但一到真实世界里就拉垮 —— 谁用数据库查数据是一次性把需求说清楚的啊?比如做财务分析时,不得先看个销售概况,再根据结果加个地区筛选,发现不对又调整时间范围?这种动态改需求的场景,之前的模型根本 hold 不住!《ChatBI核心技术》是刚上市的新书,本书旨在为读者提供一个全面的Cha

2025-11-09 16:16:31 621

原创 大模型写 SQL 总翻车?只因漏了这一步!Context-Aware 双向检索拯救 Schema Linking

摘要:最新研究聚焦Text-to-SQL中的关键环节SchemaLinking,提出双向检索框架显著提升性能。传统方法面临全量Schema干扰或完美Schema依赖的两难,该研究通过"表优先+列优先"双路径协同检索,在BIRD数据集上将全量与完美Schema性能差距缩小50%。相比现有方案,该方法以仅6次LLM调用实现85%-93%召回率,误判率降低至19%-34%,推理延迟仅2.6秒。实验表明该方法适用于不同难度SQL查询,作为独立模块可使DIN-SQL等现有方案准确率提升4-5个百分

2025-11-09 16:15:14 715

原创 宝子们!Context Engineering 2.0 来了 —— 让 AI 读懂你的 “潜台词”,这事儿早就不是新鲜活了!

《ChatBI核心技术》新书上市,全面解析如何用自然语言处理技术实现智能商业分析。该书系统介绍了ChatBI的定义、特点及其与传统BI的区别,涵盖从基础概念到核心技术的完整知识体系。重点探讨了提示工程、AI智能体、检索增强生成等关键技术,并提供实战案例展示如何构建AI智能体和业务知识库。书中还详细讲解了对话理解、智能分析、用户交互等关键环节,为企业决策支持、数据洞察等场景提供实用指导。本书为读者呈现了一个完整的ChatBI学习框架,帮助掌握这一前沿技术的实现路径与应用思路。

2025-11-09 16:13:57 618

原创 《ChatBI核心技术》首发:一句话终结80%报表,开启数据对话新时代

《ChatBI实战宝典:数据人的智能助手》是一本面向数据从业者的实用指南,介绍如何利用ChatBI实现数据自由。作者基于十余年行业经验,指出传统BI工具的高门槛问题,而ChatBI则能通过自然语言交互快速生成图表和分析。该书采用接地气的实战教学方式,涵盖从基础查询到复杂计算的全套技能,帮助业务、管理、技术人员告别SQL编写困扰,让数据真正为决策服务。本书旨在推动数据智能应用,让每个企业都能享受数据驱动的价值,并欢迎读者共同探讨ChatBI的发展与应用。

2025-11-01 21:34:29 1192

原创 爆肝夺冠!OraPlan–SQL 横扫双语 NL2SQL 挑战赛,这波操作也太秀了吧!

摘要: OracleAI推出的OraPlan-SQL在2025年NL2SQL挑战赛中以出色表现夺冠,中英文执行准确率分别达56.7%和55.0%,显著领先第二名。其创新采用双Agent架构,通过规划器生成自然语言计划,SQL生成器转换执行。关键技术包括:1)基于错误分析的元提示优化;2)实体链接解决双语匹配;3)多计划投票机制确保稳定性。消融实验证明,其框架优势超越单纯依赖模型性能的提升,特别是中文处理能力突出,直接处理中文问句比翻译后处理准确率提升24%。该方案为复杂场景下的自然语言转SQL提供了高效解决

2025-11-01 21:29:31 419

原创 告别 “盲写 SQL” 时代!MTIR-SQL 带实时工具反馈,小模型也能吊打大参数竞品

《ChatBI核心技术》新书上市,介绍突破性Text-to-SQL技术MTIR-SQL。该技术通过"实时尝味"机制和多轮数据库交互,使40亿参数模型在BIRD数据集上达到64.4%准确率,性能超越多个百亿级大模型。关键技术包括: 执行感知的多轮推理,实现SQL调试过程可视化 改进GRPO算法,增强训练稳定性 三重奖励机制(格式、执行、结果奖励) 实验数据显示,该方法在SPIDER数据集执行准确率达84.6%,且各组件缺一不可。这一突破有望大幅降低数据分析门槛,让用户通过自然语言即可获取精

2025-11-01 21:28:49 837

原创 家人们!Text-to-SQL 落地难哭了?这个万能框架直接把学术成果拽进现实!

《ChatBI核心技术》新书介绍Squrve框架,该框架解决了Text-to-SQL技术落地难的问题。Squrve通过四大模块实现:数据模块统一格式并支持复杂查询,Actor模块将任务拆分为7个可组合子任务,任务模块统一管理任务流程,执行模块确保系统稳定运行。实验显示,Squrve不仅准确复现了现有方法,其组合模型在Spider-dev数据集上执行准确率高达90.8%。该框架操作简单,几行代码即可运行,显著提升了Text-to-SQL技术的实用性和效率。

2025-11-01 21:23:15 739

原创 家人们!Text-to-SQL 模型卷出新高度,腾讯这套 DCMM-SQL 直接拿了轻量组第一!

腾讯团队提出DCMM-SQL方案,突破Text-to-SQL任务瓶颈。该方案聚焦数据质量和多模型协作两大核心:1)创新性设计自适应数据修复和错误数据增强机制,自动修正错误标注并针对性扩充易错样本;2)采用两步式多模型协作训练策略,集成多个专家模型的优势。实验显示,该方法在70B参数以下轻量级模型中取得领先性能,在Spider和Bird数据集上准确率分别达89.84%和72.69%,验证了优化数据基础和训练逻辑的可行性路径。

2025-11-01 21:22:15 455

原创 家人们!表格总结终于有 “六边形战士” 了!FACTS 这波操作直接把效率、精准度、隐私全拉满!

FACTS方法革新表格总结技术,通过离线模板实现高效、精准且隐私安全的表格信息提取。该方法采用三步流程:需求分析、SQL查询构造和自然语言转换,仅需传输表格结构而无需暴露真实数据。在三大权威数据集测试中,FACTS表现优异,执行成功率达100%,且在复用性和扩展性方面显著优于传统方法。特别适用于金融、医疗等对数据隐私要求严格的领域,解决了现有技术慢、不准和泄露风险等痛点。

2025-11-01 21:21:28 400

原创 救命!AI 居然能把人话直接转成地理 SQL?这个多智能体框架也太猛了吧!

《ChatBI核心技术》新书上市,推出革命性AI多智能体系统,可将自然语言转换为空间SQL查询,准确率达87.7%。该系统通过5个专业智能体协同工作,解决传统空间查询工具(如PostGIS)对非专业人士的技术门槛问题。智能体架构包含知识库、元数据检索、查询逻辑等组件,能自动处理复杂空间计算,并具备自我纠错和学习能力。测试显示,该系统在基础、中级、高级空间查询任务中的准确率分别达到93.3%、90%和80%,大幅提升了非技术人员的地理数据分析效率。

2025-11-01 21:20:34 693

原创 大模型也怕 “瞎猜”!SIMBA UQ:用相似度给 AI 答案打置信分,靠谱多了

IBM团队提出SIMBAUQ框架,通过分析大模型生成答案的相似度来量化置信度。该框架采用三步流程:多温度采样生成多个答案、计算答案间相似度、聚合相似度得出置信度。实验显示,该方法在QA、摘要和SQL生成任务中表现优异,尤其在文本到SQL任务中校准误差显著低于传统方法。该方案的创新在于不依赖模型内部参数,实现黑盒操作,便于工程落地。开发者可将其封装为"置信度计算器",结合阈值判断输出可靠性。虽然存在跨领域适应性等局限,但SIMBAUQ为大模型输出可信度评估提供了实用解决方案。

2025-11-01 21:19:03 877

原创 聊个正经事:Text2SQL 任务里,推理型大模型的测试时缩放策略到底行不行?

摘要:博世团队研究Text2SQL场景下大模型的测试时优化策略,对比6种轻量级流程在4个模型上的表现。研究发现,"分而治之+少量示例"组合效果最佳,能显著提升模型性能;结果验证流程普遍有效,但复杂策略不一定更好。实验显示基础模型选择比流程优化更重要,Gemini2.5Flash基线表现优于其他模型的最优流程。建议工业落地时应平衡速度与准确率,为不同复杂度查询设计差异化的处理模式。研究为实际应用提供了流程选择和性能调优的实用参考。

2025-11-01 21:17:53 670

原创 爆肝解读!Salesforce 新出的 EDR 多智能体,把企业数据分析卷到新高度

SalesforceAIResearch推出企业级深度研究智能体系统EDR,通过模块化多智能体架构实现高效数据研究。EDR具备主研究智能体、专业搜索模块和工具生态,能拆解复杂任务、精准检索信息并生成结构化报告。测试显示EDR在DeepResearchBench等基准上超越主流系统,商业咨询场景胜率达71.57%。系统支持人机实时协作,提供完整研究轨迹开源数据集EDR-200,显著提升企业研究效率。目前已在Salesforce内部部署,用户满意度达4.8/5,未来将优化事实性和多领域适配能力。

2025-10-27 23:20:38 695

原创 聊个正经事:Text2SQL 任务里,推理型大模型的测试时缩放策略到底行不行?

摘要:博世团队研究了Text2SQL场景下大模型的测试时优化策略,通过6种轻量级流程和4个模型在BIRDMini-Dev数据集上的实验发现:1)"分而治之+少量示例"组合效果最佳,能提升各模型性能;2)结果验证流程普遍有效,但复杂策略未必更好;3)基础模型选择比流程优化更重要;4)GeminiFlash系列推理速度快但准确性需权衡。研究建议工业应用优先采用基础优化组合,根据需求平衡速度与准确性,并注重用户体验设计。核心指标包括SoftF1、执行准确率、推理时间和token消耗等。

2025-10-27 23:19:53 550

原创 LitE-SQL:轻量又能打的 Text-to-SQL 框架,向量查 schema + 执行反馈自修正直接封神

LitE-SQL框架:轻量高效的Text-to-SQL解决方案 摘要:Yonsei大学团队提出的LitE-SQL框架通过创新设计实现了轻量高效的Text-to-SQL转换。该框架采用SchemaRetriever(基于向量检索)和SQLGenerator(两阶段微调)双模块架构,仅需7B参数即可在BIRD和Spider数据集上达到72.10%和88.45%的执行准确率,性能媲美175B参数的GPT-4。关键技术包括:1)HN-SupCon损失函数优化字段检索;2)执行引导的强化微调实现自修正。相比传统方案,

2025-10-24 07:03:13 693 1

原创 无需微调,30B 模型搞定复杂 SQL!DeepEye-SQL 的软件工程思路,值得一看

摘要:DeepEye-SQL提出了一种基于软件工程理念的Text-to-SQL新框架,将SQL生成过程分解为需求分析、编码实现、测试调试和发布上线四个阶段,显著提升了系统可靠性。该框架通过语义值检索和多方法Schema链接精准理解用户意图,采用N版本编程生成多样化SQL,利用工具链修订进行系统化验证,最终通过置信度感知机制选择最优结果。实验表明,在BIRD和Spider基准上,其准确率分别达73.5%和89.8%,超越现有方法且无需微调,同时将token消耗降低6-14倍。该研究为生成任务提供了流程优化的新

2025-10-24 06:49:31 678

原创 大模型也怕 “瞎猜”!SIMBA UQ:用相似度给 AI 答案打置信分,靠谱多了

摘要:IBM研究团队提出的SIMBAUQ框架通过量化大模型输出的置信度解决"不确定性"问题。该框架采用三步法:1)多温度采样生成多个答案;2)计算答案间相似度;3)通过分类聚合计算置信度。实验显示,在QA、摘要和SQL生成等任务中,该方法显著优于基线,ACE指标降低6倍以上,AUROC达0.9。关键优势在于无需模型内部参数,仅需30个样本即可实现,且Jaccard等通用指标即可获得良好效果。该技术可快速集成到现有系统,为高风险场景提供可靠性保障。

2025-10-22 07:10:36 557

原创 当 AI 干起咨询活:CORGI 基准让大模型在商业 SQL 上现原形

Cornell和GenaAI团队推出的CORGI基准攻克了商业Text-to-SQL的关键痛点:1)构建包含26张表的真实企业级数据库,模拟业务规则、用户分布和季节趋势;2)设计四层递进式问题(描述性→解释性→预测性→推荐性),全面覆盖商业决策需求;3)首创多智能体评估框架,从7个维度(如数据敏感度、可执行性)进行专业评分。实验显示,GPT-4o在推荐性问题上的可执行性评分仅2.23/5,暴露大模型生成商业建议的"正确废话"缺陷。该研究为业务型AI开发提供了真实场景测试标准,开发者需结合

2025-10-21 21:36:42 380

原创 大模型写 SQL 太贵?这个「数据湖特工」直接砍 87% 成本,性能还没掉!

摘要:DatalakeAgent创新性地解决了NL2SQL任务中高成本问题,通过互动循环机制仅获取必要数据库元信息,而非一次性输入所有数据。实验表明,在319张表的场景下,该方法比传统方式节省87%的tokens,成本降低250倍,同时保持56.3%的复杂查询准确率,而传统方法仅29.3%。其"信息获取-迭代优化-生成查询"三步骤设计,使大模型能精准定位所需数据,特别适合企业多数据库环境。虽然存在偶尔的无限循环问题,但该方案为大规模NL2SQL应用提供了高性价比的解决方案。

2025-10-21 21:35:43 352

原创 大模型写 SQL 总翻车?JudgeSQL 这波操作直接把选对率拉满!

本文介绍北航团队提出的JudgeSQL框架,解决了大模型生成Text-to-SQL时难以选择最优SQL查询的难题。该框架包含"会推理的SQL裁判模型"和"加权共识锦标赛"两大创新:裁判模型通过蒸馏学习和强化训练,能精准分析SQL对错并给出推理过程;加权锦标赛则高效筛选候选SQL,将对比次数减少18倍以上。实验表明,在BIRD基准测试中,该框架使7B和32B模型的执行准确率提升3-7%,特别在复杂查询上表现突出,且具有良好的泛化性和兼容性,为Text-to-SQL应用提

2025-10-21 21:34:34 344

原创 BenchPress:让企业快速搞定 Text-to-SQL 基准测试的神器,人与 AI 协作才是王道!

家人们,咱先唠个实诚事儿 —— 现在大语言模型(LLMs)在 Text-to-SQL 这块确实挺猛,像 Fiben、Spider、Bird 这些公开数据集上,那表现看得人眼花缭乱。但咱干企业开发的都知道,一碰到公司内部的大型私有数据仓库,这些模型立马就 “拉胯” 了。之前我们搞出了 Beaver 这个首个企业级 Text-to-SQL 基准测试,当时是靠 SQL 日志弄的,可给这些日志标注对应的自然语言问题,简直是个巨坑。让数据库管理员 —— 那些本来就忙得脚不沾地的专家,额外花时间写、验证自然语言描述,不

2025-10-20 21:33:31 581

原创 搞定多语言 Text-to-SQL!用对比奖励把语义对齐这块硬骨头啃下来

这样一来,模型生成 SQL 后,咱就能用这个编码器算 “生成的 SQL 对应的语义” 和 “用户问题的语义” 有多像,这个相似度就是 “对比奖励”,越像奖励越高。总的来说,咱这方法算是把多语言 Text-to-SQL 的两个痛点都解决了:用 GRPO 保证执行准确率,用对比奖励提升语义对齐,而且只用小模型和少量样本就能实现,不管是落地到多语言场景,还是控制训练成本,都特别实用。” 看着能跑,但有俩语义问题:一是用了 “>=3”,但用户问的是 “超过 3”(应该是 “>3”);二是用 “COUNT (

2025-10-19 21:25:53 813

原创 大模型也得守规矩!聊聊 LLM 里的 “权限管控” 怎么落地?在 Text-to-SQL 场景里落地测试

摘要:研究探讨大模型权限控制问题,提出三种技术方案解决LLM生成内容时的权限越界问题。通过改造Spider和BIRD数据集为Spider-ACL和BIRD-ACL,测试了单步决策、两步pipeline和LoRA微调三种方案。结果显示,两步方案(生成+校验)性能最优,拒绝F1达0.877;微调方案次之,但需要足够训练数据;而单步方案简单但易出错。研究发现权限规则复杂度、校验模型选择和思维链推理对效果影响显著,建议企业级应用采用两步方案确保安全,开源数据集和代码可供企业快速构建内部权限系统。

2025-10-19 21:24:25 870

原创 兄弟们,Text-to-SQL 卷出新高度!HES-SQL 让自然语言转 SQL 又快又准,还能自动优化执行效率

华为HES-SQL框架突破Text-to-SQL技术瓶颈,首次实现准确性与执行效率的双重优化。该框架通过"骨架完整性评分"确保SQL结构正确,采用"查询延迟感知奖励"机制优化执行效率,并引入"自蒸馏补全思考模式"保持复杂推理能力。实验数据显示,在BIRD、Spider等主流数据集上,HES-SQL将执行准确率提升10-18%,查询效率提高11-20%,同时显著减少71%-86%的低级SQL错误。目前已在沙特STA的CEMCopilot应用中获得验证

2025-10-19 21:22:56 426 1

原创 MTSQL-R1:用智能体训练搞定长对话多轮 Text-to-SQL,终于不用再头疼 SQL 执行报错了

比如用户先问 “各大陆的汽车厂商数量”,再问 “美国的汽车厂商数量”,有的模型生成 SQL 时会把美国的国家名写成大写 “USA”,但数据库里存的是小写 “usa”,结果执行直接返回空值,这就是典型的 “短视思维”—— 只看当前句子,不管执行结果和历史上下文。比如在 CoSQL 数据集上,对话轮数越多(比如≥4 轮),传统模型性能掉得越厉害,而 MTSQL-R1 能保持高准确率 —— 这就是 “对话记忆库” 的作用,能帮模型记住前面多轮的约束,不会越聊越跑偏。如果它错误标记为 “通过”,就拿不到奖励。

2025-10-19 21:21:48 806

NLI4DB: 数据库的自然语言接口系统综述

随着在生活各个领域中查询数据库的需求不断增长,研究人员对 自然 语言 接口 用于 数据 库 (NLIDB)给予了极大的关注。本文对最近提出的NLIDBs进行了全面的调查。我们首先简要介绍了自然语言处理技术、可执行数据库语言和自然语言与可执行语言之间的中间表示,然后提供了从自然语言到可执行数据库语言的翻译过程概述。翻译过程分为三个阶段:(i) 自然语言预处理 ,(ii) 自然语言理解 ,以及(iii) 自然语言翻译 。预处理阶段使用了传统方法和数据驱动方法。传统方法依赖于预定义的规则和语法,并涉及正则表达式、依存句法分析和命名实体识别等技术。数据驱动方法依赖于大规模数据和机器学习模型,使用包括词嵌入和模式链接在内的技术。自然语言理解方法分为三类:(i) 基于规则 ,(ii) 基于机器学习 ,以及(iii) 混合方法 。随后,我们描述了在关系数据库和时空数据库上构建可执行语言的一般过程。接下来,展示了将自然语言转换为可执行语言的常用基准和评估指标,并探讨了生成新基准的方法。最后,我们总结了NLIDB系统的分类、发展和增强,并讨论了与NLIDB相关的深度语言理解和数据库交互技术,包括(i)

2025-03-30

FutureGen:生成科学文章未来工作的LLM-RAG方法

科学文章的未来工作部分通过识别当前研究的空白和局限性来概述潜在的研究方向。这一部分为寻找未开发领域的早期职业研究人员以及寻找新项目或合作的经验丰富的研究人员提供了宝贵的资源。在本研究中,我们从科学文章的关键部分及相关论文中生成未来工作建议,并分析趋势如何演变。我们尝试了各种大型语言模型(LLMs),并集成了检索增强生成(RAG)以增强生成过程。我们结合了一个LLM反馈机制以提高生成内容的质量,并提出了一种将LLM作为评估者的做法。我们的结果显示,基于RAG的方法加上LLM反馈在定性和定量指标评估中优于其他方法。此外,我们进行了一项人工评估,以评估LLM作为提取器和评估者的性能。

2025-03-30

CausalRAG:将因果图整合到检索增强生成中

大型语言模型(LLMs)彻底改变了自然语言处理(NLP),特别是通过检索增强生成(RAG),它通过整合外部知识增强了LLM的能力。然而,传统的RAG系统存在关键限制,包括由于文本分块导致的上下文完整性中断,以及过度依赖语义相似性进行检索。为了解决这些问题,我们提出了 CausalRAG ,这是一种将因果图整合到检索过程中的新框架。通过构建和追踪因果关系, CausalRAG 保留了上下文连续性并提高了检索精度,从而生成更准确且可解释的响应。我们将 CausalRAG 与普通RAG和基于图的RAG方法进行了比较,展示了其在多个指标上的优越性。我们的研究结果表明,基于因果推理的检索为知识密集型任务提供了一种有前途的方法。

2025-03-30

RGL:一种以图为中心、模块化的高效图检索增强生成框架

近年来,图学习领域的进步见证了大量旨在增强图上检索增强生成(RAG)各个方面的方法的涌现 (Guo et al. 2024; Y. Hu et al. 2024; M. Li, Miao, and Li 2025) 。给定一个查询,RAG 从现有数据中检索相关样本(上下文),并根据检索到的信息生成响应。图上的检索增强生成(RoG)通过利用图结构更有效地检索上下文信息,扩展了 RAG 的功能。各种图应用,例如问答、节点分类和推荐——这些应用包含丰富的结构化数据(例如用户-项目交互 (J. Hu et al. 2024a) 、论文引用网络 (J. Hu, Hooi, 和 He 2024) 等)——可以潜在地受益于 RoG 技术 (He et al. 2025; Edge et al. 2024) 。 给定一个图,例如社交网络或电子商务图,我们在图 1 中展示了典型的图上 RAG 流程。该流程从 1) 索引 开始,其中节点被组织以便于高效访问。接下来,2) 节点检索 根据连通性或属性选择相关节点,然后 3) 图检索 构建子图以捕获局部结构。这些子图在 4) 分词 阶段被转

2025-03-30

在RAG-Text2SQL系统中平衡内容大小

大型语言模型(LLMs)作为一种有前景的解决方案,能够将自然语言查询转换为SQL命令,从而实现无缝的数据库交互。然而,这些文本到SQL(Text2SQL)系统面临着固有的局限性、幻觉生成、过时知识和不可追踪推理等问题。为了解决这些挑战,将检索增强生成(RAG)与Text2SQL模型集成的方法逐渐受到关注。RAG作为一个检索机制,提供必要的上下文信息,如表结构和元数据,以增强查询生成过程。尽管潜力巨大,RAG + Text2SQL系统对检索文档的质量和大小非常敏感。虽然更丰富的文档内容可以提高结构相关性和检索准确性,但同时也引入了噪声,增加了幻觉生成的风险,并随着Text2SQL模型提示大小的增加而降低了查询保真度。本研究探讨了文档大小与质量之间的微妙权衡,旨在找到优化系统性能的平衡点。确定了性能下降的关键阈值,并提出了应对这些挑战的实际策略。此外,我们还探讨了Text2SQL模型中的幻觉现象,强调精心策划的文档呈现方式在减少错误中的关键作用。我们的研究结果为增强RAG + Text2SQL系统的鲁棒性提供了路线图,为实际应用提供了实用见解。

2025-03-29

MAPQA : 开放领域地理空间问答基于地图数据

地理空间问答(QA)是导航和兴趣点(POI)搜索中的基本任务。尽管现有的地理空间QA数据集存在,但它们在规模和多样性方面受到限制,通常仅依赖于地理实体的文本描述,而未考虑其几何形状。扩大地理空间QA数据集的主要挑战在于地理空间关系的复杂性,这需要整合空间结构、拓扑依赖以及多跳推理能力,而大多数基于文本的QA数据集缺乏这些能力。为解决这些限制,我们引入了 MAPQA ,这是一个新颖的数据集,不仅提供了问题-答案对,还包含了问题中引用的地理实体的几何信息。 MAPQA 使用SQL查询模板从OpenStreetMap(OSM)中提取问题-答案对,研究区域为南加州和伊利诺伊州。它由3,154个QA对组成,涵盖九种需要地理空间推理的问题类型,如邻里推断和地理实体类型识别。与现有数据集相比, MAPQA 扩展了地理空间问题类型的数量和多样性。我们探索了两种方法来应对这一挑战:(1)基于检索的语言模型,通过嵌入相似性对候选地理实体进行排名;(2)大型语言模型(LLM),根据自然语言问题和地理实体属性生成SQL查询,并在OSM数据库上执行。我们的研究结果表明,基于检索的方法能够有效捕捉诸如

2025-03-29

基于LLM的数据分析中的洞察生成方法

从数据库中生成有见地且可操作的信息在数据分析中至关重要。本文介绍了一种使用大型语言模型(LLMs)自动生成文本洞察的新方法。给定一个多表数据库作为输入,我们的方法利用LLMs生成反映表格中有趣模式的简洁文本洞察。我们的框架包括一个假设生成器,用于制定与领域相关的问题;一个查询代理,通过生成SQL查询来回答这些问题;以及一个摘要模块,将洞察转化为自然语言。这些洞察通过结合人类判断和自动化指标的方式进行评估,确保其正确性和主观洞察性。在公共和企业数据库上的实验结果表明,我们的方法生成的洞察比其他方法更具洞察力,同时保持了准确性。

2025-03-29

V-SQL:一种基于视图的两阶段Text-to-SQL框架

Text-to-SQL任务旨在无偏地将自然语言转换为结构化查询语言(SQL)。最近,基于大语言模型(LLMs)的Text-to-SQL方法引起了广泛关注。主流Text-to-SQL框架的核心是模式链接,它将用户查询与数据库中的相关表和列对齐。以前的方法专注于模式链接,而忽略了增强LLMs对数据库模式的理解。数据库中表之间的复杂耦合关系限制了LLMs生成SQL的能力。为了解决这个问题,本文提出了一种简单而有效的策略,称为基于视图的模式。该策略通过将紧密耦合的表解耦为低耦合视图,帮助LLMs理解数据库模式。然后我们介绍了V-SQL,一种基于视图的两阶段Text-to-SQL框架。V-SQL利用基于视图的模式策略来增强LLMs对数据库模式的理解。在权威数据集Bird上的结果表明,V-SQL与现有的最先进的方法相比具有竞争力。 关键词:大语言模型,Text-to-SQL,情境学习,数据库,NLP。

2025-03-29

Genicious:用于洞察发现的情境化Few-shot提示

数据和洞察发现对于现代组织的决策至关重要。我们介绍了Genicious,这是一个基于LLM的接口,使用户能够与表格数据集交互并用自然语言提出复杂查询。通过对比多种提示策略和语言模型,我们开发了一个端到端工具,利用情境化Few-shot提示,在延迟、准确性和可扩展性方面表现出色。Genicious赋予利益相关者高效探索、分析和可视化其数据集的能力,同时通过基于角色的访问控制和Text-to-SQL方法确保数据安全。

2025-03-29

通过答案-公式联合生成实现通用表格问答

先进的表格问答(TableQA)方法提示大型语言模型(LLMs)生成答案文本、SQL查询、Python代码或自定义操作,这显著提升了TableQA任务中的复杂推理问题。然而,这些方法缺乏应对特定问题类型或表格结构的灵活性。相比之下,电子表格公式作为一种广泛使用且明确定义的操作语言,尚未被充分探索以解决TableQA问题。在本文中,我们首次尝试使用公式作为逻辑形式来解决不同结构表格上的复杂推理问题。具体而言,我们从现有数据集中构建了一个大规模的公式注释TableQA数据集 FromulaQA 。此外,我们提出了 TabAF ,这是一个用于同时解决多种类型表格上多种类型任务的通用表格回答框架。与现有方法不同, TabAF 通过单一的LLM主干解码答案和公式,展示了极高的灵活性和泛化能力。 TabAF 基于Llama3.1-70B在WikiTableQuestion、HiTab和TabFact上实现了新的最先进性能。

2025-03-29

链式思维推理是否有助于移动GUI代理?一项实证研究

推理能力显著提高了视觉语言模型(VLMs)在数学问题求解、编程和视觉问答等领域的性能。然而,它们对实际应用的影响尚不明确。本文首次对推理增强型VLMs在移动GUI代理中的有效性进行了实证研究,这是一个需要解释复杂屏幕布局、理解用户指令并执行多轮交互的领域。我们评估了两对商业模型——Gemini 2.0 Flash和Claude 3.7 Sonnet,比较了它们的基础版本和推理增强版本在两个静态基准测试(ScreenSpot和AndroidControl)以及一个交互环境(AndroidWorld)上的表现。我们惊讶地发现,Claude 3.7 Sonnet推理模型在AndroidWorld上取得了最先进的性能。然而,推理VLMs在静态基准测试中通常只提供边际改进,甚至在某些代理设置下会降低性能。值得注意的是,推理和非推理VLMs在不同的任务集上失败,这表明推理确实有影响,但其利弊相互抵消。我们将这些不一致归因于基准测试和VLMs的局限性。基于研究结果,我们为通过基准测试、VLMs及其动态调用推理VLMs的能力进一步提升移动GUI代理提供了见解。实验数据已在以下网址公开: https:/

2025-03-29

DAgent:一种基于关系数据库驱动的数据分析报告生成代理

基于关系数据库驱动的数据分析(RDB-DA)报告生成旨在通过查询关系数据库生成数据分析报告,已在金融、医疗等领域得到广泛应用。通常,这些任务由数据科学家手动完成,这使得过程非常耗时,并显示出对自动化的迫切需求。尽管现有的方法(例如表问答或文本到SQL)被提出以减少人工依赖,但它们无法处理需要多步推理、跨表关联和将见解整合为报告的复杂分析任务。此外,目前尚无可用于开发自动RDB-DA报告生成的数据集。为填补这一空白,本文提出了一种用于RDB-DA报告生成任务的大型语言模型(LLM)代理系统,称为DAgent;此外,我们还构建了一个用于自动生成数据分析报告的基准测试,包括一个新的数据集DA-Dataset和评估指标。DAgent通过集成规划、工具和记忆模块,将自然语言问题分解为逻辑独立的子查询,准确地从关系数据库中检索关键信息,并通过多步推理和有效的数据整合生成满足完整性、正确性和简洁性要求的分析报告。在DA-Dataset上的实验分析表明,DAgent在检索性能和分析报告生成质量方面具有优越性,展示了其解决复杂数据库分析报告生成任务的强大潜力。

2025-03-29

MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断

开发可靠的AI系统以协助人类临床医生进行多模态医学诊断一直是研究人员的主要目标。近年来,多模态大语言模型(MLLMs)受到了广泛关注,并在多个领域取得了成功。凭借强大的推理能力和根据用户指令执行多种任务的能力,它们在提升医学诊断方面具有巨大潜力。然而,直接将MLLMs应用于医学领域仍面临挑战。它们缺乏对视觉输入的详细感知能力,限制了其进行定量图像分析的能力,而这是医学诊断的关键。此外,MLLMs通常表现出幻觉和推理不一致的问题,而临床诊断必须严格遵循既定标准。为解决这些问题,我们提出了MedAgent-Pro,一个基于证据推理的代理系统,旨在实现可靠、可解释且精确的医学诊断。这通过分层工作流实现:在任务级别上,基于检索到的临床标准的知识推理生成针对特定疾病的可靠诊断计划;而在案例级别上,多个工具代理处理多模态输入,根据计划分析不同指标,并结合定量和定性证据提供最终诊断。在2D和3D医学诊断任务上的综合实验展示了MedAgent-Pro的优越性和有效性,而案例研究进一步突显了其可靠性和可解释性。代码可在以下链接获取: https://github.com/jinlab-imvr/MedA

2025-03-29

大型语言模型在问答任务中的代理综述

本文综述了基于大型语言模型(LLM)的问答(QA)代理的发展。传统代理面临显著限制,包括大量数据需求和难以推广到新环境的问题。基于LLM的代理通过利用LLM作为核心推理引擎解决了这些挑战。这些代理通过与外部环境交互,实现了比传统QA流水线和简单的LLM QA系统更优的问答效果。我们系统地回顾了LLM代理在问答任务中的设计,按关键阶段组织讨论:规划、问题理解、信息检索和答案生成。此外,本文识别了当前的挑战并探讨了未来的研究方向,以提高LLM代理问答系统的性能。

2025-03-29

SEAlign: 面向软件工程代理的对齐训练

近年来,代码生成模型在自动化软件开发任务方面展示了令人印象深刻的性能,但在现实世界的软件工程场景中仍面临挑战。尽管当前的训练方法,特别是后训练,在解决竞争性编程问题方面表现出色,但它们未能充分准备模型以应对实际软件开发的复杂性。这种错位提出了一个关键问题:现有的对齐训练方法是否适合现实世界的软件工程任务?在本研究中,我们确定了这一问题,并提出了SEAlign,这是一种新颖的对齐框架,旨在弥合代码生成模型与现实世界软件开发任务之间的差距。SEAlign利用软件工程过程的独特特征(包括高质量的工作流步骤)来增强模型能力。我们的框架进一步采用蒙特卡洛树搜索(MCTS)进行多步决策过程的细粒度对齐,并通过偏好优化关键动作确保模型满足现实需求。我们在三个标准的现实世界软件工程基准上评估了SEAlign,包括HumanEvalFix、SWE-Bench-Lite和SWE-Bench-Verified。实验结果表明,SEAlign以最少的训练开销实现了最先进的性能。此外,我们使用SEAlign开发了一个基于代理的软件开发平台,成功自动化创建了几个小型应用程序。人类对这些应用程序的评估突显了任务性能和

2025-03-29

MemInsight:大型语言模型代理的自主记忆增强

大型语言模型(LLM)代理已经进化到能够智能地处理信息、做出决策并与用户或工具进行交互。一个关键功能是整合长期记忆能力,使这些代理能够利用历史交互和知识。然而,随着记忆规模的增长和语义结构化的需求增加,这带来了显著的挑战。在本研究中,我们提出了一种自主记忆增强方法——MemInsight,以改进语义数据表示和检索机制。通过利用对历史交互的自主增强,LLM代理被证明可以提供更准确和上下文相关的响应。我们在三个任务场景中经验性地验证了所提方法的有效性:对话推荐、问答和事件总结。在LLM-REDIAL数据集上,MemInsight将推荐的说服力提升了高达14%。此外,在LoCoMo检索中,它在召回率方面比RAG基线高出34%。我们的实证结果表明,MemInsight有潜力提升LLM代理在多个任务中的上下文表现。

2025-03-29

GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战

最近在Text-to-SQL(Text-to-SQL)领域的进展,得益于大型语言模型(LLMs),正在使数据访问民主化。尽管取得了这些进展,但企业部署仍然具有挑战性,因为需要捕捉特定业务知识、处理复杂查询并满足对持续改进的期望。为了解决这些问题,我们设计并实现了GenEdit:我们的Text-to-SQL生成系统,可以通过用户反馈进行改进。GenEdit构建和维护一个公司特定的知识集,采用一系列分解SQL生成的运算符,并使用反馈更新其知识集以改善未来的SQL生成。 我们描述了GenEdit的架构,它由两个核心模块组成:(i) 分解SQL生成;以及 (ii) 基于用户反馈的知识集编辑。对于生成,GenEdit利用复合运算符来改进知识检索,并创建一个作为思维链步骤的计划来指导生成。GenEdit首先在初始检索阶段检索相关示例,其中原始SQL查询被分解成子语句、子句或子查询。然后还检索指令和模式元素。使用检索到的上下文信息,GenEdit随后生成自然语言的逐步计划,说明如何生成查询。最后,GenEdit使用该计划生成SQL,尽量减少模型推理的需求,从而增强复杂SQL的生成。如有必要,GenE

2025-03-29

开放深度搜索:通过开源推理代理实现搜索民主化

我们介绍了开放深度搜索(ODS),旨在缩小专有搜索AI解决方案(如Perplexity的Sonar Reasoning Pro和OpenAI的GPT-4o Search Preview)与其开源替代品之间的差距。ODS的主要创新是增强最新开源LLM的推理能力,使用能够明智地利用网络搜索工具来回答查询的推理代理。具体来说,ODS由两个与用户选择的基础LLM协同工作的组件组成:开放搜索工具和开放推理代理。开放推理代理解释给定任务并通过协调一系列动作(包括调用工具,其中之一是开放搜索工具)来完成任务。开放搜索工具是一种新型的网络搜索工具,其性能优于专有工具。结合强大的开源推理LLM(如DeepSeek-R1),ODS在两个基准测试中几乎达到并有时超越了现有最先进基线:SimpleQA和FRAMES。例如,在FRAMES评估基准上,ODS将最近发布的GPT-4o Search Preview的最佳现有基线提高了9.7%的准确性。ODS是一个通用框架,可以无缝增强任何LLM——例如,DeepSeek-R1在SimpleQA上达到了82.4%,在FRAMES上达到了30.1%——通过添加搜索和推理

2025-03-29

用于零样本泛化到定性新任务的思考型智能体

智能生物能够解决在其一生或进化过程中从未遇到过的全新问题。这一能力的重要组成部分是“思考”的能力,即在心理上操纵对象、概念和行为,以规划和评估全新问题的可能解决方案,而无需与环境交互。为了生成真正定性新颖的问题(仍然可以通过心理模拟解决),我们利用环境的组合性质:我们在训练智能体时扣留环境元素的特定组合。基于这种组合的新测试任务因此保证是全新的,但由于智能体在训练过程中接触过每个单独元素(及其两两交互),它仍然是可以心理模拟的。我们提出了一种方法,通过选择基于智能体思考前后的性能差异的任务,来训练具有世界模型的智能体使用其心理模拟能力。当在全新的扣留问题上进行测试时,得到的智能体成功地模拟了替代场景,并利用由此产生的信息指导其在实际环境中的行为,在单一的实际环境试验中解决了新任务(零样本)。

2025-03-29

OmniNova:一个通用的多模态代理框架

将大型语言模型(LLMs)与专用工具集成,为智能自动化系统提供了新的机会。然而,由于协调困难、资源利用效率低下和信息流不一致,组织多个由LLM驱动的代理来处理复杂任务仍然具有挑战性。我们提出了OmniNova,这是一个模块化的多代理自动化框架,将语言模型与专用工具(如网络搜索、爬虫和代码执行能力)相结合。OmniNova引入了三项关键创新:(1)具有不同协调员、规划者、监督者和专家代理的分层多代理架构;(2)根据任务复杂度优化代理部署的动态任务路由机制;以及(3)分配适当模型以满足不同认知需求的多层次LLM集成系统。我们在研究、数据分析和网络交互领域的50个复杂任务上的评估表明,OmniNova在任务完成率(87% vs 基准62%)、效率(减少41%的令牌使用量)和结果质量(人类评分4.2/5 vs 基准3.1/5)方面优于现有框架。我们贡献了一个用于多代理系统设计的理论框架和一个开源实现,推动了基于LLM的自动化系统的最先进水平。

2025-03-29

【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能

内容概要:本文提出了一种双向分层融合框架,旨在通过有效整合蛋白质语言模型(pLMs)和图神经网络(GNNs)来增强蛋白质表示学习。该框架通过注意力和门控机制,促进pLMs生成的序列表示和GNN提取的结构特征之间的交互,从而提高信息交换和增强。文中介绍了两种具体方法:局部双向分层融合带门控和全局双向分层融合带多头注意力。实验结果表明,该框架在多个蛋白质相关任务中显著优于现有技术,包括反应分类、模型质量评估、蛋白质-配体结合亲和力预测、蛋白质-蛋白质结合位点预测和B细胞表位预测。; 适合人群:从事生物信息学、蛋白质结构预测、药物设计等领域研究的专业人士,特别是对深度学习和多模态数据融合感兴趣的科研人员。; 使用场景及目标:①需要结合蛋白质序列和结构信息进行预测任务的研究;②希望提高蛋白质表示学习模型性能的研究者;③探索新型蛋白质表示方法的科学家。; 其他说明:该研究强调了双向分层融合技术在促进不同分支的蛋白质表示之间的更有效知识交流方面优于串行融合方法。此外,该框架适用于未来的各种GNN和pLMs,并可使其他GNN和pLMs受益于涉及蛋白质的其他下游任务。研究还指出了框架的局限性,即需要pLMs和GNN以某种方式表示相同层次的图节点,并且尚未找到一种方法来利用具有多尺度表示的结构。

2025-04-11

### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在

内容概要:本文介绍了潜在专家混合(MoLE),一种用于资源高效语言模型的新颖架构。MoLE通过将专家模块映射到共享的低维潜在空间,减少了参数数量和计算需求。文章详细描述了MoLE的设计原理,包括专家操作的分解、共享投影和专家特定转换。此外,作者开发了一个严格的数学框架,将预训练的MoE模型转换为MoLE架构,并提出了一个两阶段算法来实现这一转换。实证评估表明,MoLE在显著减少资源需求的同时,实现了与标准MoE模型相当的性能。; 适合人群:对深度学习、自然语言处理和模型优化感兴趣的科研人员和技术开发者。; 使用场景及目标:①需要构建高效、资源节约的大规模语言模型;②希望在保持模型性能的同时减少计算资源消耗;③研究如何通过低秩近似和矩阵分解技术优化现有模型架构。; 其他说明:本文不仅提供了理论分析,还通过多个基准数据集的实验证明了MoLE的有效性。建议读者在实践中结合这些理论和实证结果,深入理解MoLE架构的优势及其在实际应用中的潜力。

2025-04-09

### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化

内容概要:本文提出了一种新的量化框架MoQa,用于解决专家混合模型(MoE)的复杂数据模型分布感知问题。MoQa通过多阶段分析解耦了MoE中的数据模型分布复杂性,定量揭示了稀疏数据激活、数据参数映射和专家间相关性的动态变化。基于这些分析,MoQa识别出特定专家和参数的重要性,并提出了适应各种数据激活和专家组合场景的一系列细粒度混合精度量化策略。实验表明,MoQa在语言建模任务中实现了困惑度的显著降低,在零样本推理任务中实现了准确率的提升。MoQa不仅解决了传统量化方法在MoE场景中的局限性,还展示了对未来MoE构建和优化的重要作用。 适合人群:对深度学习、特别是专家混合模型(MoE)和模型压缩技术感兴趣的科研人员和工程师,以及希望深入了解MoE量化方法的研究者。 使用场景及目标:①分析MoE中复杂的数据模型分布,理解稀疏数据激活、数据参数映射和专家间相关性的动态变化;②开发适应不同数据激活和专家组合场景的细粒度混合精度量化策略;③评估MoQa在语言建模和零样本推理任务中的性能,验证其优于传统量化方法的效果。 其他说明:MoQa通过多阶段数据模型分布分析,揭示了MoE量化中的独特挑战和机遇。与传统量化方法相比,MoQa不仅考虑了数据分布的复杂性,还深入探讨了专家模型的重要性及其参数相关性。因此,MoQa在确保通用性的同时实现了优越的量化性能,适用于各种数据分布和MoE架构。阅读本文时,建议重点关注多阶段分析的具体步骤和实验结果,以更好地理解MoQa的设计理念和实际效果。

2025-04-08

### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现

内容概要:本文介绍了VAPO(基于价值的增强近端策略优化)框架,专为基于价值范式的推理模型设计,尤其适用于长链思考(long-CoT)推理任务。VAPO通过系统设计缓解了价值模型偏差、异构序列长度和奖励信号稀疏性三大挑战,显著提升了长CoT推理任务的表现。在AIME 2024数据集上,VAPO基于Qwen 32B预训练模型,仅需5,000步训练即可达到最先进水平,且多次独立运行中均未发生训练崩溃,表现出卓越的稳定性和效率。 适合人群:对强化学习和大型语言模型有兴趣的研究人员和技术人员,尤其是从事长链思考推理任务的开发者。 使用场景及目标:① 解决长链思考推理任务中的价值模型偏差、异构序列长度和奖励信号稀疏性问题;② 提升基于价值范式的推理模型的性能和稳定性;③ 通过多种技术创新(如价值预训练、解耦GAE、长度自适应GAE等)优化训练过程,实现更高的训练效率和更佳的推理能力。 其他说明:VAPO在实验中展示了显著优于现有无价值方法(如DAPO和DeepSeek-R1-Zero-Qwen-32B)的性能,特别是在处理复杂推理任务时表现出色。建议读者深入理解VAPO的设计理念和技术细节,以便更好地应用于实际项目中。

2025-04-08

### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计

内容概要:本文介绍了REFORMER,一个由ChatGPT驱动的数据合成框架,旨在解决Text-to-SQL模型因训练数据不足而导致的泛化能力差的问题。REFORMER通过“检索-编辑”方法,利用ChatGPT生成新的(问题,SQL查询)对,无需额外训练。该框架还引入了问题-查询-问题循环一致性验证,确保生成数据的质量。此外,REFORMER探索了两种数据增强技术:带模式信息的直接改写和使用构造SQL查询描述的改写。实验结果表明,REFORMER在多个评估指标上均优于之前的增强方法。 适合人群:对自然语言处理和SQL查询生成感兴趣的科研人员、工程师,尤其是从事Text-to-SQL模型开发和优化的专业人士。 使用场景及目标:①生成更多样化和高质量的(问题,SQL查询)对以增强Text-to-SQL模型的训练数据;②通过ChatGPT生成新的SQL查询和问题改写,提升模型的泛化能力和适应新领域的能力;③验证生成数据的一致性和质量,确保其符合预期。 阅读建议:本文不仅展示了REFORMER的技术细节和实验结果,还讨论了其局限性和未来研究方向。读者应重点关注框架的设计思路、实验设置和结果分析,以理解ChatGPT在数据增强中的应用潜力。同时,建议结合实际应用场景,思考如何利用REFORMER提升现有Text-to-SQL系统的性能。

2025-04-08

### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估

内容概要:本文提出了一种集中式的多智能体学习框架,旨在通过引入一个名为“监督器”的元智能体,将联合动作抽象为顺序动作分配,从而解决集中式方法常见的动作空间爆炸问题。监督器将多智能体问题转化为单智能体问题,通过强化学习训练,简化了集中控制下的多智能体协调。实验结果显示,该方法在不同规模的多智能体环境中成功协调了智能体行为,尤其在智能体间交互较少的任务中表现优异。 适合人群:对多智能体系统、强化学习及深度学习感兴趣的科研人员和工程师,特别是那些希望深入了解集中式多智能体学习方法及其应用的人群。 使用场景及目标:①解决集中式多智能体学习中的可扩展性问题;②通过监督器实现多智能体行为的有效协调;③在智能体交互较少的任务中提升协调效果。 其他说明:该方法适用于多种多智能体任务,如交通管理、战斗模拟等。实验结果表明,该方法在智能体数量增加时仍能保持良好的性能,但在智能体间交互频繁的任务中可能遇到挑战。未来工作将探索更多智能体交互的任务,并与其他联合动作空间方法进行比较。

2025-04-08

### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自

内容概要:本文探讨了通过自原则批评调整(SPCT)方法提升生成式奖励模型(GRM)的推理时间可扩展性,从而改进大型语言模型(LLMs)的奖励建模(RM)。研究团队提出了逐点生成式奖励建模(GRM),通过基于规则的在线强化学习(RL)自适应生成原则和批评,以提高奖励质量。此外,通过并行采样和元RM引导投票,实现了更有效的推理时间扩展。实验证明,SPCT显著提升了DeepSeek-GRM模型的质量和可扩展性,在多个RM基准测试中表现优异,尤其在推理时间扩展方面优于现有方法。 适合人群:具备一定机器学习和自然语言处理基础,尤其是对强化学习和奖励建模感兴趣的科研人员和技术开发者。 使用场景及目标:①用于改进大型语言模型在推理时间扩展中的奖励建模;②提升生成式奖励模型在不同领域中的通用性和性能;③通过并行采样和元RM引导投票,实现更高效的推理时间扩展。 其他说明:本文详细介绍了SPCT方法的理论背景、实现细节和实验结果,并讨论了其局限性和未来研究方向。DeepSeek-GRM模型及相关资源将被开源,以促进社区进一步的研究和发展。

2025-04-08

### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究

内容概要:本文探讨了两位AI科学家是否能在同一科学任务上达成一致。研究提出了MASS(作为AI科学家的哈密顿-拉格朗日神经网络),通过训练多个AI科学家在经典力学问题上学习不同理论,并通过实验验证了AI科学家在不同物理系统上学习理论的一致性和多样性。研究表明,AI科学家倾向于学习相似的理论,尤其是在复杂系统上,拉格朗日描述表现出了更好的泛化能力。此外,研究还展示了MASS在高维物理问题上的适用性,如混沌双摆和多体引力问题。 适合人群:对机器学习、物理学和AI科学家感兴趣的科研人员,尤其是从事物理系统建模和机器学习算法设计的研究者。 使用场景及目标:①理解AI科学家在不同物理系统上学习理论的一致性和多样性;②探索AI科学家在复杂物理问题上的表现,如拉格朗日描述的优越性;③评估MASS在高维物理问题上的适用性和准确性。 其他说明:本文不仅展示了AI科学家在学习物理理论方面的潜力,还强调了拉格朗日描述在复杂物理系统中的优势。研究结果为进一步构建更具可解释性和能力的AI科学家奠定了基础。未来工作可以扩展到更高维度问题、不同坐标系下的实验,以及探索不同的损失函数和模型架构。

2025-04-08

### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍

内容概要:本文介绍了思维知识图(KGoT),一种创新的AI助手架构,旨在通过将大型语言模型(LLM)推理与动态构建的知识图谱(KGs)集成,提供一种经济高效且高性能的AI助手解决方案。KGoT通过将任务相关知识结构化为KG表示,并通过外部工具(如数学求解器、网络爬虫和Python脚本)迭代增强,使低成本模型能够有效解决复杂任务。评估结果显示,KGoT在GAIA基准测试中比Hugging Face Agents等现有方案提高了任务成功率,同时降低了运营成本。KGoT的架构包括图存储模块、控制器和集成工具,支持模块化和可扩展设计。 适合人群:对AI助手开发感兴趣的科研人员、工程师和技术爱好者,尤其是关注高性能和低成本解决方案的人群。 使用场景及目标:①需要解决复杂任务,如网页导航、代码执行、图像推理、科学问答和多模态任务;②希望在不影响性能的前提下大幅降低运营成本;③寻求可扩展、经济实惠且高性能的AI助手解决方案。 其他说明:KGoT不仅在任务成功率上超越了现有LLM驱动的代理解决方案,还在成本效益方面表现出显著优势。其灵活的设计使其适用于多种应用场景,如自动化研究、数据驱动决策和多模态推理。未来工作可以探索将KGoT与更多外部工具集成或与高级图预测方案结合,以进一步提升其性能和适用性。

2025-04-08

### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析

内容概要:文章探讨了大型语言模型(LLMs)推理能力与模型扩展之间的关系,特别是在预训练阶段。作者通过构建合成知识图谱(KGs)来模拟真实世界的推理场景,设计了一种多跳推理任务,旨在评估模型在不完整图中推断缺失边的能力。研究发现,随着模型大小的增加,推理性能呈现出U形曲线,即存在一个最佳模型大小,过大或过小的模型都会导致推理性能下降。作者还提出了一种经验性扩展规律,将知识图谱的搜索熵线性映射到最佳模型大小,为优化LLMs的推理能力提供了理论依据。 适合人群:对自然语言处理、深度学习尤其是大型语言模型有兴趣的研究人员和工程师;从事机器学习模型设计和优化的专业人士。 使用场景及目标:①帮助研究人员理解语言模型在推理任务中的行为模式;②为模型设计者提供优化推理性能的实际指导;③探索如何通过调整模型大小和数据结构来提升特定任务的表现。 阅读建议:本文涉及大量实验和数据分析,建议读者先快速浏览全文以了解研究背景和主要结论,再深入阅读感兴趣的具体实验部分。对于技术细节,如图生成算法和扩展规律的推导,可以结合附录和相关文献进行更深入的理解。

2025-04-08

【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性

内容概要:本文研究了DeepSeek-V3在计算机网络教育中的应用效果,通过使用CCNA模拟题库和中国网络工程师认证考试题库作为评估标准,揭示了模型的优势和局限性。研究发现,DeepSeek-V3在低阶事实记忆任务中表现优异,但在高阶推理问题上存在明显局限;其在中文和英文问题上的表现一致,显示出良好的跨语言适应能力;模型在安全性基础方面表现出高精度,但在复杂内容如IP连接性和网络访问方面存在不足;此外,模型回答的一致性与其准确性呈强相关关系,可作为评估模型可靠性的有效指标。 适合人群:从事计算机网络和安全领域教学的教师、研究人员以及希望了解大型语言模型在教育领域应用的学生和专业人士。 使用场景及目标:①评估DeepSeek-V3在计算机网络教育中的具体表现;②为改进大型语言模型在教育中的应用提供实证依据;③探索如何通过模型优化提升其在复杂主题和高阶推理问题上的表现。 其他说明:本研究不仅为DeepSeek-V3在计算机网络教育中的应用提供了实证支持,还指出了未来研究的方向,特别是如何增强模型的推理能力和跨领域适应性,以更好地满足专业教育的需求。

2025-04-04

医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能

内容概要:本文深入探讨了大型语言模型(LLM)在医疗推理中的应用潜力及其局限性,以DeepSeek R1为例进行了详尽分析。研究表明,LLM在医学考试中表现优秀,但在实际临床推理中仍面临挑战,如锚定偏见、整合矛盾数据困难等。研究通过分析DeepSeek R1处理100个临床问题的表现,发现其诊断准确率达93%,且推理长度越长往往正确性越低。这提示推理长度可作为逆置信度评分,帮助医生判断模型输出的可靠性。此外,研究还提出了通过检索增强生成(RAG)、特定医学领域提示优化等方法进一步提升模型性能的建议。 适合人群:对人工智能和医疗领域感兴趣的科研人员、临床医生、医疗AI开发者及相关政策制定者。 使用场景及目标:①理解大型语言模型在医疗推理中的优势与不足;②学习如何利用推理长度评估模型输出的可靠性;③探索通过优化提示策略和微调方法提升模型性能的具体途径。 其他说明:本研究强调了开发更透明和可解释的LLM的重要性,并提出了未来研究方向,包括构建稳健的评估框架、探索动态实时交互可能性以及开发人工智能-临床医生协作模型,以期使LLM成为可靠的决策支持工具。

2025-04-04

【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程

内容概要:本文由MIT CSAIL、加州大学伯克利分校、康奈尔大学和斯坦福大学等机构的研究人员共同撰写,探讨了面向软件工程的人工智能(AI)所面临的挑战与路径。文章首先介绍了AI在软件工程领域取得的显著进展,并指出要实现高度自动化,使人类能够专注于关键决策,而大多数常规开发工作可以被自动化取代,仍需学术界和工业界的共同努力。文章随后提供了一个面向软件工程的AI具体任务的结构化分类法,涵盖代码生成、代码转换、软件测试与程序分析、软件维护、支架与元代码、形式化验证等多个方面。每个任务根据范围、逻辑复杂性和人类干预水平进行衡量。接着,文章概述了当前AI方法面临的九个关键瓶颈,包括评估与基准、工具的有效使用、人机协作、长期代码规划、大规模范围和长上下文、代码库的语义理解、低资源语言和专用库、库和API版本更新、高逻辑复杂性和OOD域等。最后,文章提出了应对这些挑战的一系列研究方向,如数据收集、训练、推理时间方法等,以期推动AI在软件工程中的进一步发展。 适合人群:对软件工程和人工智能感兴趣的科研人员、工程师及高校师生。 使用场景及目标:①帮助科研人员了解AI在软件工程中的现状与挑战;②为工程师提供改进自动化工具的思路;③指导高校师生开展相关领域的研究与教学。 其他说明:本文不仅总结了当前AI在软件工程中的进展,还指出了未来研究的方向,鼓励学术界和工业界共同努力,以实现AI在软件工程中的更大潜力。文章引用了大量最新的研究成果和案例,为读者提供了详实的参考资料。

2025-04-03

### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升

内容概要:本文介绍了一种名为Reasoning-SQL的新方法,它使用SQL定制部分奖励的强化学习(RL)以增强Text-to-SQL任务。Text-to-SQL任务涉及自然语言理解、数据库模式理解和精确的SQL查询生成,传统方法依赖于监督微调(SFT),在复杂推理上表现不佳。Reasoning-SQL通过引入部分奖励(如模式链接、AI反馈、n-gram相似性和语法检查)和组相对策略优化(GRPO)来克服奖励稀疏性问题,显著提升了模型的推理能力和泛化能力。实验结果显示,该方法在多个基准测试中超越了现有方法,特别是在BIRD基准测试中,14B参数的模型性能优于更大规模的专有模型。 适合人群:具备一定机器学习和自然语言处理基础的研究人员和技术人员,尤其是对强化学习和Text-to-SQL任务感兴趣的读者。 使用场景及目标:①理解如何通过部分奖励和RL优化Text-to-SQL模型的推理能力;②学习如何设计和实现适合Text-to-SQL任务的奖励函数;③评估Reasoning-SQL方法在不同基准测试中的表现,特别是在泛化和推理效率方面。 其他说明:此方法不仅在性能上优于传统的SFT方法,还在成本效益方面表现出色,能够在单个GPU上部署的情况下达到最先进的性能。实验还表明,RL训练促进了模型的结构化推理能力,使其在复杂查询中表现更好。

2025-04-03

ActionStudio:轻量级动作模型数据与训练框架

内容概要:本文介绍了ActionStudio,一个专为动作模型设计的轻量且可扩展的数据与训练框架。ActionStudio通过标准化格式统一了异构代理轨迹,支持多种训练范式(如LoRA、全微调和分布式设置),并集成了强大的预处理和验证工具。它在公共和现实行业的基准测试中展示了强大的性能和实际的可扩展性。ActionStudio的贡献包括:1)轻量且可扩展的训练框架,支持模块化的训练工作流;2)实现自动化的数据管道,涵盖数据收集、格式统一、质量过滤和格式转换;3)在公共和现实行业基准测试中验证了有效性。; 适合人群:具备一定编程基础,对动作模型和代理系统感兴趣的开发者和研究人员。; 使用场景及目标:①支持多样化的代理数据源转换为标准化、训练就绪的格式;②支持多种训练范式,包括LoRA、全微调和分布式训练;③提高模型训练效率和可扩展性,特别是在现实世界代理应用中;④提供即用型数据集,加速模型训练。; 其他说明:ActionStudio旨在解决现有基础设施对可扩展、特定代理的微调支持有限的问题。它不仅提供了高效的训练管道,还开源了代码和数据以促进社区研究。在NexusRaven和Salesforce CRM代理基准上的评估证明了其有效性和实用性。用户可以在GitHub上找到开源代码和数据。

2025-04-02

Unicorn: 用于视觉语言模型训练的纯文本数据合成

视觉语言模型(VLMs)的快速发展 (H. Liu 等人, 2023, 2024; Zhu 等人, 2023) 进一步强调了大规模高质量图像-文本对训练数据的重要性 (Chen 等人, 2023; Zhao, Zhou 和 Shou, 2024; Bai 等人, 2024) 。然而,扩大这种高质量数据的规模仍然是一个持续的挑战,限制了 VLMs 的进一步突破。 获取图像-文本对的传统方法主要依赖于两种策略:(1) 手动标注 (Lin 等人, 2015; Plummer 等人, 2016) 。手动标注确保质量但受限于成本、规模和多样性。(2) 大规模网络爬取 (Sharma 等人, 2018) 可扩展但引入了数据质量问题不一致、合规风险和版权问题。最近的研究,如 ShareGPT4V (Chen 等人, 2023) ,探索了使用高级模型(如 GPT-4v)生成细粒度标题来增强真实图像的方法,从而生成高质量的数据集,在视觉-语言任务中取得了显著改进。然而,这些合成数据方法仍然面临巨大的成本约束。相比之下,文本数据 (Wu 等人, 2024; Long 等人, 2024

2025-03-31

基于大型模型的多任务语义通信

人工智能(AI)有望彻底改变下一代通信系统的 设计、优化和管理。在本文中,我们探讨了通过利用大型AI模型(LAMs)的多模态数据处理和生成能力将其集成到语义通信(SemCom)中。尽管LAMs具备前所未有的从原始数据中提取语义的能力,但这种集成带来了多方面的挑战,包括 高资源需求、模型复杂性以及跨 多样模态和任务的适应性需求。为克服这些挑战,我们提出了一种基于LAM的多任务SemCom(MTSC)架构,其中包括一种自适应模型压缩策略和一种联合分割微调 方法,以促进在 资源受限 网络中高效部署基于LAM的语义模型。此外,还实现了一种检索增强生成方案,通过综合最新的本地和全局知识库 来 提高语义提取和内容生成的准确性,从而改善推理性能。最后,仿真结果证明了所提出的基于LAM的MTSC架构的有效性,突显了在不同信道条件下各种下游任务性能 的提升。

2025-03-31

Dewey 长上下文嵌入模型:技术报告

本技术报告介绍了开源dewey_en_beta嵌入模型的训练方法和评估结果。随着检索增强生成(RAG)系统的日益需求以及大型语言模型(LLMs)上下文窗口能力的扩展,传统嵌入模型面临了关键挑战。当前的方法在处理超出典型序列长度限制的文档时,往往难以保持语义连贯性,这显著影响了知识密集型应用中的检索性能。本文介绍了dewey_en_beta,一种新型文本嵌入模型,在MTEB(Eng, v2)(Enevoldsen等,2025) 和 LongEmbed基准测试(Zhu等,2024)中表现出色,并支持128K令牌序列。我们的技术贡献集中在块对齐训练上,这是一种创新方法,通过蒸馏同时生成局部块嵌入和全局文档级表示 (Zhang等,2025)。有关模型发布的更多信息,请访问 https://huggingface.co/infgrad /dewey_en_beta.

2025-03-30

实时评估模型在RAG中的应用:谁最能检测到幻觉?

本文调查了用于自动检测检索增强生成(RAG)中幻觉的评估模型,并对这些模型在六个RAG应用中的表现进行了全面基准测试。我们研究中包含的方法有:LLM-as-a-Judge、Prometheus、Lynx、Hughes 幻觉评估模型(HHEM)和可信语言模型(TLM)。这些方法都不需要参考标准答案/标签即可捕捉到不正确的LLM响应。我们的研究表明,在各种RAG应用中,其中一些方法能够以高精度/召回率一致地检测到不正确的RAG响应。用于重现我们基准测试的代码可在此处获取:https://github.com/cleanlab/cleanlab-tools/tree/main/benchmarking_hallucination_model

2025-03-30

我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡

快速的技术演变加速了各领域的软件开发,导致全球碳排放量不断增加。尽管大型语言模型(LLMs)声称可以帮助开发人员优化代码以提高性能和能源效率,但它们在现实世界中的实际效果仍需进一步探索,特别是在科学和工程领域,这些领域的编码实践和环境差异较大,而绿色编码意识较低。此外,对于LLMs所应用的优化策略及其与人类推理的一致性程度知之甚少。 为填补这些空白,我们评估了LLMs在减少现实世界Matlab项目环境足迹方面的有效性——Matlab是一种在学术界和工业界广泛用于科学和工程应用的语言。与之前关于玩具程序或基准测试的研究不同,我们分析了来自100个顶级GitHub仓库的400个Matlab脚本的能量优化。领先的LLMs——GPT-3、GPT-4、Llama和Mixtral——以及一位资深Matlab开发人员对这些脚本进行了优化,我们从能耗、内存使用、执行时间消耗和代码正确性等方面对其进行了评估。开发人员作为现实世界的基线,用于比较典型的人类和LLM生成的优化。 我们将2176个提出的优化方案映射到13个高级主题,发现LLMs提出了广泛的改进——超越了能源效率——包括改善代码可读性和可维护性

2025-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除