- 博客(1280)
- 收藏
- 关注
原创 行业首本《ChatBI 核心技术》新书正式上市,用自然语言干掉 80% 的报表需求
《ChatBI核心技术:生成式BI解锁智能商业决策新维度》一书聚焦前沿数据分析技术,系统介绍如何通过自然语言处理与AI技术降低数据分析门槛。作者基于十余年数据领域经验,详细解析ChatBI的完整技术栈,包括NL2SQL转换、指标API等核心技术。全书从基础概念到实战应用,涵盖提示工程、大模型微调等关键技术,旨在推动数据分析民主化,让业务人员无需专业技能即可获取数据洞察,提升企业决策效率。
2025-10-22 07:08:59
1744
原创 GEMMA-SQL:轻量架构下的 Text-to-SQL 破壁之道 —— 二十年深耕后的本质洞见
摘要:GEMMA-SQL开创性地采用轻量级开源模型Gemma2B,通过结构化微调和精准提示策略,在SPIDER基准测试中达到66.8%的Test-Suite准确率。其三大创新包括:1) 轻量架构实现高效结构化推理;2) 迭代式数据优化处理流程;3) 少样本提示工程提升泛化能力。相比传统大模型方案,GEMMA-SQL以2B参数超越多个7B+模型,证明"精准适配优于参数堆砌"的技术理念,为Text-to-SQL领域提供了高效、可解释的新范式。
2025-11-16 17:12:10
670
原创 TEXT2SQL-FLOW 横空出世!8.9 万条高质量数据,让 Text-to-SQL 模型战力飙升~
【摘要】北大团队推出TEXT2SQL-FLOW框架,通过六维度数据增强策略自动生成89,544条高质量Text-to-SQL标注数据,构建SQLFLOW数据集。该框架包含SQL验证、多风格问题生成、推理链标注等全流程自动化pipeline,支持主流数据库适配。实验表明,使用SQLFLOW微调的开源模型(如Qwen2.5)在Spider、BIRD等基准上准确率提升8%+,EHRSQL性能翻倍;提出的掩码对齐检索方法使闭源模型少样本学习效果逼近真实SQL检索上限,且无需额外API成本。SQLFLOW在数据多样性
2025-11-16 17:11:39
1654
原创 阿里开源杀疯了!Tongyi DeepResearch 横空出世,30B 参数干翻 GPT-4,AI 自主搞科研时代来了~
阿里通义实验室发布开源AI科研大模型TongyiDeepResearch,305亿参数仅激活33亿即在多个基准测试中超越OpenAI等强手。该模型突破性地实现了从选题到报告生成的端到端自主科研流程,首创将"中期训练"和"后期训练"结合的完整训练框架,并采用自动化数据合成流水线,无须人工标注即可生成高质量训练数据。其创新性地设计了三种训练环境配合不同训练阶段,使模型在7项权威科研测试中创下SOTA成绩,同时在数学推理等通用任务上也表现优异。该开源项目已完整开放模型及框架
2025-11-16 17:11:09
764
原创 救命!大模型推理还能这么玩?CoT-X 框架让小模型秒变 “推理大神”
摘要:普渡大学等机构联合研发的CoT-X框架创新性地解决了大模型Chain-of-Thought推理算力消耗过高的问题。该框架通过大模型生成详细推理链后,采用三步压缩策略(语义分割评分、动态筛选、逻辑补全),将推理能力高效转移给小模型。在7501道医疗考试题的测试中,64token预算下准确率提升40%,且支持跨模型、跨语言应用。实验显示中文表现最优,14B+7B模型组合在256token时可达75%准确率。该技术为边缘设备部署大模型推理能力提供了可行方案,后续将开源代码。(149字)
2025-11-16 17:10:33
317
原创 CoQ 框架:用 SQL + 多 Agent 破解 LLM 表格理解难题,5 大数据集准确率超 SOTA 13%+,代码开源
Rice大学、三星电子和华纳兄弟联合研发的CHAIN-OF-QUERY(CoQ)框架有效解决了大语言模型处理表格数据的难题。通过自然语言简化表格结构、逐句生成SQL避免错误传播、分工协作式推理等创新设计,CoQ在5个权威数据集上表现优异:准确率提升13%以上,无效SQL率降低50%。该框架采用多Agent协作方式,将表格理解拆分为专项任务,显著提升了模型对复杂表格和多步推理任务的处理能力。代码已开源,为研究和应用提供了实用解决方案。
2025-11-16 17:09:56
751
原创 20亿参数逆袭!开源 Text-to-SQL 模型 GEMMA-SQL 实测:碾压 IRNet 等 SOTA,普通 PC 能部署
GEMMA-SQL模型实现自然语言转SQL的重大突破,仅20亿参数却性能卓越,在SPIDER基准测试中准确率超60%,超越多个大模型。该开源模型采用LoRA微调技术,可在普通电脑运行,无需高端硬件。研究显示其prompt设计精妙,支持迭代纠错,通过少样本学习使准确率提升至88%。未来还将优化多语言和跨领域能力,为中小用户提供低成本数据查询解决方案,实现真正的"技术普惠"。
2025-11-16 17:09:15
725
原创 爆火!Text2VectorSQL 横空出世,自然语言一键搞定结构化 + 非结构化数据查询!
摘要:北大、上交等高校团队研发Text2VectorSQL技术,实现自然语言到VectorSQL的转换,统一查询结构化与非结构化数据。通过VectorSQLGen生成训练数据、VectorSQLBench基准测试和UniVectorSQL模型家族,解决了数据缺失、评估标准等难题。实验显示UniVectorSQL-32B性能超越GPT-4o等模型,执行成功率93.9%。该技术已开源,有望革新数据查询方式。(150字)
2025-11-16 17:08:36
935
原创 爆火!TCSR-SQL 横空出世,文本转 SQL 准确率直接飙升 27.8%,真实场景再也不怕 “词不对列” 啦~
摘要:TCSR-SQL技术解决了自然语言查询数据库的痛点,针对"表格内容感知型问题"设计,通过自检索技术将执行准确率提升至77.8%。该技术包含三个核心模块:关键词提取与模糊检测、知识检索与对齐、SQL生成与修订,有效解决了"词不对列""编码未知"等问题。在TCD数据集测试中表现优异,比现有方法提升27.8%,且能与现有技术结合进一步提升效果。虽然编码知识表目前仍需部分手动整理,但已大幅降低数据库查询门槛,使非技术人员也能轻松使用自然语言获取精准数
2025-11-09 16:25:52
587
原创 爆火!3 种多智能体管道让小模型 Text-to-SQL 能力狂飙,最高提升 10.6%!
摘要:最新Text-to-SQL研究突破传统限制,通过创新多智能体协作架构显著提升小模型性能。研究系统测评了24个开源模型(4B-34B参数),发现Gemma3 27B和Qwen2.5-Coder 14B表现优异。提出的三种协作模式——多智能体讨论(MAD)、规划师-编码器(Planner-Coder)和编码器-聚合器(Coder-Aggregator)分别提升小模型性能达10.6%、18%和10个EX点。其中规划师-编码器架构通过任务分解使CodeLlama 7B性能提升150%,实现小模型高效部署。该研
2025-11-09 16:24:32
289
原创 腾讯混元 Image 3.0 横空出世!800 亿参数开源模型,碾压一众闭源顶流?
腾讯混元团队推出的HunyuanImage3.0是一款突破性的开源原生多模态模型,将图像理解与生成整合在统一的自回归框架中。该模型采用800亿参数的混合专家架构,推理时仅激活130亿参数,兼具高性能与高效能。通过严格的三轮数据筛选流程和创新的多模态训练策略,模型展现出卓越的文本理解与图像生成能力。其创新设计包括广义因果注意力机制、自动分辨率功能以及支持思维链推理的训练方法。评估结果显示其性能媲美顶尖闭源模型,成为当前最强的开源图像生成模型。团队已公开代码和权重,推动开源生态发展。
2025-11-09 16:23:23
915
原创 【Qwen3-VL】:使用Qwen3-VL+Streamlit搭建图片理解|2D|3D目标检测平台
本文介绍了一个基于Streamlit框架搭建的3D目标检测平台,该平台具备三种检测模式(图片理解、2D目标检测、3D目标检测)和智能提示词构建功能。系统采用模块化设计,包含相机参数工具、API客户端、图像处理、2D/3D可视化等核心模块。平台支持从JSON文件加载相机参数或自动生成参数,并提供完整的可视化功能,包括3D边界框在2D图像上的投影显示和历史记录管理。通过使用Qwen3-VL多模态模型,该系统实现了对物体空间位置的精确检测与理解,适用于自动驾驶、机器人导航等多种应用场景。用户可通过简洁的界面完成图
2025-11-09 16:22:33
1309
原创 家人们!Text-to-SQL 终于有 “自我进化” 神器了!ORANGE 框架直接把领域知识焊死在模型里
ORANGE框架提出了一种突破性的Text-to-SQL解决方案,通过自动解析历史翻译日志构建领域知识库,有效解决了大语言模型在特定领域SQL转换中的语义理解难题。该方法采用三步流程:知识分解(嵌套CoT解析SQL)、知识验证(概率过滤)和知识增强翻译(相似示例检索),在BIRD等数据集上实现了65.12%的执行准确率,较基线提升3.13%。特别在专业领域和复杂查询场景表现突出,如Science数据集准确率达54.52%。实验表明,该框架具有自我进化能力,知识积累越多性能越强,且适配多种基础模型(最佳达70
2025-11-09 16:20:20
409
原创 家人们!Text-to-SQL 界杀疯了!MARS-SQL 多智能体框架直接把准确率卷到新高度
摘要: 《ChatBI核心技术》新书全面解析ChatBI框架,涵盖从基础概念到核心技术应用。重点介绍MARS-SQL突破性框架,其采用多智能体架构(Grounding/Generation/Validation Agent)实现自然语言转SQL,通过交互式强化学习提升复杂查询处理能力。实验数据显示,在BIRD-dev数据集上准确率达77.84%,Spider-test上达89.75%,显著优于现有方案。书中详细阐述提示工程、AI智能体等关键技术,并包含实战案例,为读者提供完整的ChatBI技术实现路径。该框
2025-11-09 16:19:03
697
原创 惊!SQLSpace 让 Text-to-SQL 开上帝视角:数据集攀比、模型漏洞、查询优化全搞定
摘要:SQLSpace框架创新性地解决了Text-to-SQL评估中的关键痛点。通过自动提取187个多维特征(如SQL复杂度、自然语言特征等)构建二进制向量,该框架首次实现了对模型表现的细粒度分析。实验显示:1)揭示了不同数据集(如SPIDER与BIRD)的深层差异特征;2)识别出所有模型的共性弱点(如处理嵌套查询时准确率骤降30%);3)通过特征改写使模型准确率提升6-7个百分点。该研究为模型选择、数据集构建和查询优化提供了量化依据,论文代码已开源(arXiv:2510.27532v1)。
2025-11-09 16:17:49
1201
原创 救命!Text-to-SQL 居然还能这么玩?动态多轮交互才是真实数据库的打开方式啊!
行业首本《ChatBI 核心技术》新书正式上市,用自然语言干掉 80% 的报表需求家人们谁懂啊!现在好多 Text-to-SQL 模型在静态单轮场景里牛得不行,随便给个自然语言问题就能生成 SQL 查询,推理步骤看着也超丝滑。但一到真实世界里就拉垮 —— 谁用数据库查数据是一次性把需求说清楚的啊?比如做财务分析时,不得先看个销售概况,再根据结果加个地区筛选,发现不对又调整时间范围?这种动态改需求的场景,之前的模型根本 hold 不住!《ChatBI核心技术》是刚上市的新书,本书旨在为读者提供一个全面的Cha
2025-11-09 16:16:31
621
原创 大模型写 SQL 总翻车?只因漏了这一步!Context-Aware 双向检索拯救 Schema Linking
摘要:最新研究聚焦Text-to-SQL中的关键环节SchemaLinking,提出双向检索框架显著提升性能。传统方法面临全量Schema干扰或完美Schema依赖的两难,该研究通过"表优先+列优先"双路径协同检索,在BIRD数据集上将全量与完美Schema性能差距缩小50%。相比现有方案,该方法以仅6次LLM调用实现85%-93%召回率,误判率降低至19%-34%,推理延迟仅2.6秒。实验表明该方法适用于不同难度SQL查询,作为独立模块可使DIN-SQL等现有方案准确率提升4-5个百分
2025-11-09 16:15:14
715
原创 宝子们!Context Engineering 2.0 来了 —— 让 AI 读懂你的 “潜台词”,这事儿早就不是新鲜活了!
《ChatBI核心技术》新书上市,全面解析如何用自然语言处理技术实现智能商业分析。该书系统介绍了ChatBI的定义、特点及其与传统BI的区别,涵盖从基础概念到核心技术的完整知识体系。重点探讨了提示工程、AI智能体、检索增强生成等关键技术,并提供实战案例展示如何构建AI智能体和业务知识库。书中还详细讲解了对话理解、智能分析、用户交互等关键环节,为企业决策支持、数据洞察等场景提供实用指导。本书为读者呈现了一个完整的ChatBI学习框架,帮助掌握这一前沿技术的实现路径与应用思路。
2025-11-09 16:13:57
618
原创 《ChatBI核心技术》首发:一句话终结80%报表,开启数据对话新时代
《ChatBI实战宝典:数据人的智能助手》是一本面向数据从业者的实用指南,介绍如何利用ChatBI实现数据自由。作者基于十余年行业经验,指出传统BI工具的高门槛问题,而ChatBI则能通过自然语言交互快速生成图表和分析。该书采用接地气的实战教学方式,涵盖从基础查询到复杂计算的全套技能,帮助业务、管理、技术人员告别SQL编写困扰,让数据真正为决策服务。本书旨在推动数据智能应用,让每个企业都能享受数据驱动的价值,并欢迎读者共同探讨ChatBI的发展与应用。
2025-11-01 21:34:29
1192
原创 爆肝夺冠!OraPlan–SQL 横扫双语 NL2SQL 挑战赛,这波操作也太秀了吧!
摘要: OracleAI推出的OraPlan-SQL在2025年NL2SQL挑战赛中以出色表现夺冠,中英文执行准确率分别达56.7%和55.0%,显著领先第二名。其创新采用双Agent架构,通过规划器生成自然语言计划,SQL生成器转换执行。关键技术包括:1)基于错误分析的元提示优化;2)实体链接解决双语匹配;3)多计划投票机制确保稳定性。消融实验证明,其框架优势超越单纯依赖模型性能的提升,特别是中文处理能力突出,直接处理中文问句比翻译后处理准确率提升24%。该方案为复杂场景下的自然语言转SQL提供了高效解决
2025-11-01 21:29:31
419
原创 告别 “盲写 SQL” 时代!MTIR-SQL 带实时工具反馈,小模型也能吊打大参数竞品
《ChatBI核心技术》新书上市,介绍突破性Text-to-SQL技术MTIR-SQL。该技术通过"实时尝味"机制和多轮数据库交互,使40亿参数模型在BIRD数据集上达到64.4%准确率,性能超越多个百亿级大模型。关键技术包括: 执行感知的多轮推理,实现SQL调试过程可视化 改进GRPO算法,增强训练稳定性 三重奖励机制(格式、执行、结果奖励) 实验数据显示,该方法在SPIDER数据集执行准确率达84.6%,且各组件缺一不可。这一突破有望大幅降低数据分析门槛,让用户通过自然语言即可获取精
2025-11-01 21:28:49
837
原创 家人们!Text-to-SQL 落地难哭了?这个万能框架直接把学术成果拽进现实!
《ChatBI核心技术》新书介绍Squrve框架,该框架解决了Text-to-SQL技术落地难的问题。Squrve通过四大模块实现:数据模块统一格式并支持复杂查询,Actor模块将任务拆分为7个可组合子任务,任务模块统一管理任务流程,执行模块确保系统稳定运行。实验显示,Squrve不仅准确复现了现有方法,其组合模型在Spider-dev数据集上执行准确率高达90.8%。该框架操作简单,几行代码即可运行,显著提升了Text-to-SQL技术的实用性和效率。
2025-11-01 21:23:15
739
原创 家人们!Text-to-SQL 模型卷出新高度,腾讯这套 DCMM-SQL 直接拿了轻量组第一!
腾讯团队提出DCMM-SQL方案,突破Text-to-SQL任务瓶颈。该方案聚焦数据质量和多模型协作两大核心:1)创新性设计自适应数据修复和错误数据增强机制,自动修正错误标注并针对性扩充易错样本;2)采用两步式多模型协作训练策略,集成多个专家模型的优势。实验显示,该方法在70B参数以下轻量级模型中取得领先性能,在Spider和Bird数据集上准确率分别达89.84%和72.69%,验证了优化数据基础和训练逻辑的可行性路径。
2025-11-01 21:22:15
455
原创 家人们!表格总结终于有 “六边形战士” 了!FACTS 这波操作直接把效率、精准度、隐私全拉满!
FACTS方法革新表格总结技术,通过离线模板实现高效、精准且隐私安全的表格信息提取。该方法采用三步流程:需求分析、SQL查询构造和自然语言转换,仅需传输表格结构而无需暴露真实数据。在三大权威数据集测试中,FACTS表现优异,执行成功率达100%,且在复用性和扩展性方面显著优于传统方法。特别适用于金融、医疗等对数据隐私要求严格的领域,解决了现有技术慢、不准和泄露风险等痛点。
2025-11-01 21:21:28
400
原创 救命!AI 居然能把人话直接转成地理 SQL?这个多智能体框架也太猛了吧!
《ChatBI核心技术》新书上市,推出革命性AI多智能体系统,可将自然语言转换为空间SQL查询,准确率达87.7%。该系统通过5个专业智能体协同工作,解决传统空间查询工具(如PostGIS)对非专业人士的技术门槛问题。智能体架构包含知识库、元数据检索、查询逻辑等组件,能自动处理复杂空间计算,并具备自我纠错和学习能力。测试显示,该系统在基础、中级、高级空间查询任务中的准确率分别达到93.3%、90%和80%,大幅提升了非技术人员的地理数据分析效率。
2025-11-01 21:20:34
693
原创 大模型也怕 “瞎猜”!SIMBA UQ:用相似度给 AI 答案打置信分,靠谱多了
IBM团队提出SIMBAUQ框架,通过分析大模型生成答案的相似度来量化置信度。该框架采用三步流程:多温度采样生成多个答案、计算答案间相似度、聚合相似度得出置信度。实验显示,该方法在QA、摘要和SQL生成任务中表现优异,尤其在文本到SQL任务中校准误差显著低于传统方法。该方案的创新在于不依赖模型内部参数,实现黑盒操作,便于工程落地。开发者可将其封装为"置信度计算器",结合阈值判断输出可靠性。虽然存在跨领域适应性等局限,但SIMBAUQ为大模型输出可信度评估提供了实用解决方案。
2025-11-01 21:19:03
877
原创 聊个正经事:Text2SQL 任务里,推理型大模型的测试时缩放策略到底行不行?
摘要:博世团队研究Text2SQL场景下大模型的测试时优化策略,对比6种轻量级流程在4个模型上的表现。研究发现,"分而治之+少量示例"组合效果最佳,能显著提升模型性能;结果验证流程普遍有效,但复杂策略不一定更好。实验显示基础模型选择比流程优化更重要,Gemini2.5Flash基线表现优于其他模型的最优流程。建议工业落地时应平衡速度与准确率,为不同复杂度查询设计差异化的处理模式。研究为实际应用提供了流程选择和性能调优的实用参考。
2025-11-01 21:17:53
670
原创 爆肝解读!Salesforce 新出的 EDR 多智能体,把企业数据分析卷到新高度
SalesforceAIResearch推出企业级深度研究智能体系统EDR,通过模块化多智能体架构实现高效数据研究。EDR具备主研究智能体、专业搜索模块和工具生态,能拆解复杂任务、精准检索信息并生成结构化报告。测试显示EDR在DeepResearchBench等基准上超越主流系统,商业咨询场景胜率达71.57%。系统支持人机实时协作,提供完整研究轨迹开源数据集EDR-200,显著提升企业研究效率。目前已在Salesforce内部部署,用户满意度达4.8/5,未来将优化事实性和多领域适配能力。
2025-10-27 23:20:38
695
原创 聊个正经事:Text2SQL 任务里,推理型大模型的测试时缩放策略到底行不行?
摘要:博世团队研究了Text2SQL场景下大模型的测试时优化策略,通过6种轻量级流程和4个模型在BIRDMini-Dev数据集上的实验发现:1)"分而治之+少量示例"组合效果最佳,能提升各模型性能;2)结果验证流程普遍有效,但复杂策略未必更好;3)基础模型选择比流程优化更重要;4)GeminiFlash系列推理速度快但准确性需权衡。研究建议工业应用优先采用基础优化组合,根据需求平衡速度与准确性,并注重用户体验设计。核心指标包括SoftF1、执行准确率、推理时间和token消耗等。
2025-10-27 23:19:53
550
原创 LitE-SQL:轻量又能打的 Text-to-SQL 框架,向量查 schema + 执行反馈自修正直接封神
LitE-SQL框架:轻量高效的Text-to-SQL解决方案 摘要:Yonsei大学团队提出的LitE-SQL框架通过创新设计实现了轻量高效的Text-to-SQL转换。该框架采用SchemaRetriever(基于向量检索)和SQLGenerator(两阶段微调)双模块架构,仅需7B参数即可在BIRD和Spider数据集上达到72.10%和88.45%的执行准确率,性能媲美175B参数的GPT-4。关键技术包括:1)HN-SupCon损失函数优化字段检索;2)执行引导的强化微调实现自修正。相比传统方案,
2025-10-24 07:03:13
693
1
原创 无需微调,30B 模型搞定复杂 SQL!DeepEye-SQL 的软件工程思路,值得一看
摘要:DeepEye-SQL提出了一种基于软件工程理念的Text-to-SQL新框架,将SQL生成过程分解为需求分析、编码实现、测试调试和发布上线四个阶段,显著提升了系统可靠性。该框架通过语义值检索和多方法Schema链接精准理解用户意图,采用N版本编程生成多样化SQL,利用工具链修订进行系统化验证,最终通过置信度感知机制选择最优结果。实验表明,在BIRD和Spider基准上,其准确率分别达73.5%和89.8%,超越现有方法且无需微调,同时将token消耗降低6-14倍。该研究为生成任务提供了流程优化的新
2025-10-24 06:49:31
678
原创 大模型也怕 “瞎猜”!SIMBA UQ:用相似度给 AI 答案打置信分,靠谱多了
摘要:IBM研究团队提出的SIMBAUQ框架通过量化大模型输出的置信度解决"不确定性"问题。该框架采用三步法:1)多温度采样生成多个答案;2)计算答案间相似度;3)通过分类聚合计算置信度。实验显示,在QA、摘要和SQL生成等任务中,该方法显著优于基线,ACE指标降低6倍以上,AUROC达0.9。关键优势在于无需模型内部参数,仅需30个样本即可实现,且Jaccard等通用指标即可获得良好效果。该技术可快速集成到现有系统,为高风险场景提供可靠性保障。
2025-10-22 07:10:36
557
原创 当 AI 干起咨询活:CORGI 基准让大模型在商业 SQL 上现原形
Cornell和GenaAI团队推出的CORGI基准攻克了商业Text-to-SQL的关键痛点:1)构建包含26张表的真实企业级数据库,模拟业务规则、用户分布和季节趋势;2)设计四层递进式问题(描述性→解释性→预测性→推荐性),全面覆盖商业决策需求;3)首创多智能体评估框架,从7个维度(如数据敏感度、可执行性)进行专业评分。实验显示,GPT-4o在推荐性问题上的可执行性评分仅2.23/5,暴露大模型生成商业建议的"正确废话"缺陷。该研究为业务型AI开发提供了真实场景测试标准,开发者需结合
2025-10-21 21:36:42
380
原创 大模型写 SQL 太贵?这个「数据湖特工」直接砍 87% 成本,性能还没掉!
摘要:DatalakeAgent创新性地解决了NL2SQL任务中高成本问题,通过互动循环机制仅获取必要数据库元信息,而非一次性输入所有数据。实验表明,在319张表的场景下,该方法比传统方式节省87%的tokens,成本降低250倍,同时保持56.3%的复杂查询准确率,而传统方法仅29.3%。其"信息获取-迭代优化-生成查询"三步骤设计,使大模型能精准定位所需数据,特别适合企业多数据库环境。虽然存在偶尔的无限循环问题,但该方案为大规模NL2SQL应用提供了高性价比的解决方案。
2025-10-21 21:35:43
352
原创 大模型写 SQL 总翻车?JudgeSQL 这波操作直接把选对率拉满!
本文介绍北航团队提出的JudgeSQL框架,解决了大模型生成Text-to-SQL时难以选择最优SQL查询的难题。该框架包含"会推理的SQL裁判模型"和"加权共识锦标赛"两大创新:裁判模型通过蒸馏学习和强化训练,能精准分析SQL对错并给出推理过程;加权锦标赛则高效筛选候选SQL,将对比次数减少18倍以上。实验表明,在BIRD基准测试中,该框架使7B和32B模型的执行准确率提升3-7%,特别在复杂查询上表现突出,且具有良好的泛化性和兼容性,为Text-to-SQL应用提
2025-10-21 21:34:34
344
原创 BenchPress:让企业快速搞定 Text-to-SQL 基准测试的神器,人与 AI 协作才是王道!
家人们,咱先唠个实诚事儿 —— 现在大语言模型(LLMs)在 Text-to-SQL 这块确实挺猛,像 Fiben、Spider、Bird 这些公开数据集上,那表现看得人眼花缭乱。但咱干企业开发的都知道,一碰到公司内部的大型私有数据仓库,这些模型立马就 “拉胯” 了。之前我们搞出了 Beaver 这个首个企业级 Text-to-SQL 基准测试,当时是靠 SQL 日志弄的,可给这些日志标注对应的自然语言问题,简直是个巨坑。让数据库管理员 —— 那些本来就忙得脚不沾地的专家,额外花时间写、验证自然语言描述,不
2025-10-20 21:33:31
581
原创 搞定多语言 Text-to-SQL!用对比奖励把语义对齐这块硬骨头啃下来
这样一来,模型生成 SQL 后,咱就能用这个编码器算 “生成的 SQL 对应的语义” 和 “用户问题的语义” 有多像,这个相似度就是 “对比奖励”,越像奖励越高。总的来说,咱这方法算是把多语言 Text-to-SQL 的两个痛点都解决了:用 GRPO 保证执行准确率,用对比奖励提升语义对齐,而且只用小模型和少量样本就能实现,不管是落地到多语言场景,还是控制训练成本,都特别实用。” 看着能跑,但有俩语义问题:一是用了 “>=3”,但用户问的是 “超过 3”(应该是 “>3”);二是用 “COUNT (
2025-10-19 21:25:53
813
原创 大模型也得守规矩!聊聊 LLM 里的 “权限管控” 怎么落地?在 Text-to-SQL 场景里落地测试
摘要:研究探讨大模型权限控制问题,提出三种技术方案解决LLM生成内容时的权限越界问题。通过改造Spider和BIRD数据集为Spider-ACL和BIRD-ACL,测试了单步决策、两步pipeline和LoRA微调三种方案。结果显示,两步方案(生成+校验)性能最优,拒绝F1达0.877;微调方案次之,但需要足够训练数据;而单步方案简单但易出错。研究发现权限规则复杂度、校验模型选择和思维链推理对效果影响显著,建议企业级应用采用两步方案确保安全,开源数据集和代码可供企业快速构建内部权限系统。
2025-10-19 21:24:25
870
原创 兄弟们,Text-to-SQL 卷出新高度!HES-SQL 让自然语言转 SQL 又快又准,还能自动优化执行效率
华为HES-SQL框架突破Text-to-SQL技术瓶颈,首次实现准确性与执行效率的双重优化。该框架通过"骨架完整性评分"确保SQL结构正确,采用"查询延迟感知奖励"机制优化执行效率,并引入"自蒸馏补全思考模式"保持复杂推理能力。实验数据显示,在BIRD、Spider等主流数据集上,HES-SQL将执行准确率提升10-18%,查询效率提高11-20%,同时显著减少71%-86%的低级SQL错误。目前已在沙特STA的CEMCopilot应用中获得验证
2025-10-19 21:22:56
426
1
原创 MTSQL-R1:用智能体训练搞定长对话多轮 Text-to-SQL,终于不用再头疼 SQL 执行报错了
比如用户先问 “各大陆的汽车厂商数量”,再问 “美国的汽车厂商数量”,有的模型生成 SQL 时会把美国的国家名写成大写 “USA”,但数据库里存的是小写 “usa”,结果执行直接返回空值,这就是典型的 “短视思维”—— 只看当前句子,不管执行结果和历史上下文。比如在 CoSQL 数据集上,对话轮数越多(比如≥4 轮),传统模型性能掉得越厉害,而 MTSQL-R1 能保持高准确率 —— 这就是 “对话记忆库” 的作用,能帮模型记住前面多轮的约束,不会越聊越跑偏。如果它错误标记为 “通过”,就拿不到奖励。
2025-10-19 21:21:48
806
NLI4DB: 数据库的自然语言接口系统综述
2025-03-30
FutureGen:生成科学文章未来工作的LLM-RAG方法
2025-03-30
CausalRAG:将因果图整合到检索增强生成中
2025-03-30
RGL:一种以图为中心、模块化的高效图检索增强生成框架
2025-03-30
在RAG-Text2SQL系统中平衡内容大小
2025-03-29
MAPQA : 开放领域地理空间问答基于地图数据
2025-03-29
基于LLM的数据分析中的洞察生成方法
2025-03-29
V-SQL:一种基于视图的两阶段Text-to-SQL框架
2025-03-29
Genicious:用于洞察发现的情境化Few-shot提示
2025-03-29
通过答案-公式联合生成实现通用表格问答
2025-03-29
链式思维推理是否有助于移动GUI代理?一项实证研究
2025-03-29
DAgent:一种基于关系数据库驱动的数据分析报告生成代理
2025-03-29
MedAgent-Pro:通过基于推理的代理工作流实现证据驱动的多模态医学诊断
2025-03-29
大型语言模型在问答任务中的代理综述
2025-03-29
SEAlign: 面向软件工程代理的对齐训练
2025-03-29
MemInsight:大型语言模型代理的自主记忆增强
2025-03-29
GenEdit:复合运算符和持续改进以应对企业级Text-to-SQL的挑战
2025-03-29
开放深度搜索:通过开源推理代理实现搜索民主化
2025-03-29
用于零样本泛化到定性新任务的思考型智能体
2025-03-29
OmniNova:一个通用的多模态代理框架
2025-03-29
【生物信息学】双向分层蛋白质多模态表示学习:融合蛋白质语言模型与图神经网络提升蛋白质相关任务预测性能
2025-04-11
### 【自然语言处理】潜在专家混合(MoLE):用于资源高效语言模型的创新架构设计:本文介绍了潜在
2025-04-09
### 【人工智能模型压缩】MoQa:多阶段数据模型分布感知的MoE量化框架设计与优化
2025-04-08
### 强化学习VAPO:用于高级推理任务的高效可靠强化学习框架设计与实现
2025-04-08
### 文章标题: 【自然语言处理】基于ChatGPT的REFORMER框架:提升Text-to-SQL模型的数据合成与增强系统设计
2025-04-08
### 【多智能体系统】基于强化学习的集中式多智能体协调框架:联合动作顺序构造方法设计与实验评估
2025-04-08
### 【人工智能领域】基于自原则批评调整的通用奖励建模推理时间扩展研究题:基于自
2025-04-08
### 【人工智能与物理学】基于MASS模型的AI科学家在物理系统中的理论一致性研究
2025-04-08
### 文章标题: 【AI助手与知识图谱】基于思维知识图(KGoT)的高效AI助手架构设计:降低运营成本与提升任务成功率摘要: 本文介绍
2025-04-08
### 【自然语言处理】大型语言模型推理能力的预训练扩展规律研究:基于知识图谱的多跳推理任务分析
2025-04-08
【计算机教育】DeepSeek-V3在计算机网络教育中的实证研究:评估模型效能与跨语言适应性
2025-04-04
医疗领域大型语言模型DeepSeek R1医疗推理能力分析:评估模型推理过程及错误模式以提升临床决策支持系统性能
2025-04-04
【软件工程领域】面向软件工程的人工智能:任务分类、挑战与前进路径了面向软件工程
2025-04-03
### 【自然语言处理】基于强化学习的部分奖励优化Text-to-SQL任务:推理-SQL系统设计与性能提升
2025-04-03
ActionStudio:轻量级动作模型数据与训练框架
2025-04-02
Unicorn: 用于视觉语言模型训练的纯文本数据合成
2025-03-31
基于大型模型的多任务语义通信
2025-03-31
Dewey 长上下文嵌入模型:技术报告
2025-03-30
实时评估模型在RAG中的应用:谁最能检测到幻觉?
2025-03-30
我们能让代码变得更绿色吗?理解LLM与人类代码优化中的权衡
2025-03-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅