自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2178)
  • 资源 (1)
  • 收藏
  • 关注

原创 A Hybrid Multi-Agent Prompting Approach for Simplifying Complex Sentences

句子简化是计算语言学中的重要任务,目标是在保留原意的前提下将复杂句子转化为简单结构,在教育、无障碍内容、游戏设计等领域有重要应用。传统方法(规则系统、统计方法、神经网络)难以在简化同时保持语义等价,LLM单独使用时因简化策略多样易失效,微调也可能因训练集有限导致过拟合。复杂句子在动作导向场景(如机器人、游戏逻辑)中存在条件逻辑嵌套、时间依赖等挑战,需分解为可执行步骤。混合多智能体架构:将句子分解、评估、修订任务分配给专用智能体,通过协作提升简化质量,解决单智能体在复杂逻辑处理中的局限性。

2025-06-18 14:14:32 2

原创 SALE : Low-bit Estimation for Efficient Sparse Attention in Long-context LLM Prefilling

研究背景与问题:长上下文LLM应用中,自注意力模块在预填充阶段因二次时间复杂度成为瓶颈。现有稀疏注意力方法多采用粗粒度检查,导致模型精度显著损失。SALE方法核心三阶段处理流程:通过量化(4位查询-键乘积)、选择阶段(块稀疏注意力掩码构建)和计算阶段(仅计算重要块)实现高效稀疏注意力。相对注意力分数(Relative Attention Score):基于“sink-local”区域(序列首尾)的注意力权重相对大小评估重要性,动态调整稀疏度。硬件优化。

2025-06-18 09:30:00 73

原创 Bootstrapping LLM Robustness for VLM Safety via Reducing the Pretraining Modality Gap

研究背景与问题:视觉语言模型(VLM)在部署时需确保输出安全,但其安全性较语言模型(LLM)骨干显著下降。即使是空白或无关图像,也可能触发VLM生成有害响应,这与图像和文本表示的“模态差距”有关。现有研究虽假设模态差距影响VLM安全性,但未明确其影响机制及程度。核心发现模态差距与VLM的不安全率呈强负相关,即模态差距越大,模型越容易生成有害响应。模态差距在预训练阶段形成,并在微调过程中持续存在,是导致VLM安全性下降的关键因素。方法:REGAP。

2025-06-18 08:30:00 94

原创 XGRAMMAR: FLEXIBLE AND EFFICIENT STRUCTURED GENERATION ENGINE FOR LARGE LANGUAGE MODELS

主要内容本文提出了XGrammar,一个针对大语言模型(LLM)的灵活高效结构化生成引擎,旨在解决上下文无关文法(CFG)在约束解码中效率低下的问题。词汇分类与缓存:将词汇分为上下文无关token(可预检查)和上下文相关token(运行时解释),构建自适应令牌掩码缓存,减少运行时检查开销。上下文扩展:通过预计算规则的扩展后缀,过滤无效的上下文相关令牌,进一步减少运行时处理量。持久化栈机制:设计高效的持久化执行栈,支持状态分支和回滚,加速上下文相关令牌的检查。与LLM推理引擎协同设计。

2025-06-17 09:30:00 271

原创 Causal-aware Large Language Models: Enhancing Decision-Making Through Learning, Adapting and Acting

大语言模型(LLMs)在决策领域展现出巨大潜力,但预训练模型存在推理能力不足、难以适应新环境的问题,严重制约了其在复杂现实任务中的应用。现有方法如强化学习(RL)单独使用或LLM辅助RL的方式,仍依赖token预测范式,缺乏结构化推理和快速适应性。大语言模型(LLMs)因其存储的海量知识,在决策领域展现出巨大潜力。然而,这些预训练模型往往缺乏推理能力,难以适应新环境,进一步阻碍了它们在复杂现实任务中的应用。

2025-06-17 08:30:00 61

原创 FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation

FABLE基准介绍:FABLE是首个针对大语言模型(LLMs)在程序文本中数据流推理能力的评估基准,改编自软件工程中的8种经典数据流分析方法(如到达定义、活跃变量分析、污染分析等),并将其应用于烹饪食谱、旅行路线和自动化计划三个真实世界领域。数据集构建从三个领域收集数据并处理为结构化表示,包括步骤依赖图和实体流图。包含2400个问答对,每个领域-分析组合有100个示例,覆盖不同复杂度和自动化水平的程序文本。实验评估。

2025-06-16 09:30:00 87

原创 Optimizing the Interface Between Knowledge Graphs and LLMs for Complex Reasoning

大型语言模型(LLMs)在自然语言处理任务中表现出色,但存在事实性错误和知识更新困难等问题。检索增强生成(RAG)通过外部知识检索缓解这些问题,而结合知识图谱(KGs)的GraphRAG进一步支持多步推理和结构化知识访问。然而,此类系统的超参数优化(如分块大小、检索策略、提示模板等)尚未被系统研究。本文利用Cognee框架,在多跳问答基准上优化KG与LLM接口的超参数,探索性能提升的可能性及评估指标的局限性。将大型语言模型(LLMs)与知识图谱(KGs)集成会形成复杂系统,其众多超参数直接影响性能。

2025-06-16 08:30:00 79

原创 Can LLMs and humans be friends? Uncovering factors affecting human-AI intimacy formation

实验1(29名用户参与):发现逐步加深的自我表露显著提升感知的社会亲密度,且不受人格相似性(用户与LLM的 persona 匹配度)的影响。普通LLM的正式语言风格和机械共情(如不加区分地同意用户观点)会破坏沉浸感,导致用户感知不真诚。实验2(53名用户参与,引入自我批评机制):自我批评机制(self-criticism)通过优化响应的自然性(如使用口语化表达、校准共情),显著提升用户对LLM的初始亲密度感知,尤其在互动早期效果明显。过度共情可能引发不适,表明需平衡情感表达的丰富性与自然性。

2025-06-15 09:45:00 77

原创 S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal

本文提出了一种基于多模态大语言模型(MLLM)的可扩展自监督自动驾驶运动规划框架S4-Driver,旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。稀疏体表示(Sparse Volume Representation):将多视图、多帧图像的视觉信息聚合到3D空间,通过轻量级投影和门控机制动态选择关键区域,增强模型的3D时空推理能力,且无需微调预训练的视觉编码器。分层规划与元决策(Hierarchical Planning with Meta-Decision)

2025-06-15 08:30:00 117

原创 Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side

人类偏好数据的质量对于大语言模型(LLM)的训练和评估至关重要,尤其是在人类反馈强化学习(RLHF)和直接偏好优化(DPO)场景中。传统的并排(SBS)标注方法通常难以应对固有不确定性、标注者分歧以及偏好判断的复杂性。本文提出一种基于直觉模糊集(IFS)的新框架,用于LLM数据标注任务中的人类偏好建模和聚合。我们的方法不仅通过隶属度、非隶属度和犹豫度捕捉偏好程度,还捕捉人类判断中固有的不确定性和犹豫。

2025-06-14 09:45:00 80

原创 PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models

大型语言模型(LLMs)发展迅速,日益能够解决包括物理学在内的复杂科学问题。尽管如此,当前LLMs往往无法模仿人类专家简洁、基于原理的推理特点,而是生成冗长且不透明的解决方案。这种差异凸显了它们在应用核心物理原理进行高效且可解释的问题解决方面的关键能力差距。为了系统地研究这一局限性,我们引入了PhySense,这是一个新颖的基于原理的物理推理基准。该基准设计为专家使用指导原理可轻松解决,但对于没有基于原理优先推理的LLMs来说却看似简单实则困难。

2025-06-14 08:30:00 123

原创 LLM Inference Enhanced by External Knowledge: A Survey

外部知识分类非结构化数据:包括文本、图像、音视频等,需通过NLP、计算机视觉等技术提取信息,虽丰富但存在预处理成本高、易引入噪声等问题。结构化数据表格:以行列形式组织数据,适用于事实验证、数值推理等任务,整合方法包括符号推理(如Text-to-SQL)、神经推理(如Chain-of-Table)和混合推理(如H-STAR)。知识图谱(KGs):以三元组形式表示实体关系,支持多跳推理,整合策略分为松耦合(如CoK、RRA)和紧耦合(如ToG、PoG)。整合方法与性能对比表格整合。

2025-06-13 09:30:00 15

原创 MoDoMoDo: Multi-Domain Data Mixtures for Multimodal LLM Reinforcement Learning

带可验证奖励的强化学习(RLVR)最近成为大型语言模型(LLMs)训练后的强大范式,在具有结构化、可验证答案的任务上实现了最先进的性能。将RLVR应用于多模态LLMs(MLLMs)带来了重大机遇,但视觉-语言任务的广泛性和异质性使其复杂化,这些任务需要细致的视觉、逻辑和空间能力。因此,使用RLVR在多个数据集上训练MLLMs可能是有益的,但不同数据集之间的交互会产生目标冲突,这凸显了需要最优数据集混合策略来提高泛化和推理能力。

2025-06-13 08:30:00 82

原创 LLM Weekly(2025.06.02-06.08)

小米的 LLM-Core 团队开源了 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,这两款领先的视觉语言模型在视觉理解和多模态推理方面表现出色。通过比较模型对收入的影响,HyperWrite 确保其选择与业务目标一致,如 GPT-4.1 所示,它在匹配现有模型性能的同时降低了成本。通过协同定位这些进程,系统跳过了 HTTP 通信,支持张量并行和数据并行,并简化了部署,使其具有可扩展性且适用于大规模模型训练的生产环境,从而提高了效率。研究人员通过自我反思和强化学习增强了大型语言模型。

2025-06-12 14:18:32 100

原创 Adversarial Preference Learning for Robust LLM Alignment

本文提出了对抗偏好学习(APL)框架,旨在提升大型语言模型(LLMs)对抗对抗性攻击的鲁棒性。传统基于人类反馈的强化学习(RLHF)方法存在人工标注成本高、对抗攻击场景覆盖不足以及奖励偏差等问题。基于内在偏好概率的直接危害度量:无需外部评估系统,通过模型生成有害/安全响应的概率直接评估漏洞。条件生成攻击者:自动生成多样化的对抗性提示,覆盖更广的输入空间。迭代闭环反馈框架:攻击者与防御者通过迭代交互持续发现和修复漏洞。

2025-06-12 09:30:00 121

原创 SpatialPrompting: Keyframe-driven Zero-Shot Spatial Reasoning with Off-the-Shelf Multimodal LLM

本文提出了一种名为SpatialPrompting的全新框架,旨在借助现成的多模态大型语言模型(LLM)的推理能力,实现三维环境下的零样本空间推理。该框架的核心在于关键帧驱动的提示生成策略关键帧提取:从图像序列中挑选出具有代表性的关键帧。在这个过程中,综合运用视觉-语言相似性、马氏距离、视野(FOV)以及图像清晰度等多种指标,以确保所选关键帧既能涵盖丰富的空间信息,又能避免冗余。提示生成:将提取出的关键帧与对应的相机位姿数据相结合,形成结构化的提示输入到多模态LLM中。

2025-06-12 08:30:00 89

原创 Latte: Transfering LLMs’ Latent-level Knowledge for Few-shot Tabular Learning

本文聚焦于小样本表格学习(Few-shot Tabular Learning)难题,提出了Latte框架,借助大语言模型(LLMs)的潜在知识优化下游模型训练,有效缓解了小样本场景下的数据不足与过拟合问题。具体内容如下:问题背景Latte框架设计实验验证训练时潜在知识提取首次将LLMs作为“教师”,在训练阶段提取其隐层状态的潜在知识(非文本生成),避免文本级知识的幻觉问题,提升特征工程可靠性。语义感知与知识融合架构无监督预训练与元学习结合利用无标注数据生成伪标签进行元学习,为下游任务提供鲁棒的参数初始化

2025-06-11 10:30:00 76

原创 PRIMG : Efficient LLM-driven Test Generation Using Mutant Prioritization

本文提出了一种针对Solidity智能合约的测试用例生成框架PRIMG(Prioritization and Refinement Integrated Mutation-driven Generation),旨在通过突变优先化和LLM驱动的测试生成,解决传统变异测试中测试套件庞大、计算开销高的问题。框架设计突变优先化模块:利用机器学习模型(岭回归)预测存活突变体的“有用性”,基于突变体包含图(DMSG)和测试完整性提升概率(TCAP),选择高影响力的突变体作为测试目标,减少冗余。测试生成模块。

2025-06-11 08:30:00 113

原创 Frame In, Frame Out: Do LLMs Generate More Biased News Headlines than Humans?

研究背景媒体框架通过选择性强调或淡化某些细节来塑造公众认知,而LLMs在自动化新闻生成中的应用日益广泛,其可能引入或放大框架偏见的问题引发担忧。现有研究多关注人类框架,对LLMs如何内化和重现框架模式的探讨较少。研究方法使用XSUM数据集(BBC新闻摘要),对比27种LLMs(包括开箱即用和微调模型)与人类生成的新闻标题的框架倾向。采用GPT-4系列模型作为“评审团”检测框架,通过关键词分类法分析不同主题(如政治、健康、经济等)的框架差异。核心发现人类与LLMs对比。

2025-06-10 09:30:00 88

原创 Multimodal Integrated Knowledge Transfer to Large Language Models through Preference Optimization

摘要高质量多模态生物医学数据的稀缺性限制了预训练大语言模型(LLMs)在专业生物医学任务中的有效微调能力。为应对这一挑战,我们提出了MINT(多模态集成知识迁移)框架,通过偏好优化将单模态大解码器模型与高质量多模态生物医学数据中的领域特定决策模式对齐。尽管MINT支持不同的优化技术,但我们主要以优势比偏好优化(ORPO)框架为 backbone 实现。该策略使对齐后的LLMs能够使用纯文本或纯图像输入执行预测任务,同时保留从多模态数据中学习到的知识。

2025-06-10 08:30:00 108

原创 DisTime: Distribution-based Time Representation for Video Large Language Models

研究背景视频大语言模型(Video-LLMs)在时间敏感任务(如时刻检索、密集视频字幕、接地视频问答)中面临离散时间表示和时间感知数据集有限的挑战。现有方法存在三大问题:文本-数字混合表示(如GroundingGPT)导致分类混淆;专用时间标记(如Momentor)受长尾分布和时间不连续性影响;重型时间模块(如InternVideo2.5)增加计算成本且依赖视觉信息重输入。DisTime框架核心设计:引入可学习时间标记。

2025-06-09 14:49:36 19

原创 Mind the Quote: Enabling Quotation-Aware Dialogue in LLMs via Plug-and-Play Modules

本文聚焦于提升大语言模型(LLMs)在对话中处理引用文本的能力,提出了一种名为QuAda的即插即用模块,旨在解决现有模型缺乏显式定位和利用引用片段的问题。问题建模:将引用对话形式化为跨段条件生成(span-conditioned generation),将对话分解为历史记录HHH、引用片段集合RRR和意图话语UUU,定义了Base、Multi-Span、Exclude、Info-Combine、Coref五种典型引用场景。数据构建。

2025-06-09 09:30:00 96

原创 Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model

周期性或准周期性现象揭示了各种自然过程的内在特征,如天气模式、运动行为、交通流量和生物信号。鉴于这些现象跨越多种模态,多模态大语言模型(MLLMs)的能力为有效捕捉和理解其复杂本质提供了广阔前景。然而,当前MLLMs在周期性任务中面临挑战,主要源于以下限制:1)缺乏时间建模能力;2)短周期和长周期之间的冲突。本文介绍了Period-LLM,这是一种多模态大语言模型,旨在提升跨各种模态的周期性任务性能,并构建了一个具有不同难度的基准,用于评估大型模型的跨模态周期性能力。

2025-06-09 08:30:00 652

原创 MMAFFBen: A Multilingual and Multimodal Affective Analysis Benchmark for Evaluating LLMs and VLMs

大型语言模型(LLMs)和视觉语言模型(VLMs,统称LMs)已革新了自然语言处理(NLP)和计算机视觉(CV)领域,在多个领域展现出显著潜力。然而,其在情感分析(即情绪分析和情感检测)中的能力仍未被充分探索。这一空白主要归因于缺乏全面的评估基准,以及情感分析任务本身的复杂性。本文引入MMAFFBen,首个用于多语言多模态情感分析的大规模开源基准。MMAFFBen涵盖35种语言的文本、图像和视频模态,包含四项关键情感分析任务:情感极性、情感强度、情绪分类和情绪强度。

2025-06-08 09:30:00 88

原创 HARDTESTS: Synthesizing High-Quality Test Cases for LLM Coding

摘要验证器在大型语言模型(LLM)推理中至关重要,强化学习等后期训练技术均需依赖验证器。然而,对于复杂编程问题,可靠验证器难以获取,因为伪装良好的错误解决方案通常只能通过精心设计的边缘测试用例检测,而这类测试用例难以合成。为此,我们提出HARDTESTGEN,一种基于LLM的高质量测试合成流水线。通过该流水线,我们构建了包含47k问题和合成高质量测试用例的竞赛编程数据集HARDTESTS。

2025-06-08 08:30:00 131

原创 LLM-powered Query Expansion for Enhancing Boundary Prediction in Language-driven Action Localization

语言驱动的视频动作定位任务不仅需要语言查询与视频片段的语义对齐,还需要对动作边界进行预测。然而,语言查询主要描述动作的主要内容,通常缺乏动作起始和结束边界的具体细节,这增加了人工边界标注的主观性,导致训练数据中存在边界不确定性。本文提出了两项创新:一方面,通过大语言模型(LLM)生成动作起始和结束边界的文本描述,对原始查询进行扩展。该方法为动作定位提供了更详细的边界线索,从而降低边界不确定性的影响。

2025-06-07 09:30:00 81

原创 Large Language Models Are More Persuasive Than Incentivized Human Persuaders

本文通过大规模实验对比了前沿大语言模型(LLM,Claude Sonnet 3.5)与受激励人类说服者的说服能力,发现LLM在真实(引导正确答案)和欺骗性(引导错误答案)场景中均显著优于人类,且其说服力直接影响答题者的准确率和收益。研究强调了AI说服能力的潜在风险,呼吁加强对齐和治理框架。摘要我们在一个交互式、实时对话测验环境中,直接比较了前沿大语言模型(LLM;Claude Sonnet 3.5)与受激励人类说服者的说服能力。

2025-06-07 08:30:00 128

原创 Emerging Properties in Unified Multimodal Pretraining

本文介绍了字节跳动开源的多模态基础模型BAGEL,其核心目标是通过大规模交错多模态数据预训练,实现统一的多模态理解与生成能力。BAGEL采用仅解码器架构和混合Transformer专家(MoT)设计,在文本、图像、视频和网页数据上进行训练,展现出复杂多模态推理的新兴能力,如自由形式图像操作、未来帧预测、3D操作和世界导航等。实验表明,BAGEL在标准基准测试中显著优于开源模型,并通过数据构建协议和模型架构创新,缩小了与专有系统(如GPT-4o、Gemini 2.0)的差距。

2025-06-06 09:30:00 100

原创 WEB-SHEPHERD: Advancing PRMs for Reinforcing Web Agents

本文聚焦于网络导航领域的过程奖励模型(PRM)研究,提出了首个专为评估网络代理轨迹设计的模型,并构建了配套的训练数据集和评估基准。问题背景:现有网络代理依赖多模态大语言模型(MLLM)作为奖励模型,存在速度慢、成本高、性能不足等问题,尤其在长程序列决策中表现不稳定。核心方法:作为过程奖励模型,通过结构化清单(Checklist)将用户指令分解为可解释的子目标,实现对代理轨迹的步骤级评估。:包含4万个步骤级偏好对和注释清单,覆盖多领域、多难度任务,支持PRM训练。

2025-06-06 08:30:00 103

原创 Scaling Law for Quantization-Aware Training

本文围绕大语言模型(LLMs)的量化感知训练(QAT)展开研究,重点探讨4-bit精度(W4A4)下的缩放规律。通过268次QAT实验,分析了模型规模(N)、训练数据量(D)和量化粒度(G)对量化误差的影响,并提出统一的缩放定律。量化误差的影响因素:误差随模型规模增大而减小,随训练数据量和量化粒度粗化而增大。误差分解:权重和激活误差均遵循整体趋势,但敏感度不同。权重误差对训练数据更敏感,而激活误差(尤其是FC2层输入)是W4A4的主要瓶颈。混合精度优化。

2025-06-05 09:30:00 66

原创 Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models

指令遵循对于使大型语言模型(LLMs)与用户意图保持一致至关重要。尽管最近面向推理的模型在复杂数学问题上表现出令人印象深刻的性能,但它们遵循自然语言指令的能力仍未得到充分探索。在这项工作中,我们引入了MathIF,这是一个专门用于评估数学推理任务中指令遵循能力的基准。我们的实证分析揭示了推理能力扩展与保持可控性之间的持续矛盾,因为推理更有效的模型往往难以遵守用户指令。我们发现,在蒸馏的长思维链上进行微调或使用面向推理的强化学习训练的模型,其指令遵循能力通常会下降,尤其是在生成长度增加时。

2025-06-05 08:30:00 433

原创 APOLLO: Automated LLM and Lean Collaboration for Advanced Formal Reasoning

本文提出了APOLLO系统,这是一种将大型语言模型(LLM)与Lean形式验证系统相结合的自动化定理证明框架,旨在解决传统方法中LLM生成证明效率低、错误率高的问题。APOLLO通过模块化流程实现了对LLM生成证明的自动化修复,具体包括语法修正(Syntax Refiner)、错误块隔离(Sorrifier)、自动求解(Auto Solver)和递归修复(Recursive repair)等步骤。

2025-06-04 09:30:00 146

原创 A Reputation System for Large Language Model-based Multi-agent Systems to Avoid the Tragedy

本文聚焦于基于大语言模型的多智能体系统(Generative Multi-Agent Systems, MASs)中“公地悲剧”问题,提出动态双层声誉框架RepuNet,通过智能体层面的声誉动态和系统层面的网络演化,结合直接交互与间接 gossip 机制,有效促进合作并避免资源过度开发。实验验证了RepuNet在资源共享和投资博弈场景中的有效性,揭示了合作集群形成、剥削者孤立及正向 gossip 偏好等新兴现象。摘要公地悲剧(个人自利导致集体灾难性后果)是人类社会普遍存在的挑战。

2025-06-04 08:30:00 107

原创 Theatrical Language Processing: Exploring AI-Augmented Improvisational Acting and Scriptwriting

本文提出了戏剧语言处理(Theatrical Language Processing, TLP)概念,并开发了AI创意支持工具,旨在通过人机交互提升演员的即兴表演创造力。AI生成的非常规场景能激发演员创造力,迫使其应对陌生情境,提升问题解决能力;AI的不可预测性增强了表演的 spontaneity,但过度详细的脚本会限制演员对潜台词的探索空间;工具优势:快速生成定制化剧本,突破传统脚本的重复性和局限性,为即兴训练提供新范式。人工智能的日益融合开辟了新途径,包括其在增强创造力方面的新兴作用。

2025-06-03 09:30:00 20

原创 Evolutionary thoughts: integration of large language models and evolutionary algorithms

本文提出将大型语言模型(LLMs)与进化算法(EAs)结合,以解决复杂问题中的优化和函数合成任务。研究设计了四个难度递增的任务(计数、最大-最小值、逆序、排序),要求算法通过输入-输出对推断映射函数。LLM引导的进化搜索:利用LLM生成初始种群个体和优化变异操作,减少搜索空间的随机性,提升候选解的质量。高效评估框架:开发基于C++和CUDA的快速评估系统,支持多核CPU和GPU加速,解决大规模种群评估的计算瓶颈。实验验证。

2025-06-03 08:30:00 336

原创 Adaptive Stress Testing Black-Box LLM Planners

大型语言模型(LLMs)最近在跨决策任务(包括规划、控制和预测)的泛化能力上取得了成功,但其产生不安全和非预期输出的“幻觉”倾向带来了风险。我们认为,检测此类故障是必要的,尤其是在安全关键场景中。现有的黑箱方法通常通过识别多个样本间的不一致性来检测幻觉,这些方法通常引入提示扰动,如随机化细节顺序或生成对抗性输入,其核心思想是自信的模型应产生稳定的输出。我们首先通过手动案例研究表明,其他形式的扰动(如添加噪声、移除传感器细节)会导致LLMs在驾驶环境中产生幻觉。

2025-06-02 09:30:00 108

原创 KG-HTC: Integrating Knowledge Graphs into LLMs for Effective Zero-shot Hierarchical Text

本文提出了一种名为KG-HTC的零样本层次文本分类方法,旨在解决层次文本分类(HTC)中数据标注成本高、标签空间大、长尾分布等问题。该方法通过将知识图谱(KG)与大型语言模型(LLM)结合,利用检索增强生成(RAG)框架从知识图谱中动态检索与输入文本语义相关的子图,并将其转换为结构化提示,引导LLM进行层次分类。实验在三个公开数据集(WoS、Dbpedia、Amazon)上表明,KG-HTC在严格零样本设置下显著优于基线方法,尤其在深层标签分类中表现更佳。

2025-06-02 08:30:00 198

原创 LITRANSPROQA: An LLM-based LITerary TRANSlation Evaluation Metric with PROfessional Question

本文聚焦于文学翻译评估领域,针对现有评估指标过度关注机械准确性、忽视艺术性表达及文化真实性的问题,提出了一种基于大语言模型(LLM)的新型评估框架。该框架通过整合专业文学译者和研究者的见解,设计了一套针对文学翻译核心要素(如文学手法、文化理解、语气等)的问答体系,无需参考译文即可评估翻译质量。

2025-06-01 09:30:00 82

原创 QualBench: Benchmarking Chinese LLMs with Localized Professional Qualifications for Vertical Domain

本文聚焦于中文大语言模型(LLMs)在垂直领域的评估问题,提出了首个基于中国本土职业资格考试的多领域中文问答基准QualBench。数据集覆盖安全生产、消防安全、建筑工程、经济金融、石油天然气、银行保险6个垂直领域,包含来自24项职业资格考试的17,298道题目,强调本地化和政策一致性。通过实验评估发现,中文LLM(如Qwen2.5)在本土领域知识上显著优于非中文模型(如GPT-4o),但最高准确率仅75.26%,表明模型在专业知识覆盖上仍有不足。

2025-06-01 08:30:00 126

原创 Exploring the Feasibility of Multilingual Grammatical Error Correction with a Single LLM up to 9B

本文围绕17个参数不超过90亿的大型语言模型(LLMs)在英语、德语、意大利语和瑞典语这四种语言的多语言语法错误纠正(GEC)任务中的性能展开研究,旨在探索单个模型处理多种语言语法纠错的可行性,并对不同模型的表现进行对比分析。近期的语言模型能够成功解决各种与语言相关的任务,并且许多模型能够理解以不同语言表述的输入。在本文中,我们探讨了17种流行模型在使用单一模型纠正英语、德语、意大利语和瑞典语文本中的语法问题时的性能。我们分析了这些模型生成的输出,重点在于减少语法错误的数量,同时保持较小的修改幅度。

2025-05-31 09:30:00 123

C语言编程实例100题

里面有C语言程序示例,没有100个,但是个个讲的都很好,对于初学者帮助很大。。

2012-03-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除