- 博客(2079)
- 资源 (1)
- 收藏
- 关注
原创 Large Language Models as Span Annotators
对于高质量文本,单分数指标很少能提供可操作的反馈。相比之下,跨度注释——通过标注文本中的片段来指出问题——可以指导改进并提供见解。直到最近,跨度注释还局限于人工标注或微调的编码器模型。在本研究中,我们使用大语言模型(LLMs)实现跨度注释自动化。我们在三个任务上比较了专家或熟练的众包工作者注释与开源和专有大语言模型:数据到文本生成评估、机器翻译评估以及人类撰写文本中的宣传检测。在实验中,我们表明,作为跨度注释器的大语言模型易于实现,并且比人工注释者成本效益高得多。
2025-05-03 09:30:00
4
原创 Large Language Models Could Be Rote Learners
选择题(MCQ)基准广泛用于评估大语言模型(LLMs),但其可靠性受到基准污染的影响。在本研究中,我们将污染重新定义为学习的一个固有方面,并试图在LLM评估中区分真正的能力获取和表面的记忆。首先,通过分析模型在不同记忆条件下的性能,我们发现了一个违反直觉的趋势:LLMs在记忆的MCQ上的表现比在非记忆的MCQ上更差,这表明存在两种不同的学习现象,即死记硬背和真正的能力学习。
2025-05-03 08:30:00
185
原创 Beyond Self-Reports: Multi-Observer Agents for Personality Assessment in Large Language Models
评估大语言模型(LLMs)的人格特质受到越来越多的关注。然而,传统基于自我报告问卷的人格评估方法,可能由于内在偏差和元知识污染,无法捕捉其真实的行为细微差别。本文引入了一种新颖的多观察者框架,用于LLMs的人格评估,该框架受到心理学中知情者报告方法的启发。我们的方法不是仅仅依赖自我评估,而是使用多个配置了特定关系情境(如家庭、朋友或工作场所)的观察者代理,来模拟与主体LLM的互动场景。这些观察者进行对话,随后在大五人格维度上给出评分。我们的实验表明,LLMs在自我报告的人格评分中存在系统性偏差。
2025-05-02 09:30:00
103
原创 Fast-Slow-Thinking: Complex Task Solving with Large Language Models
如今,大语言模型(LLMs)已逐渐被用于解决复杂任务。为应对这一挑战,任务分解成为一种有效方法,它将复杂任务分解为多个更简单的子任务,然后分别求解,从而降低原任务的难度。然而,当任务包含过于复杂的逻辑和约束时,现有任务分解方法的性能可能并不理想。在这种情况下,大语言模型生成的解决方案可能偏离任务的初衷,或包含冗余甚至错误的内容。
2025-05-02 08:30:00
75
原创 Quantum Large Language Model Fine-Tuning
我们介绍了一种用于大语言模型微调的混合量子 - 经典深度学习架构。该架构的经典部分是一个句子转换器,其功能强大,足以在情感预测等复杂任务中展现出较高的准确率。架构的量子部分由参数化量子电路组成,这些电路利用了量子比特之间的长程连接。我们分析了混合模型在各种超参数设置下的性能,包括量子比特数、量子电路深度、学习率、重上传步数等。基于主效应筛选研究,我们发现与可比的经典基线相比,预测准确率总体有所提高,且准确率有随量子比特数增加而上升的趋势。
2025-05-01 12:25:04
79
原创 How Good Are Large Language Models for Course Recommendation in MOOCs?
大语言模型(LLMs)在自然语言处理方面取得了重大进展,并越来越多地被整合到推荐系统中。然而,它们在教育推荐系统中的潜力尚未得到充分探索。本文研究了将大语言模型用作通用推荐模型,利用其从大规模语料库中获得的广泛知识来完成课程推荐任务。我们探索了多种方法,从基于提示的方法到更先进的微调技术,并将它们的性能与传统推荐模型进行比较。在一个真实的MOOC数据集上进行了广泛的实验,从准确性、多样性和新颖性等关键维度评估了使用大语言模型作为课程推荐系统的效果。
2025-05-01 12:24:31
138
原创 TP-RAG: Benchmarking Retrieval-Augmented Large Language Model Agents for Spatiotemporal-Aware
大语言模型(LLMs)在实现旅行规划自动化方面展现出了潜力,然而,它们在处理细致的时空合理性问题上往往表现欠佳。尽管现有的基准测试聚焦于基本的规划有效性,但却忽略了诸如路线效率、兴趣点(POI)吸引力以及实时适应性等关键方面。本文引入了TP - RAG,这是首个专为检索增强且具有时空感知能力的旅行规划而设计的基准测试。我们的数据集包含2348个真实世界的旅行查询、85575个经过精细标注的兴趣点以及18784条源自在线旅游文档的高质量旅行轨迹参考,支持动态且具有上下文感知的规划。
2025-04-30 10:55:46
305
原创 Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems
我们提出了REC-R1,一个通过闭环优化将大型语言模型(LLM)与推荐系统相结合的通用强化学习框架。与提示和监督微调(SFT)不同,REC-R1直接利用固定黑盒推荐模型的反馈优化LLM生成,无需依赖GPT-4o等专有模型生成的合成SFT数据,从而避免了数据蒸馏的高成本。为验证有效性,我们在商品搜索和序列推荐两个代表性任务上进行了评估。实验表明,REC-R1不仅持续优于基于提示和SFT的方法,还在使用BM25等简单检索器时显著超越强判别式基线。
2025-04-30 10:54:58
87
原创 Adopting Large Language Models to Automated System Integration
现代企业计算系统集成众多子系统,通过产生涌现行为来完成共同任务。一种广泛采用的方法是使用基于REST或OpenAPI等Web技术实现的服务,它们分别提供了交互机制和服务文档标准。每个服务代表特定的业务功能,便于封装和维护。尽管单个服务的维护成本降低,但集成复杂性却增加了。因此,出现了自动服务组合方法来缓解这一问题。然而,由于这些方法依赖复杂的形式建模,在实践中并未得到高度认可。在本博士论文中,我们分析了大语言模型(LLMs)在基于自然语言输入自动集成服务方面的应用。
2025-04-29 09:30:00
140
原创 OrchMLLM: Orchestrate Multimodal Data with Batch Post-Balancing to Accelerate Multimodal LLM
本文提出了一种用于多模态大语言模型(MLLM)训练的高效框架OrchMLLM,旨在解决模态组成不一致(Modality Composition Incoherence)导致的训练效率问题。研究发现,不同模态数据在批次中的比例剧烈变化会加剧小批量不平衡,导致数据并行(DP)实例间的GPU利用率不均。批后平衡调度器(Batch Post-Balancing Dispatcher)提出多种批后平衡算法,动态调整小批量分布以消除计算负载差异。
2025-04-29 08:30:00
90
原创 ReaLM: Reliable and Efficient Large Language Model Inference with Statistical Algorithm-Based Fault
本文提出ReaLM框架,首次通过大规模错误注入实验系统分析LLM的容错特性,提出基于统计的ABFT算法,并定制低成本在线错误检测电路。基于此,设计了统计ABFT算法和低成本检测电路,在保持模型性能的同时,实现最高35.83%的能效提升。本文提出ReaLM框架,首次系统性分析LLM的容错特性,发现归一化操作后的组件对错误更敏感,并揭示错误频率与幅度的权衡关系。本文提出了一种名为ReaLM的算法/电路协同设计框架,旨在通过利用大型语言模型(LLM)的固有容错性,实现高效且可靠的LLM推理。
2025-04-28 09:30:00
466
原创 TickIt: Leveraging Large Language Models for Automated Ticket Escalation
在大规模云服务系统中,支持工单是解决客户问题、维护服务质量的关键机制。然而,传统的手动工单升级流程面临重大挑战,包括效率低、准确性差,以及难以处理大量复杂的工单。尽管先前的研究提出了各种用于工单分类的机器学习模型,但这些方法往往忽视了现实世界中工单升级的实际需求,如动态工单更新、特定主题的路由以及工单关系分析。为了填补这一空白,本文引入了TickIt,这是一种由大语言模型驱动的创新在线工单升级框架。
2025-04-28 08:30:00
112
原创 Large Language Models Pass the Turing Test
研究目的:通过随机对照的三方图灵测试,验证当代大型语言模型(LLMs)能否与人类区分。实验设计参与者:126名UCSD本科生和158名Prolific平台用户。模型:ELIZA(规则型)、GPT-4o、LLaMA-3.1-405B、GPT-4.5。提示策略:分为无角色(NO-PERSONA)和拟人化角色(PERSONA)两种提示。测试流程:每个参与者作为审讯者进行8轮对话,每轮同时与人类和AI交互,判断谁是人类。主要发现:73%的胜率(显著高于人类被选中的概率)。
2025-04-27 09:30:00
125
原创 Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems
我们提出了REC-R1,一个通过闭环优化将大型语言模型(LLM)与推荐系统相结合的通用强化学习框架。与提示和监督微调(SFT)不同,REC-R1直接利用固定黑盒推荐模型的反馈优化LLM生成,无需依赖GPT-4o等专有模型生成的合成SFT数据,从而避免了数据蒸馏的高成本。为验证有效性,我们在商品搜索和序列推荐两个代表性任务上进行了评估。实验表明,REC-R1不仅持续优于基于提示和SFT的方法,还在使用BM25等简单检索器时显著超越强判别式基线。
2025-04-27 08:30:00
81
原创 Harnessing the Reasoning Economy A Survey of Efficient Reasoning for Large Language Models
本文系统探讨了大型语言模型(LLMs)在推理任务中的推理经济性问题,即在提升推理能力的同时优化计算成本。基础分析训练后方法:通过监督微调(SFT)和强化学习(RL)塑造模型行为,如过程奖励模型(PRM)和结果奖励模型(ORM)的设计。测试时策略:并行方法(如自洽性)和顺序方法(如思维链、树搜索)的对比与优化。挑战分析模型行为低效:长度偏差(冗余推理)、欺骗性思维(表面推理但无效)。测试时资源浪费:算法选择不当(如固定采样策略)、计算预算分配不合理。解决方案训练后优化数据:构建高质量推理数据集。
2025-04-26 09:30:00
118
原创 Enhancing Large Language Models (LLMs) for Telecommunications using Knowledge Graphs
本文提出了一种结合知识图谱(KG)和检索增强生成(RAG)的框架(KG-RAG),旨在提升大型语言模型(LLM)在电信领域的专业能力。传统LLM在通用任务表现出色,但在电信等专业领域存在知识更新滞后、结构化推理不足等问题。作者通过构建电信领域KG,整合网络协议、标准、硬件组件等实体及其关系,并通过RAG动态检索相关知识片段,辅助LLM生成更精准的回答。实验表明,KG-RAG在Tspec-LLM数据集上的问答准确率达88%,显著优于RAG-only(82%)和LLM-only(48%)。
2025-04-26 08:30:00
189
原创 RETHINKING KEY-VALUE CACHE COMPRESSION TECHNIQUES FOR LARGE LANGUAGE MODEL SERVING
本文从实际部署角度重新审视了大型语言模型(LLM)服务中的键值缓存(KV cache)压缩技术,指出当前研究在性能评估中的不足,并通过实验揭示了压缩技术在计算效率、输出长度和准确性方面的关键问题。全面综述:系统梳理了量化和稀疏性两类KV缓存压缩算法的设计与评估基准,指出了现有研究在吞吐量、输出长度分布和负样本分析上的缺失。实验发现计算效率:现有压缩方法在特定批处理大小和序列长度下性能下降,且与主流优化框架(如FlashAttention和PagedAttention)集成时效果减弱。输出长度。
2025-04-25 09:30:00
98
原创 Mapping Geopolitical Bias in 11 Large Language Models
本研究通过分析11个主流大型语言模型(LLM)对中美关系七大关键议题的响应,系统评估了地缘政治偏见。采用双语(英语/中文)和双重框架(肯定/反向)方法,生成19,712条提示以检测模型输出的意识形态倾向。响应通过-2(强烈亲中)到+2(强烈亲美)的标准化量表进行量化,并根据立场、中立性和拒绝率进行分类。结果显示模型立场与地域显著相关:美国模型普遍亲美,中国模型表现出明显的亲中偏见。值得注意的是,语言和提示框架对模型响应有重大影响,多个模型在提示极性或语言环境变化时出现立场反转。
2025-04-25 08:30:00
131
原创 LLM4FS: Leveraging Large Language Models for Feature Selection and How to Improve It
本文探讨了利用大型语言模型(LLMs)进行特征选择的潜力,并提出了一种名为LLM4FS的混合策略。LLM性能评估:对比了DeepSeek-R1、GPT-o3mini和GPT-4.5在特征选择任务中的表现,发现DeepSeek-R1与GPT-4.5性能接近,且成本更低。混合策略LLM4FS:通过让LLM直接调用传统数据驱动方法(如随机森林、前向/后向选择等),结合LLM的语义推理能力和传统方法的统计可靠性,显著提升特征选择效果。实验验证。
2025-04-24 22:02:45
150
原创 What, How, Where, and How Well? A Survey on Test-Time Scaling in Large Language Models
该论文系统综述了大型语言模型(LLM)在测试时扩展(Test-Time Scaling, TTS)的最新研究进展,提出了一个四维分析框架(What, How, Where, How Well),并对现有方法进行了结构化分类和深入分析。四维框架:明确测试时扩展的具体形式,分为并行扩展(生成多解)、序列扩展(逐步推理)、混合扩展(结合前两者)和内部扩展(模型自主分配计算)。:探讨实现方法,包括微调(监督微调、强化学习)和推理策略(刺激生成、验证、搜索、聚合)。
2025-04-24 21:54:02
92
原创 TALE: A Tool-Augmented Framework for Reference-Free Evaluation of Large Language Models
随着大语言模型(LLMs)越来越多地融入现实世界的自主应用中,依靠静态的、预先标注的参考来进行评估在成本、可扩展性和完整性方面面临重大挑战。我们提出了工具增强的大语言模型评估(TALE)框架,用于在没有预定标准答案的情况下评估大语言模型的输出。与传统的与固定参考进行比较或仅依赖大语言模型作为评判者的知识的评估指标不同,TALE采用了具有工具访问能力的智能体,该智能体主动检索和合成外部证据。它通过迭代生成网络查询、收集信息、总结结果,并通过反思优化后续搜索。
2025-04-23 09:30:00
560
原创 Emergence of psychopathological computations in large language models
大语言模型(LLMs)能否实现精神病理学计算?回答这个问题的有效方法取决于两个因素。第一,在概念效度方面,我们需要一个适用于没有生物实体或主观体验的计算实体的通用精神病理学计算解释。第二,为了提高方法效度,需要研究LLM行为背后的机制。因此,我们建立了一个计算理论框架,以提供适用于LLMs的精神病理学解释。为了将该理论用于实证分析,我们还提出了一种新的机制可解释性方法以及量身定制的实证分析框架。基于这些框架,我们进行了实验,证明了三个关键主张:第一,LLMs中存在不同的功能失调和问题表征状态;
2025-04-23 08:30:00
87
原创 PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models
大语言模型(LLMs)在广泛的应用领域展现出卓越的性能,如医疗问答、数学科学和代码生成等。然而,它们也存在固有的局限性,例如知识过时和易产生幻觉。检索增强生成(RAG)已成为解决这些问题的一种有前景的范式,但它也引入了新的漏洞。最近的研究集中在基于RAG的大语言模型的安全性上,然而现有的攻击方法面临三个关键挑战:(1)当只有有限数量的中毒文本可以注入到知识库中时,它们的有效性会急剧下降;(2)它们缺乏足够的隐蔽性,因为攻击往往能被异常检测系统检测到,这损害了其有效性;
2025-04-22 09:30:00
92
原创 PANGU ULTRA: PUSHING THE LIMITS OF DENSE LARGE LANGUAGE MODELS ON ASCEND NPUS
我们提出了Pangu Ultra,这是一个拥有1350亿参数的大语言模型(LLM),其密集型Transformer模块在Ascend神经网络处理单元(NPU)上进行训练。尽管近年来大语言模型领域在扩展模型规模和能力方面取得了前所未有的进展,但训练如此大规模的模型仍面临重大的优化和系统挑战。为了稳定训练过程,我们提出了深度缩放三明治归一化方法,该方法有效地消除了深度模型训练过程中的损失尖峰。我们在13.2万亿多样且高质量的词元上对模型进行预训练,并在训练后进一步增强其推理能力。
2025-04-22 08:30:00
125
原创 Why We Feel: Breaking Boundaries in Emotional Reasoning with Multimodal Large Language Models
大多数现有的情感分析都侧重于哪种情感出现(例如,快乐、悲伤、愤怒),但忽略了更深层次的原因。我们提出情感解释(EI),重点关注驱动情感反应的因果因素,这些因素既可以是显性的(例如,可观察到的物体、人际互动),也可以是隐性的(例如,文化背景、画面外的事件)。与传统的情感识别不同,EI任务需要对触发因素进行推理,而不仅仅是进行标注。为了推动EI研究,我们展示了EIBench,这是一个大规模的基准测试,包含1615个基本EI样本和50个具有多方面情感的复杂EI样本。每个实例都需要基于推理的解释,而不是简单的分类。
2025-04-21 09:30:00
175
原创 Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models
大语言模型(LLMs)在各种应用中展现出卓越的性能,但它们会不经意地从训练数据中吸收虚假相关性,导致有偏差的概念与特定社会群体之间产生刻板印象关联。这些关联延续甚至放大了有害的社会偏见,引发了对公平性的严重关切,而公平性是软件工程中的一个关键问题。为了减轻此类偏差,先前的研究尝试在推理过程中将模型嵌入投影到无偏差空间,但由于这些方法与下游社会偏见的一致性较弱,效果有限。
2025-04-21 08:30:00
137
原创 Empowering Large Language Models with 3D Situation Awareness
受大语言模型(LLMs)在2D图像领域巨大成功的推动,其在3D场景理解中的应用已成为一种新趋势。3D与2D的一个关键区别在于,3D场景中以自我为中心的观察者的情境可能会发生变化,从而导致不同的描述(例如,“左边”或“右边”)。然而,当前基于LLM的方法忽略了自我中心视角,并且使用的是从全局视角获取的数据集。为了解决这个问题,我们提出了一种新颖的方法,通过利用数据收集过程中的扫描轨迹自动生成一个情境感知数据集,并利用视觉语言模型(VLMs)生成高质量的描述和问答对。
2025-04-20 09:30:00
142
原创 A Multi-agent Onboarding Assistant based on Large Language Models, Retrieval Augmented Generation
在软件工程中,有效的入职培训至关重要,但由于技术的快速发展,这一过程颇具难度。传统方法,如探索和研讨会,成本高昂、耗时费力,在大型项目中很快就会过时。我们提出了入职伙伴(Onboarding Buddy)系统,该系统利用大语言模型、检索增强生成以及自动化思维链方法来改进入职培训。它在开发环境中集成了动态的、特定上下文的支持,提供自然语言解释、代码见解和项目指导。我们的解决方案基于代理,能在最少人工干预的情况下提供定制化帮助。
2025-04-20 08:30:00
86
原创 When LLM Therapists Become Salespeople: Evaluating Large Language Models for Ethical Motivational
大语言模型(LLMs)已在心理健康领域得到积极应用。近期研究显示,LLMs在应用心理治疗,尤其是动机性访谈(MI)方面具有潜力。然而,目前缺乏关于语言模型如何理解MI伦理的研究。鉴于恶意行为者可能利用语言模型将MI用于不道德目的的风险,评估它们区分道德和不道德MI实践的能力至关重要。因此,本研究通过多项实验探究LLMs在MI中的伦理意识。我们的研究结果表明,LLMs在MI方面具有中等到较强的知识水平。然而,它们的伦理标准与MI精神并不一致,因为它们会生成不道德的回应,并且在检测不道德回应方面表现不佳。
2025-04-19 09:30:00
70
原创 Question-Aware Knowledge Graph Prompting for Enhancing Large Language Models
大语言模型(LLMs)在处理需要外部知识的任务时常常面临挑战,例如知识密集型多选问答(MCQA)任务。整合知识图谱(KGs)可以增强推理能力;然而,现有方法通常需要进行代价高昂的微调,或者会检索到有噪声的KG信息。最近的方法利用图神经网络(GNNs)生成基于KG的输入嵌入前缀作为LLMs的软提示,但未能考虑问题的相关性,导致提示存在噪声。此外,在MCQA任务中,某些答案选项缺乏相关的KG知识仍然是一个重大挑战。
2025-04-19 08:30:00
131
原创 Benchmarking Systematic Relational Reasoning with Large Language and Reasoning Models
大语言模型(LLMs)被发现难以进行系统推理。即使在它们看似表现良好的任务上,其性能往往也依赖于捷径,而非真正的推理能力,这导致它们在分布外的示例上表现崩溃。最近,基于强化学习和思维链提示的后训练策略被视为一种突破性进展。然而,除了在数学和编程领域的问题解决中,人们对由此产生的“大推理模型”(LRMs)的潜力仍知之甚少,在这些领域中找到真正的分布外问题可能很困难。在本文中,我们专注于需要对关系组合进行系统推理的任务,特别是定性空间和时间推理。这些任务使我们能够控制问题实例的难度,并精确衡量模型的泛化程度。
2025-04-18 09:30:00
83
原创 Extracting Patient History from Clinical Text: A Comparative Study of Clinical Large Language Models
提取与患者主诉(CC)、现病史(HPI)以及既往、家族和社会史(PFSH)相关的病史实体(MHEs),有助于将非结构化的临床笔记整理成标准化的电子健康记录(EHRs),从而简化诸如医疗护理连续性管理、医疗编码和质量评估等下游任务。经过微调的临床大语言模型(cLLMs)可以协助这一过程,并且通过本地部署确保敏感数据的安全。本研究评估了cLLMs在识别与CC/HPI/PFSH相关的MHEs方面的性能,并研究了笔记特征对模型准确性的影响。
2025-04-18 08:30:00
120
原创 FeRG-LLM : Feature Engineering by Reason Generation Large Language Models
表格数据机器学习中的关键任务之一是特征工程。尽管它对提升模型性能至关重要,但需要大量的专业知识和深入的领域知识,是一项劳动密集型工作。为解决这一问题,我们提出了一种新颖的框架FeRG - LLM(基于推理生成的大语言模型特征工程),这是一个80亿参数规模的大语言模型,旨在自动执行特征工程。我们构建了两阶段的对话,使语言模型能够分析机器学习任务并发现新特征,展现其思维链(CoT)能力。
2025-04-17 09:30:00
106
原创 Large Language Models Are Better Logical Fallacy Reasoners with Counterargument, Explanation
大语言模型(LLMs)的发展极大地提升了我们处理复杂语言的能力。然而,准确检测逻辑谬误仍然是一项重大挑战。本研究提出了一种新颖且有效的逻辑谬误检测提示制定方法,适用于有监督(微调)和无监督(零样本)设置。我们的方法通过融入隐含上下文信息(反论点、解释和目标)来丰富输入文本,这些信息是我们在论点背景下对其有效性进行查询的依据。然后,我们根据置信度分数对这些查询进行排序,为分类提供参考。我们使用GPT和LLaMA系列模型,在来自5个领域的多个数据集上对我们的方法进行评估,这些数据集涵盖29种不同的谬误类型。
2025-04-17 08:30:00
112
原创 PromptDistill: Query-based Selective Token Retention in Intermediate Layers for Efficient LLM
选定token的隐藏状态已从早期层的自注意力中捕获了上下文信息,使我们能够在无需额外计算的情况下保留更全面的上下文和模型的原始结构。为解决这一问题,我们提出PromptDistill,这是一种新颖的、无需训练的方法,可在保持生成质量的同时提高推理效率。以及GemFilter,它在不考虑上下文依赖的情况下选择初始提示的固定部分)不同,PromptDistill在保持对输入全局感知的同时,动态地将计算资源分配给最相关的token。此外,我们对多阶段选择的探索进一步提高了效率,同时保持了模型的有效性。
2025-04-16 09:30:00
94
原创 BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models
在本研究中,我们引入了BEATS,这是一个用于评估大语言模型(LLMs)中的偏见、伦理、公平性和真实性的全新框架。基于BEATS框架,我们提出了一个针对LLMs的偏见基准,该基准通过29个不同的指标来衡量模型性能。这些指标涵盖广泛的特征,包括人口统计学、认知和社会偏见,以及伦理推理、群体公平性的度量和与真实性相关的错误信息风险。这些指标能够定量评估LLM生成的响应在多大程度上可能延续社会偏见,进而强化或扩大系统性不平等。
2025-04-16 08:30:00
124
原创 Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
本文提出了多语言问题解决基准,旨在评估大型语言模型(LLM)在跨编程语言场景下解决代码问题的能力。现有基准(如SWE-bench)主要聚焦Python,而Multi-SWE-bench覆盖了Java、TypeScript、JavaScript、Go、Rust、C、C++共7种语言,包含1,632个高质量实例,这些实例经过68位专家的严格人工注释和验证,确保了基准的可靠性和准确性。
2025-04-15 09:30:00
102
原创 ADVANCES AND CHALLENGES IN FOUNDATION AGENTS
本文系统探讨了基于大型语言模型(LLM)的基础智能体的最新进展与挑战,提出了一个受大脑启发的模块化框架,整合认知科学、神经科学和计算研究的原理。智能体核心组件(Part I)认知模块:分析学习、推理(结构化/非结构化)和规划能力,强调LLM在逻辑推理和任务分解中的作用。记忆系统:借鉴人类记忆分类(感官、短期、长期记忆),讨论记忆的获取、编码、存储和检索机制。世界模型:对比隐式、显式、模拟器驱动等范式,强调预测环境动态的重要性。奖励与情感建模。
2025-04-15 08:30:00
147
原创 JudgeLRM: Large Reasoning Models as a Judge
大型语言模型(LLM)作为评估者的兴起为人工标注提供了可扩展的替代方案,但现有针对评估者的监督微调(SFT)方法在需要复杂推理的领域往往表现不足。在这项工作中,我们研究了LLM评估者是否真正受益于增强的推理能力。通过对评估任务中推理需求的详细分析,我们发现SFT的性能提升与高推理需求样本的比例呈负相关,突显了SFT在此类场景中的局限性。为解决这一问题,我们引入JudgeLRM,这是一系列通过强化学习(RL)训练的面向判断的LLM,采用基于评估者的结果驱动奖励机制。
2025-04-14 09:30:00
155
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人