
LLM Explainability
文章平均质量分 62
UnknownBody
AI博士,最近一直follow大模型相关论文,每日会更新学术界论文的进展。
展开
-
Do Large Language Models Know How Much They Know?
大型语言模型(LLM)已经成为功能强大的系统,并且越来越多地被集成到各种用途中。然而,其部署速度之快超过了对其内部机制的全面了解以及对其能力和局限性的界定。智能系统的一个理想属性是它识别自身知识范围的能力。为了研究LLM是否体现了这一特征,我们开发了一个基准测试,旨在挑战这些模型,以枚举它们在特定主题上拥有的所有信息。该基准评估模型是否回忆起过多、不足或精确的信息量,从而表明他们对自己知识的认识。我们的研究结果表明,所有经过测试的LLM,如果规模足够大,都表明他们对特定主题的了解程度。原创 2025-03-04 09:00:00 · 133 阅读 · 0 评论 -
A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models Safety, Consensus, Objectivity,
适用于医疗保健领域大型语言模型 (LLM) 的综合定性评估框架,其扩展范围超出了所需的传统准确性和定量指标。我们提出了评估 LLM 的 5 个关键方面:安全性、共识性、客观性、可重复性和可解释性 (S.C.O.R.E.)。我们建议 S.C.O.R.E. 可以成为未来基于 LLM 的模型的评估框架的基础,这些模型对于医疗保健和临床应用来说是安全、可靠、值得信赖和合乎道德的。原创 2024-09-30 12:30:30 · 277 阅读 · 0 评论 -
Unlocking the Future: Exploring Look-Ahead Planning Mechanistic Interpretability in LLM
规划作为智能体的核心模块,在具身智能体、网页导航、工具使用等各个领域都至关重要。随着大型语言模型 (LLM) 的发展,一些研究人员将大型语言模型视为智能代理,以刺激和评估其规划能力。然而,规划机制仍不清楚。在这项工作中,我们专注于从信息流和内部表示的角度探索大型语言模型中的前瞻性规划机制。首先,我们通过分析最后一个标记处的多层感知 (MLP) 和多头自我注意 (MHSA) 组件来研究如何在内部进行规划。我们发现,在最后一个 token 的中间层 MHSA 的输出可以在一定程度上直接解码决策。原创 2024-09-10 15:04:56 · 210 阅读 · 0 评论 -
A Causal Explainable Guardrails for Large Language Models
大型语言模型 (LLM) 在自然语言任务中表现出令人印象深刻的性能,但它们的输出可能会表现出不良属性或偏差。将 LLM 引导至所需属性的现有方法通常假定无偏见的表示,并且仅依赖于转向提示。然而,从预训练中学到的表示可能会引入影响转向过程的语义偏差,从而导致次优结果。我们提出了 LLMGuardrail,这是一个新颖的框架,它结合了因果分析和对抗性学习,以在 LLM 中获得无偏的转向表示。LLMGuardrail 系统地识别并阻止了偏见的混杂效应,从而能够提取无偏的转向表示。原创 2024-09-07 11:11:02 · 281 阅读 · 0 评论 -
A Question on the Explainability of Large Language Models and the Word-Level Univariate First-Order
最近,大型语言模型的解释被证明对其训练中使用的随机性很敏感,这就需要描述这种敏感性。在本文中,我们提出了一个特征,质疑为此类模型提供简单和信息性解释的可能性。为此,我们给出了解释的信号、噪声和信噪比的统计定义。我们强调,在一个典型的案例研究中,使用一阶统计工具分析单词水平的单变量解释,简单的基于特征的模型的解释比transformer模型的解释携带更多的信号和更少的噪声。然后,我们讨论了用信号和噪声的替代定义来改进这些结果的可能性,这些定义将捕捉更复杂的解释和分析方法,同时也质疑读者对其合理性的权衡。原创 2024-05-30 17:01:08 · 56 阅读 · 0 评论 -
Do Machines and Humans Focus on Similar Code? Exploring Explainability of Large Language Models
摘要1 引言2 背景和相关工作3 实验设计4 结果5 结论最近的语言模型已经证明了在总结源代码方面的熟练程度。然而,与机器学习的许多其他领域一样,代码的语言模型缺乏足够的可解释性。非正式地说,我们对模型从代码中学习什么以及如何学习缺乏公式化或直观的理解。如果当模型学习生成更高质量的代码摘要时,它们也一致认为与人类程序员识别的代码部分相同的代码部分很重要,那么语言模型的可解释性就可以部分提供。在本文中,我们报告了从人类理解的角度研究代码摘要中语言模型的可解释性的负面结果。原创 2024-04-05 15:05:11 · 73 阅读 · 0 评论 -
Large Language Models As Faithful Explainers
大型语言模型(LLM)最近通过利用其丰富的内部知识和推理能力,熟练地处理复杂的任务。因此,这种复杂性阻碍了传统的以输入为中心的解释算法来解释LLM的复杂决策过程。因此,通过自然语言格式的单一前馈推理来自我解释其预测的最新进展已经出现。然而,自然语言解释往往因缺乏忠实性而受到批评,因为这些解释可能无法准确反映LLM的决策行为。在这项工作中,我们引入了一个生成解释框架xLLM,以提高LLM的自然语言格式解释的可信度。原创 2024-04-02 10:12:55 · 74 阅读 · 0 评论 -
Rethinking Interpretability in the Era of Large Language Models
在过去的十年里,由于越来越大的数据集和深度神经网络的兴起,可解释机器学习已经成为一个令人感兴趣的领域。同时,大型语言模型(LLM)在一系列任务中表现出了非凡的能力,为重新思考可解释机器学习的机会提供了机会。值得注意的是,用自然语言解释的能力使LLM能够扩展人类模式的规模和复杂性。然而,这些新功能带来了新的挑战,例如幻觉般的解释和巨大的计算成本。在这篇立场文件中,我们首先回顾了评估LLM解释新兴领域的现有方法(包括解释LLM和使用LLM进行解释)。原创 2024-03-07 09:13:13 · 230 阅读 · 0 评论 -
From Understanding to Utilization: A Survey on Explainability for Large Language Models
大型语言模型(LLM)的可解释性是自然语言处理的一个关键但具有挑战性的方面。随着LLM越来越成为各种应用程序的组成部分,其“黑匣子”性质引发了人们对透明度和道德使用的重大担忧。这项调查强调了提高LLM可解释性的必要性,深入研究了可解释性研究以及利用对这些模型的理解的各种方法和任务。我们的重点主要是预训练的基于Transformer的LLM,如LLaMA,由于其规模和复杂性,它们带来了独特的可解释性挑战。根据现有的方法,我们根据其解释目标将其分为局部分析和全局分析。原创 2024-02-28 16:22:48 · 466 阅读 · 0 评论