Kimi杨植麟署名新论文新注意力架构MoBA发布,代码公开

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。
在这里插入图片描述
为了方便大家阅读,只列出了论文标题、AMiner AI综述等信息,如果感兴趣可点击查看原文,PC端数据同步(收藏即可在PC端查看),每日新论文也可登录小程序查看。

如果想要对某篇论文进行深入对话,可以直接复制论文链接到浏览器上或者直达AMiner AI页面:
https://www.aminer.cn/chat/g/explain

MoBA: Mixture of Block Attention for Long-Context LLMs

【要点】:本文提出了一种新的注意力机制Mixture of Block Attention (MoBA),它结合了Mixture of Experts (MoE)的原理,能够在不牺牲性能的前提下,提高长文本场景下大型语言模型(LLM)的效率。
【方法】:作者通过将Mixture of Experts的原理应用于注意力机制,创建了MoBA模型,使模型能够自主决定关注点,而非引入预定义的偏差。
【实验】:在长文本场景下,作者使用MoBA模型进行了实验,数据集未明确提及,但模型已应用于Kimi的长文本请求中,结果显示MoBA在保持性能的同时,有效提高了计算效率。具体实验结果和细节未在摘要中描述。代码已在https://github.com/MoonshotAI/MoBA公开。
【链接】:https://www.aminer.cn/pub/67b6b77e163c01c85027c3a7

Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

【要点】:本文提出了ModernBERT,一种优化后的编码器模型,实现了在速度、内存效率及长文本上下文处理上的显著提升,并在多种任务上达到最先进的性能。
【方法】:ModernBERT通过将现代模型优化技术应用于编码器模型,提高了BERT的性能,并在2万亿个标记上进行训练,具备8192的原生序列长度。
【实验】:研究者在多个评价任务上对ModernBERT进行了测试,包括多样化分类任务以及不同领域的单向量和多向量检索,结果显示ModernBERT在速度和内存效率上领先,并针对常见GPU进行了优化设计。具体数据集名称未在摘要中提及。
【链接】:https://www.aminer.cn/pub/6763de14ae8580e7ff3487c3

AniDoc: Animation Creation Made Easier

【要点】:论文提出了AniDoc,一种利用生成AI降低2D动画制作劳动成本的工具,能够自动将草图序列转化为着色动画,并实现了自动补间动画的创新技术。
【方法】:AniDoc采用视频扩散模型作为基础,通过对应匹配显式指导,提高模型对参考角色和每一帧线稿之间变化的鲁棒性。
【实验】:研究者在实验中使用了自定义数据集,展示了AniDoc在将线稿自动着色以及自动化补间动画方面的效果,具体结果已通过代码和演示视频公开。
【链接】:https://www.aminer.cn/pub/6763de14ae8580e7ff348a0d

TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks

【要点】:本文介绍了TheAgentCompany,一个用于评估大型语言模型(LLM)代理在现实世界专业任务中性能的扩展性基准,发现当前系统可以自主解决简单任务,但难以处理更复杂的长周期任务。
【方法】:作者构建了一个模拟小型软件公司环境的自包含环境,并设计了多种可能由公司员工执行的任务,通过测试基于封闭API和开放权重语言模型(LM)的基线代理来评估其性能。
【实验】:在TheAgentCompany基准测试中,作者使用内部网站和数据,测试了基线代理在模拟真实工作场所环境下的表现,结果显示最优秀的代理在简单任务上表现出色,但在更复杂的任务上仍有局限。
【链接】:https://www.aminer.cn/pub/6763de14ae8580e7ff3489fd

No More Adam: Learning Rate Scaling at Initialization is All You Need

【要点】:本文提出了一种新的简单高效优化器SGD-SaI,通过在初始化时对学习率进行分组调整,无需依赖自适应二阶动量即可达到或超越自适应梯度方法如AdamW的性能。
【方法】:SGD-SaI通过对不同参数组在初始化时根据其梯度信号-噪声比(g-SNR)进行学习率缩放,从而优化训练过程。
【实验】:作者在多个任务上验证了SGD-SaI的效果,包括使用ImageNet-1K数据集进行ViT分类和GPT-2大规模语言模型预训练,结果显示SGD-SaI在性能上与AdamW相当或更优,同时在内存使用上相比AdamW减少了近一半,具体为GPT-2减少了5.93GB,Llama2-7B减少了25.15GB。
【链接】:https://www.aminer.cn/pub/6762315eae8580e7ff8ed69e

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值