- 博客(106)
- 资源 (5)
- 收藏
- 关注

原创 [全网首发中文版]LLM4Decompile: Decompiling Binary Code with Large Language Models
反编译是将已编译的机器代码或字节码转换回高级编程语言的过程。当源代码无法访问时,通常会这样做来分析软件的工作原理 Brumley 等人 (2013);Katz 等人 (2018);胡赛尼和多兰-加维特 (2022);徐等人 (2023);Armengol-Estapé 等人 (2023);江等人 (2023);黄等人(2023)。目前已经开发了许多反编译工具,例如 Ghidra Ghidra (2024) 和 IDA Pro Hex-Rays (2024)。
2024-03-18 15:01:05
2045

原创 [全网首发中文版]TextMonkey: An OCRFree Large Multimodal Model for Understanding Document
我们推出了 TextMonkey,这是一种专为以文本为中心的任务而定制的大型多模态模型 (LMM),包括文档问答 (DocVQA) 和场景文本分析。我们的方法引入了跨多个维度的增强:通过采用零初始化的转移窗口注意力,我们在更高的输入分辨率下实现了跨窗口连接并稳定了早期训练;我们假设图像可能包含冗余标记,通过使用相似性过滤掉重要标记,我们不仅可以简化词符长度,还可以提高模型的性能。此外,通过扩展模型的功能以涵盖文本识别和基础,并将位置信息纳入响应中,我们增强了可解释性并最大限度地减少幻觉。
2024-03-08 11:44:22
1901
1
原创 ChatGLM:A Family of Large Language Models from GLM-130B to GLM-4 All Tools
本文介绍了ChatGLM,这是一个不断发展的大型语言模型系列,我们一直在开发中。本报告主要关注GLM-4语言系列,包括GLM-4、GLM-4-Air和GLM-4-9B。这些代表了我们训练的最先进的模型,它们结合了之前三代ChatGLM的所有见解和经验教训。迄今为止,GLM-4模型主要在中文和英文上进行了预训练,使用了大约一万亿个token,以及来自24种语言的一小部分语料库,并主要针对中文和英文使用进行了优化。通过多阶段后训练过程,包括有监督的微调和从人类反馈中学习,实现了高质量的对齐。
2024-06-19 15:56:03
1361
原创 DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
我们介绍了DeepSeek-Coder-V2,这是一个开源的混合专家(MoE)代码语言模型,其性能与GPT4-Turbo在代码特定任务中相当。具体来说,DeepSeek-Coder-V2是从DeepSeek-V2的中间检查点进一步预训练而来,额外使用了6万亿个token。通过这种持续的预训练,DeepSeek-Coder-V2在编码和数学推理能力上大幅度增强了DeepSeek-V2的能力,同时在一般语言任务中保持了相当的性能。
2024-06-19 15:42:37
1582
原创 MDPO:Conditional Preference Optimization for Multimodal Large Language Models
直接偏好优化(DPO)已被证明是大型语言模型(LLM)对齐的有效方法。近期的研究尝试将DPO应用于多模态场景,但发现难以实现一致的改进。通过比较实验,我们确定了多模态偏好优化中的无条件偏好问题,即模型在优化过程中忽略了图像条件。为了解决这个问题,我们提出了MDPO,这是一个多模态DPO目标,它通过同时优化图像偏好来防止过度优先考虑仅基于语言的偏好。此外,我们引入了一个奖励锚点,强制奖励对于选定的响应为正,从而避免了它们的似然度降低——这是相对偏好优化的一个内在问题。
2024-06-18 17:24:40
1162
原创 ChartMimic: Evaluating LMM’s Cross-Modal Reasoning Capability via Chart-to-Code Generation
本文介绍了一个新的基准测试ChartMimic,旨在评估大型多模态模型(LMMs)的视觉基础代码生成能力。ChartMimic使用信息密集型的视觉图表和文本指令作为输入,要求LMMs生成相应的图表渲染代码。ChartMimic包含1000个人工策划的(图表,指令,代码)三元组,代表了在各个领域(如物理、计算机科学、经济学等)科学论文中发现的真实图表使用案例。这些图表涵盖了18种常规类型和4种高级类型,细分为191个子类别。此外,我们提出了多级评估指标,以自动全面评估输出代码和渲染图表。
2024-06-17 17:36:28
1116
原创 Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
我们介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效地部署在消费级GPU服务器上。我们的工作直接面对一个关键的行业问题,即通过解决阻碍大规模多模态系统广泛采用的高昂服务成本问题。通过严格的训练,我们从头开始开发了一个10亿规模的语言模型,采用LLaVA范式进行模态对齐。我们称之为Xmodel-VLM的结果是轻量级但功能强大的多模态视觉语言模型。在众多经典多模态基准测试中的广泛测试表明,尽管其体积更小、执行速度更快,但Xmodel-VLM的性能可与更大的模型相媲美。
2024-05-16 15:22:35
618
原创 Introducing Meta Llama 3: The most capable openly available LLM to date
我们希望解决开发人员的反馈,以提高 Llama 3 的整体实用性,并在这样做的同时继续在负责任地使用和部署 LLMs.我们正在接受尽早发布的开源精神,并经常发布,以使社区能够在这些模型仍在开发中时访问它们。在不久的将来,我们的目标是使 Llama 3 成为多语言和多模态的,具有更长的上下文,并继续提高推理和编码等核心LLM功能的整体性能。我们新的 8B 和 70B 参数 Llama 3 模型是 Llama 2 的重大飞跃,并为LLM这些规模的模型建立了新的最先进的技术。
2024-04-22 11:36:56
1690
原创 MeshLRM: Large Reconstruction Model for High-Quality Meshes
MeshLRM是一种新颖的基于LRM(Large Reconstruction Models)的方法,能够仅使用四张输入图像在不到一秒钟的时间内重建出高质量的网格。与以往侧重于基于NeRF重建的LRM不同,MeshLRM将可微分的网格提取和渲染集成到LRM框架中。这允许通过微调预训练的NeRF LRM与网格渲染来实现端到端的网格重建。此外,我们通过简化以前LRM中的几个复杂设计来改进LRM架构。MeshLRM的NeRF初始化是使用低分辨率和高分辨率图像顺序训练的;
2024-04-21 11:09:11
1417
原创 Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models
我们介绍了 Reka Core、Flash 和 Edge,这是一系列由 Reka 从头开始训练的强大多模态语言模型。Reka 模型能够处理和推理文本、图像、视频和音频输入。这份技术报告讨论了这些模型的一些训练细节,并提供了全面的评估结果。我们展示了 Reka Edge 和 Reka Flash 不仅是各自计算类别中的最新技术,而且还超过了许多更大的模型,为各自的计算类别提供了巨大的价值。同时,我们最有能力且最大的模型 Reka Core,在自动评估和盲人评估中接近最佳前沿模型(OpenAI, 2023;
2024-04-19 16:57:24
1191
原创 Dynamic Typography: Bringing Text to Life via Video Diffusion Prior
文本动画是一种表达媒介,通过将文字注入动态来转变静态的沟通方式,以此激发情感、强调含义并构建引人入胜的叙事。制作语义感知的动画面临重大挑战,需要图形设计和动画方面的专业知识。我们提出了一种自动化的文本动画方案,称为“动态排版”,它结合了两个具有挑战性的任务:将字母变形以传达语义意义,并根据用户提示赋予它们生动的运动。我们的技术利用矢量图形表示和一个端到端的基于优化的框架。该框架采用神经位移场将字母转换为基础形状,并应用每帧运动,鼓励与预期文本概念的一致性。
2024-04-19 16:53:29
1326
原创 LONG-FORM MUSIC GENERATION WITH LATENT DIFFUSION
音频生成模型在音乐领域取得了显著进展,但迄今为止尚未能够产生具有连贯音乐结构的完整长度音乐曲目。我们展示了通过在长时间上下文上训练生成模型,可以产生最长达到4分45秒的长篇音乐。我们的模型由一个扩散变换器组成,该变换器操作在高度下采样的连续潜在表示上(潜在率为21.5赫兹)。根据音频质量和提示对齐的指标,它获得了最先进的生成结果,主观测试表明它产生了具有连贯结构的完整长度音乐。
2024-04-18 11:01:53
847
原创 Learn Your Reference Model for Real Good Alignment
本文提出了一种新的方法Trust Region DPO (TR-DPO),用于改进大型语言模型(LLMs)的对齐问题。现有的对齐方法存在不稳定性的问题,研究者们不断发明各种技巧来解决这一缺陷。例如,在语言模型对齐的基本技术RLHF中,除了最大化奖励外,还会最小化可训练策略和SFT策略之间的Kullback-Leibler散度。这种添加可以防止模型过度拟合奖励模型(RM)并生成对RM来说领域外的文本。DPO方法重新定义了RLHF的优化任务,并在隐式中保持策略接近SFT策略的要求。
2024-04-17 09:07:36
1203
原创 TransformerFAM: Feedback attention is working memory
TransformerFAM是一种新型的Transformer架构,它通过引入反馈循环机制,使得网络能够关注自身的潜在表示。这种设计促进了Transformer内部工作记忆的出现,使其能够处理无限长的序列。TransformerFAM不需要额外的权重,能够与预训练模型无缝集成。实验表明,TransformerFAM在处理长上下文任务时显著提高了不同模型大小(1B、8B和24B)的性能,展示了赋能大型语言模型(LLMs)处理无限长度序列序列的潜力。
2024-04-17 09:04:29
1388
原创 Social Skill Training with Large Language Models
本文探讨了如何利用大型语言模型(LLMs)进行社交技能训练。社交技能如冲突解决对于有效沟通和在工作和生活中取得成功至关重要。然而,大多数人难以获得实践社交技能的环境。我们提出了一个通用框架,通过AI伙伴和AI导师(APAM)结合体验学习和现实练习以及量身定制的反馈来进行社交技能训练。本工作最终呼吁跨学科创新,以解决劳动力发展和社会平等的更广泛影响。
2024-04-08 17:11:53
915
原创 Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model
本研究介绍了CT-LLM(Chinese Tiny Large Language Model),这是一个2B参数的大型语言模型(LLM),它标志着在开发LLMs时优先考虑中文的重大转变。CT-LLM的独特之处在于,它从头开始,主要通过包含1200亿个token的广泛语料库进行预训练,其中包括800亿个中文token、300亿个英文token和100亿个代码token。这种战略性组成通过比对技术增强了模型在理解和处理中文方面的卓越能力。
2024-04-08 17:09:16
1319
原创 Advancing LLM Reasoning Generalists with Preference Trees
我们介绍了Eurus,一系列针对推理任务优化的大型语言模型(LLM)。Eurus模型基于Mistral-7B和CodeLlama-70B进行微调,实现了在多个涵盖数学、代码生成和逻辑推理问题的基准测试中的最先进性能。值得注意的是,Eurus-70B在12个测试覆盖五个任务的全面基准测试中击败了GPT-3.5 Turbo,并在LeetCode和TheoremQA这两个具有挑战性的基准测试中分别达到了33.3%的pass@1准确率和32.6%,显著优于现有的开源模型,性能提升超过13.3%。
2024-04-03 11:50:51
1176
原创 Long-context LLMs Struggle with Long In-context Learning
大型语言模型(LLMs)在处理超过32K个token的长序列方面取得了显著进展。然而,它们的性能评估主要局限于诸如困惑度和合成任务等指标,这些指标可能无法充分捕捉它们在更微妙、现实世界场景中的能力。本研究引入了一个专门的基准测试(LongICLBench),专注于极端标签分类领域内的长上下文学习。我们精心选择了六个数据集,标签范围从28到174个类别,涵盖了从2K到50K个token的不同输入(少量示例演示)长度。我们的基准测试要求LLMs理解整个输入,以识别庞大的标签空间,从而做出正确的预测。
2024-04-03 11:46:24
909
原创 Jamba: A Hybrid Transformer-Mamba Language Model
我们介绍了Jamba,一种新的基于新颖混合Transformer-Mamba混合专家(MoE)架构的基础大型语言模型。具体来说,Jamba交错了Transformer和Mamba层的块,享受两个模型家族的好处。在这些层中的一些层添加了MoE,以增加模型容量,同时保持活跃参数使用量可控。这种灵活的架构允许针对资源和目标的特定配置。在我们实现的特定配置中,我们得到了一个强大的模型,适合在单个80GB GPU中运行。
2024-04-02 16:49:17
1284
原创 Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs
大型语言模型(LLM)在智能手机上的应用越来越广泛,如智能助手、文本摘要、翻译和多模态任务等。然而,当前的设备上LLM部署方法推理速度慢,导致用户体验不佳。为了在设备GPU上高效部署LLM,我们提出了四种优化技术:(a)基于符号表达式的方法支持动态形状模型推理;(b)算子优化和执行优先级设置以提高推理速度并减少手机延迟;(c)一种称为M0E4的FP4量化方法减少了反量化开销;(d)基于子张量的技术消除了LLM推理后对KV缓存进行复制的需求。
2024-04-02 16:44:15
1547
原创 Multi-font Multi-size Kannada Numeral Recognition Based on Structural Features
本文提出了一种快速新颖的多字体多尺寸卡纳达数字识别方法,该方法无需细化且不需要尺寸标准化。使用不同的结构特征进行数字识别,包括四个方向的像素方向密度、水库原理、最大轮廓距离和填充孔洞密度。使用欧几里得最小距离准则来找到最小距离,并使用K最近邻分类器对卡纳达数字进行分类,数字图像的尺寸从16到50不等,涵盖了来自NUDI和BARAHA流行文字处理卡纳达软件的20种不同字体样式。测试了总共1150个数字图像,分类的整体准确率达到了100%。该方法平均耗时0.1476秒。
2024-03-29 17:39:56
563
原创 KOSMOS-2.5: A Multimodal Literate Model
我们介绍了KOSMOS-2.5,这是一个用于机器阅读文本密集型图像的多模态文学模型。KOSMOS-2.5在大规模文本密集型图像上进行预训练,擅长两个不同但相互合作的转录任务:(1) 生成空间感知的文本块,每个文本块在图像中分配其空间坐标;(2) 生产结构化文本输出,以markdown格式捕捉样式和结构。通过共享的Transformer架构、特定任务的提示和灵活的文本表示,实现了这种统一的多模态文学能力。我们在端到端的文档级文本识别和图像到markdown文本生成上评估了KOSMOS-2.5。
2024-03-29 17:16:51
1513
原创 Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models
在这项工作中,我们介绍了Mini-Gemini,这是一个简单而有效的框架,用于增强多模态视觉语言模型(VLMs)。尽管VLMs在促进基本视觉对话和推理方面取得了进展,但与先进的模型如GPT-4和Gemini相比,性能差距仍然存在。我们试图通过挖掘VLMs的潜力,以实现更好的性能和任何到任何的工作流程,从三个方面缩小这一差距,即高分辨率视觉令牌、高质量数据和VLM引导的生成。为了增强视觉令牌,我们提出使用额外的视觉编码器进行高分辨率细化,而不增加视觉令牌计数。
2024-03-28 18:09:57
2100
原创 ViTAR: Vision Transformer with Any Resolution
本文解决了视觉Transformer(ViTs)面临的一个重大挑战:在不同图像分辨率下的可扩展性受限。通常,ViTs在处理训练时未见过的分辨率时,性能会下降。我们的工作引入了两个关键创新来解决这个问题。首先,我们提出了一个动态分辨率调整的新颖模块,设计了一个单一的Transformer块,专门用于实现高效的增量令牌整合。其次,我们在视觉Transformer中引入了模糊位置编码,以在多个分辨率下提供一致的位置感知,从而防止对任何单一训练分辨率的过拟合。
2024-03-28 18:05:16
1741
原创 RoDLA: Benchmarking the Robustness of Document Layout Analysis Models
在现实世界的应用中开发文档布局分析(DLA)模型之前,进行全面的鲁棒性测试是必不可少的。然而,DLA模型的鲁棒性在文献中尚未被充分探索。为了解决这个问题,我们首次引入一个DLA模型的鲁棒性基准测试,它包括三个数据集的450K文档图像。为了涵盖现实中的文档损坏情况,我们提出了一个包含36种常见文档损坏的扰动分类法,灵感来源于现实世界的文档处理。此外,为了更好地理解文档扰动的影响,我们提出了两个新的度量方法,分别是平均扰动效应(mPE)和平均鲁棒性降级(mRD)。
2024-03-26 14:26:00
538
原创 UNDERSTANDING HTML WITH LARGE LANGUAGE MODELS
大型语言模型(LLMs)在各种自然语言任务上表现出色。然而,它们在HTML理解方面的能力——即解析网页的原始HTML,对于自动化基于Web的任务、爬取和浏览器辅助检索等应用——尚未被充分探索。我们为HTML理解模型(经过微调的LLMs)提供了深入分析,并在三个任务上评估了它们的能力:(i)HTML元素的语义分类,(ii)HTML输入的描述生成,以及(iii)HTML页面的自主Web导航。
2024-03-25 14:03:21
1171
原创 Can large language models explore in-context?
本文研究了当代大型语言模型(LLMs)在无需训练干预的情况下,能否在上下文中进行探索,这是强化学习和决策制定中的一个核心能力。我们专注于现有LLMs的原生性能,通过在简单的多臂老虎机环境中部署LLMs作为代理,并完全在上下文中指定环境描述和交互历史。我们使用GPT-3.5、GPT-4和Llama2进行实验,发现除了一种配置外,其他配置都无法稳健地进行探索行为:GPT-4结合链式思维推理和外部总结的交互历史,呈现为充分统计信息。
2024-03-25 13:34:14
598
原创 LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement
预训练的大型语言模型(LLMs)目前是解决绝大多数自然语言处理任务的最新技术。尽管许多实际应用仍然需要微调以达到令人满意的性能水平,但许多应用处于低数据量状态,这使得微调变得具有挑战性。为了解决这个问题,我们提出了LLM2LLM,这是一种针对性和迭代式的数据增强策略,它使用教师LLM通过增加可用于特定任务微调的数据来增强小型种子数据集。
2024-03-25 13:20:44
1521
原创 InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document Understanding with Instructio
本研究探讨了通过人类编写的指令,在现实世界文档上完成各种视觉文档理解(VDU)任务的问题,例如问答和信息提取。为此,我们提出了InstructDoc,这是第一个大规模的集合,包含30个公开可用的VDU数据集,每个数据集都有多种指令,采用统一格式,涵盖了12个不同的任务,并包括开放的文档类型/格式。此外,为了提高VDU任务的泛化性能,我们设计了一个新的基于指令的文档阅读和理解模型InstructDr,通过一个可训练的桥接模块将文档图像、图像编码器和大型语言模型(LLMs)连接起来。
2024-03-22 12:39:39
1092
原创 PDFTriage: Question Answering over Long, Structured Documents
大型语言模型(LLMs)在处理无法适应其小上下文长度的文档时存在问题。为了克服这一问题,大多数现有工作集中在从文档中检索相关上下文,并将它们表示为纯文本。然而,如PDF、网页和演示文稿等文档自然具有不同的页面、表格、章节等结构。将这些结构化文档表示为纯文本与用户对这些具有丰富结构的文档的心理模型不符。当系统需要查询文档以获取上下文时,这种不协调性就显现出来,看似简单的问题可能会难倒QA系统。为了弥补处理结构化文档时的基本差距,我们提出了一种称为PDFTriage的方法,使模型能够基于结构或内容检索上下文。
2024-03-21 16:43:21
569
原创 mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
结构信息对于理解文本丰富的图像(如文档、表格和图表)的语义至关重要。现有的多模态大型语言模型(MLLMs)具备文本识别能力,但缺乏对文本丰富文档图像的通用结构理解能力。本文强调了结构信息在视觉文档理解中的重要性,并提出了统一结构学习来提升MLLMs的性能。我们的统一结构学习包括了跨5个领域的结构感知解析任务和多粒度文本定位任务:文档、网页、表格、图表和自然图像。
2024-03-21 10:40:23
1306
原创 Chart-based Reasoning: Transferring Capabilities from LLMs to VLMs
本文提出了一种技术,将大型语言模型(LLMs)的能力转移到视觉语言模型(VLMs)上。尽管VLMs在多模态任务上的表现越来越强,但其推理能力,尤其是小型VLMs的推理能力仍然受限。我们的方法在最近引入的ChartQA上取得了最先进的性能,并且在PlotQA和FigureQA上也展现出了更好的性能。我们首先通过改进图表到表格的翻译任务来提升图表表示,然后在原始训练集的基础上构建了一个比原来大20倍的数据集。为了提高通用推理能力和改善数值运算,我们使用图表的表格表示来合成推理路径。
2024-03-20 16:50:41
722
原创 TnT-LLM: Text Mining at Scale with Large Language Models
文本挖掘是将非结构化文本转换为结构化和有意义的形式,这对于下游分析和应用是基础步骤。然而,大多数现有的标签分类法和基于文本的标签分类器的生成方法仍然严重依赖于领域专业知识和手动策划,使得这一过程昂贵且耗时。尤其是当标签空间未明确指定且大规模数据注释不可用时,这一挑战尤为突出。本文提出了TnT-LLM框架,利用LLMs基于提示的接口,以最小的人工努力自动化端到端标签生成和分配过程。在第一阶段,我们引入了一种零样本、多阶段推理方法,使LLMs能够迭代地产生和完善标签分类法。
2024-03-20 16:43:57
1399
原创 UNI-SMART: UNIVERSAL SCIENCE MULTIMODAL ANALYSIS AND RESEARCH TRANSFORMER
在科学研究及其应用中,科学文献分析至关重要,因为它允许研究人员建立在他人工作的基础上。然而,科学知识的快速增长导致了学术文章的大量增加,使得深入的文献分析变得越来越具有挑战性和耗时。大型语言模型(LLMs)的出现为应对这一挑战提供了新的方法。LLMs以其强大的文本摘要能力而闻名,被视为改进科学文献分析的潜在工具。然而,现有的LLMs有其局限性。科学文献通常包括广泛的多模态元素,如分子结构、表格和图表,这对于以文本为中心的LLMs来说难以理解和分析。
2024-03-19 10:41:43
1228
原创 RAFT: Adapting Language Model to Domain Specific RAG
预训练大型语言模型(LLMs)在大量文本数据上已成为标准范式。在使用这些LLMs进行许多下游应用时,通常会通过基于RAG的提示或微调,将新知识(例如,时效性新闻或私有领域知识)融入预训练模型中。然而,模型获取这些新知识的最优方法仍然是一个开放问题。本文提出了一种名为Retrieval Augmented Fine Tuning(RAFT)的训练方法,它提高了模型在“开卷”领域特定设置中回答问题的能力。RAFT通过训练模型忽略那些对回答问题没有帮助的文档(我们称之为干扰文档),来实现这一点。
2024-03-19 09:42:02
1078
原创 LLM4Decompile: Decompiling Binary Code with Large Language Models
LLM4Decompile是一种使用大型语言模型(LLMs)进行二进制代码反编译的方法。该方法旨在将编译后的机器代码或字节码转换回高级编程语言。LLM4Decompile通过级联三个生成对抗网络(GANs)来处理低分辨率的汇编代码,并通过频带扩展和立体声混音将其上采样为高分辨率的源代码。与以往的工作相比,LLM4Decompile提出了一个统一的基于GAN的生成器和鉴别器架构,以及每个阶段的训练过程。
2024-03-18 13:30:59
1658
原创 xAI 发布 Grok-1 — 最大的开源LLM
埃隆·马斯克(Elon Musk)一直直言不讳地表达了他对“觉醒人工智能”的担忧,他引用了谷歌的双子座(Gemini)作为人工智能系统的一个例子,该系统将多样性计划置于潜在危险的程度。Grok 是一个拥有 3140 亿个参数的庞大语言模型,是目前最大的开源模型。需要注意的是,由于 Grok-1 模型的庞大尺寸(包含 3140 亿个参数),因此需要具有足够 GPU 内存的机器才能使用提供的示例代码测试模型。不幸的是,我目前无法访问能够在本地运行 Grok 的硬件,因此我无法提供该模型的第一手示例。
2024-03-18 13:01:43
1719
2
原创 MusicHiFi: Fast High-Fidelity Stereo Vocoding
MusicHiFi是一种高效的高保真立体声编解码器,它通过将低分辨率的mel频谱图转换为音频,并通过频带扩展提高音频分辨率,最终通过立体声混音生成立体声音频。与以往的工作相比,MusicHiFi提出了一个统一的基于生成对抗网络(GAN)的生成器和鉴别器架构,以及每个阶段的训练过程。此外,还提出了一种新的快速、与下采样兼容的频带扩展模块,以及一种新的快速、与下混音兼容的单声道到立体声混音器,确保输出中保留单声道内容。
2024-03-18 12:51:23
923
原创 Language models scale reliably with over-training and on downstream tasks
有效的注意力模块在Transformer基础的大型语言模型(LLMs)的成功中发挥了关键作用,但这些注意力模块的二次时间和内存复杂性也在处理长序列时构成了挑战。一种潜在的解决长序列问题的方法是使用分布式集群在多个设备(例如GPU)上并行计算注意力模块。然而,采用分布式方法不可避免地引入额外的内存开销来存储局部注意力结果,并且产生额外的通信成本来将局部结果汇总成全局结果。在本文中,我们提出了一个名为“BurstAttention”的分布式注意力框架,以优化全局集群和本地设备级别的内存访问和通信操作。
2024-03-17 21:52:59
483
原创 BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences
有效的注意力模块在Transformer基础的大型语言模型(LLMs)的成功中发挥了关键作用,但这些注意力模块的二次时间和内存复杂性也在处理长序列时构成了挑战。一种潜在的解决长序列问题的方法是使用分布式集群在多个设备(例如GPU)上并行计算注意力模块。然而,采用分布式方法不可避免地引入额外的内存开销来存储局部注意力结果,并且产生额外的通信成本来将局部结果汇总成全局结果。在本文中,我们提出了一个名为“BurstAttention”的分布式注意力框架,以优化全局集群和本地设备级别的内存访问和通信操作。
2024-03-16 23:29:02
864
Dataset - TSR数据集 同花顺文档图片表格结构识别算法-数据集
2024-12-03
python的柱状图,绘制漂亮
2024-02-29
手写化学式数据集,企业级数据集、可应用实际生产环境
2024-02-28
深度学习多类别电表读数OCR数据集
2022-05-25
深度学习 OCR 弯曲/圆形文本数据集
2022-05-25
自标注老鼠数据集内含2000+图片
2022-03-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人