
多模态大模型
文章平均质量分 95
Sherlock Ma
研究生在读,致力于分享编程技术。主要研究人工智能相关,包括大模型、AIGC等。偶尔也会更新Java内容
展开
-
Kimi-Audio:Kimi团队开源最强音频大模型,横扫15项榜单,拿下第一!
Kimi-Audio,这是一个开源的音频基础模型,在音频理解、生成和对话方面表现出色。作者利用了12.5赫兹的音频分词器(Audio tokenizer),并设计了一种新型的基于LLM的架构,该架构以连续特征作为输入,以离散标记作为输出,并开发了一种基于流匹配的分块流式解码器。作者策划了一个预训练数据集,包含超过1300万小时的音频数据,涵盖语音、声音和音乐等多种模态,并构建了一个用于构建高质量和多样化后训练数据的管道。原创 2025-04-29 20:27:02 · 1135 阅读 · 0 评论 -
LLaMA 4深夜发布:重夺开源第一!首个使用MoE架构的LLaMA模型
Meta公司于2025年4月6日发布的Llama 4模型系列无疑为这场竞赛注入了新的活力。作为Meta首个基于混合专家(MoE)架构的模型系列,Llama 4以其卓越的性能、创新的设计和极高的性价比,迅速在开源模型领域崭露头角,甚至在某些方面超越了当前行业内的顶尖模型。这一系列的发布不仅标志着Llama生态系统进入了一个新的时代,也引发了整个AI行业对多模态模型和高效计算架构的广泛关注。原创 2025-04-06 20:02:06 · 1397 阅读 · 0 评论 -
Qwen2.5-VL技术报告:多模态大模型的新SOTA!视觉理解能力全面超越GPT-4o
Qwen2.5-VL,这是一个最先进的视觉语言模型系列,在多模态理解和交互方面取得了重大进展。Qwen2.5-VL增强了视觉识别、对象定位、文档解析和长视频理解能力,在静态和动态任务中都表现出色。其原生的动态分辨率处理和绝对时间编码能够稳健地处理各种输入,而Window Attention在不牺牲分辨率保真度的情况下降低了计算开销。Qwen2.5-VL迎合了从边缘AI到高性能计算的广泛应用。原创 2025-02-24 16:24:30 · 2489 阅读 · 0 评论 -
Step-Video-T2V:阶跃星辰发布最强开源视频生成模型(论文详解)
本技术报告介绍并开源Step-Video-T2 V,这是一种最先进的预训练文本视频生成模型,具有30 B参数,深度压缩的Video-VAE,用于视频生成的DPO方法,以及生成长度高达204帧视频的能力。作者全面概述了预训练和后训练策略,并介绍了Step-Video-T2 V-Eval作为评估文本到视频生成模型的新基准。当前文本到视频模型仍然面临巨大的挑战。首先,高质量的标记数据仍然是一个重大障碍。现有的视频字幕模型经常与幻觉问题作斗争,并且人类注释昂贵且难以扩展。原创 2025-02-18 21:34:53 · 2882 阅读 · 0 评论 -
Janus-Pro:Deepseek又一强力之作,统一多模态理解与生成!(包含论文代码详解)
本文介绍了 Janus-Pro,这是 Janus 模型的高级版本,通过优化训练策略、扩展训练数据和扩大模型规模,显著提升了多模态理解和文本到图像生成的能力。Janus-Pro 在多模态理解基准测试中超越了现有的先进模型,并在文本到图像指令遵循任务中表现出色。代码和模型已公开。方法1. 架构设计Janus-Pro 的架构与 Janus 保持一致,核心是将多模态理解任务和视觉生成任务的视觉编码进行解耦。对于多模态理解任务,使用 SigLIP 编码器提取图像的高维语义特征;原创 2025-02-01 12:19:41 · 2049 阅读 · 0 评论 -
qwen2.5-vl:阿里开源超强多模态大模型(包含使用方法、微调方法介绍)
Qwen2.5-VL是由阿里巴巴通义千问团队推出的一款开源视觉语言模型,它在视觉理解、多模态交互以及自动化任务执行等方面展现出卓越的能力。该模型不仅能够识别常见的物体,如花卉、鸟类、鱼类、昆虫等,还能深入分析图像中的文本、图表、图标、图形和布局,其通用图像识别能力得到了显著增强,大幅扩展了可识别的图像类别范围。原创 2025-01-28 11:45:43 · 34518 阅读 · 15 评论 -
Kimi-k1.5:全新SOTA模型,追平满血OpenAI-o1!(论文解读)
1 月 20 日,月之暗面推出 Kimi 全新 SOTA 模型 ——k1.5 多模态思考模型,其实现了 SOTA (state-of-the-art)级别的多模态推理和通用推理能力。官方表示,在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。在这篇报告中,作者介绍了最新的多模态LLM Kimi k1.5的训练方法,它是用强化学习(RL)训练的。原创 2025-01-23 14:16:10 · 1887 阅读 · 0 评论 -
LeDeCo:AI自动化排版、设计、美化海报
这篇文章的核心内容是介绍了一种名为LaDeCo的新型自动图形设计构图方法。LaDeCo通过将大型多模态模型(LMMs)与分层设计原则相结合,能够将多模态图形元素自动组合成一个整体、平衡且美观的图形设计。原创 2025-01-16 22:32:41 · 1773 阅读 · 0 评论 -
Lora综述:全面系统的理解lora微调
LoRA作为一种新兴的大型语言模型微调技术,近年来在各大领域备受注。本文综述了LoRA技术的多方面内容。首先深入剖析了LoRA的原理,接着详细回顾了LoRA的发展历程。此外,对LoRA的应用情况进行了广泛梳理,凸显了LoRA相较于传统微调方法的优势。同时,探讨了LoRA与其他微调技术的结合应用,进一步拓展了其应用边界和性能潜力。最后,对LoRA技术面临的挑战进行了分析,并展望了未来的发展方向。本文旨在为后续研究提供有价值的参考和启示,推动LoRA技术在大型语言模型微调领域的持续发展与创新。原创 2025-01-16 21:13:20 · 4297 阅读 · 0 评论 -
CosyVoice2:阿里开源语音合成模型,模仿、生成、细粒度控制,全部拿下!(附使用方法、论文代码详解)
CosyVoice 2是由阿里巴巴集团开发的先进流式语音合成模型,它不仅继承了前代模型的优秀基因,更通过一系列创新性的技术优化,实现了在保持极低延迟的同时,生成质量几乎与人类发音无异的语音。CosyVoice 2模型的核心优势在于其能够提供接近人类发音自然度的合成语音。原创 2024-12-31 17:46:44 · 12120 阅读 · 7 评论 -
DeepSeek-v3:开源大模型新高度,最强性能,最高性价比!(论文详解)
DeepSeek-V3是一个具有671B参数的大型Mixture-of-Experts语言模型,采用Multi-head Latent Attention和DeepSeekMoE架构以提高训练效率和推理性能。模型通过无辅助损失的负载平衡策略和多token预测训练目标优化,预训练于14.8万亿tokens,并经过监督微调和强化学习以提升性能。DeepSeek-V3在多个基准测试中表现优异,尤其在代码和数学任务上,与顶尖闭源模型媲美,而训练成本仅为2.788M H800 GPU小时。原创 2024-12-29 21:13:03 · 15671 阅读 · 0 评论 -
DiffSense:强大的漫画生成模型,一键生成漫画!(包含使用教程及论文代码分析)
本文介绍了DiffSensei,用于定制化漫画生成的AI模型。DiffSensei能够理解文本提示,动态调整角色特征和布局,创造出既符合描述又具有视觉吸引力的漫画内容。原创 2024-12-19 22:31:29 · 2180 阅读 · 0 评论 -
MagicQuill:结合大模型和扩散模型的图像编辑神器
MagicQuill是一个先进的智能互动图像编辑系统,它通过结合强大的扩散模型和多模态大型语言模型(MLLM),提供了一个既强大又易于使用的图像编辑平台,使得即使是非专业人士也能轻松进行高质量的图像编辑。原创 2024-12-02 22:21:44 · 1777 阅读 · 0 评论 -
Video-LLM:根据视频进行实时互动的创新模型(包含论文代码详解)
VideoLLM-online,这是一个突破性的模型,它通过实时处理视频流并进行交互式对话,为流媒体视频交互带来了革命性的进步。这个模型不仅能够理解视频中的视觉内容,还能够在视频播放的同时提供实时的语言反馈,这为后续实现人工智能助手提供了无限可能原创 2024-11-22 20:18:27 · 3135 阅读 · 2 评论 -
Vllm进行Qwen2-vl部署(包含单卡多卡部署及爬虫请求)
使用vLLM部署Qwen2-VL,包含单卡部署、多卡部署、爬虫requests发送请求原创 2024-11-01 17:25:02 · 15542 阅读 · 14 评论 -
Emu-3:多模态理解与生成的统一模型(包含论文代码解析)
emu3,这是一系列新的多模态模型,通过next-token进行多模态生成和理解。通过将图像、文本和视频标记到一个离散空间中,并从头训练单个Transformer,Emu 3不仅消除了对扩散和合成方法的依赖,而且还超越了SDXL和LLaVA-1.6等已建立的特定任务模型的性能。这篇论文的研究结果提供了令人信服的证据,表明Next-token可以作为多模态模型的强大范例,超越其他类型的模型,并在各种任务中提供最先进的性能,包括具有挑战性的视频生成。原创 2024-10-31 15:46:49 · 3630 阅读 · 1 评论 -
LLaVA-1.5:强大的多模态大模型(包含论文代码详解)
LLaVA,这个大型语言和视觉助手,以其卓越的多模态能力在人工智能领域脱颖而出。它不仅集成了视觉编码器和语言模型,还通过端到端训练的方式,实现了对视觉和语言信息的深度融合与理解,这在多模态交互领域是一个巨大的飞跃。LLaVA的核心优势在于其能够处理和理解复杂的视觉和语言数据,提供更为精准和丰富的信息处理能力。它的设计允许模型在保持高性能的同时,对高分辨率图像进行有效处理,这一点在LLaVA-1.5-HD版本中得到了显著的提升。原创 2024-10-30 20:53:07 · 9290 阅读 · 1 评论 -
Show-o:统一多模态理解和生成的强大模型(包含代码论文详解)
Show-o”是一种创新的统一Transformer模型,它在多模态理解和生成领域展现出了革命性的潜力。与传统的多模态模型不同,Show-o通过融合自回归和离散扩散建模,能够灵活地处理各种模态的输入和输出。这种融合策略不仅提高了模型的适应性,还增强了其在不同视觉-语言任务中的表现力,包括视觉问题回答、文本到图像生成、文本引导的修复和扩展,以及混合模态生成等。在实际应用中,Show-O模型展示了其在加速图像生成方面的显著优势。原创 2024-10-29 21:01:11 · 1936 阅读 · 0 评论