
next-token
文章平均质量分 97
Sherlock Ma
研究生在读,致力于分享编程技术。主要研究人工智能相关,包括大模型、AIGC等。偶尔也会更新Java内容
展开
-
VAR:视觉生成新范式,投毒风波难掩NeurIPS2024最佳论文!(包含论文代码详解)
Visual AutoRegressive modeling (VAR),这是一种新一代范式,与标准光栅扫描“next-token预测”不同,它将图像上的自回归学习重新定义为从粗到细的“下一尺度预测”或“下一分辨率预测”。VAR首次使GPT风格的AR模型在图像生成方面超过DiT。除此之外,VAR还延续了LLM的两个重要特性:Scaling Laws and zero-shot泛化。原创 2024-12-16 22:03:36 · 1990 阅读 · 0 评论 -
Emu-3:多模态理解与生成的统一模型(包含论文代码解析)
emu3,这是一系列新的多模态模型,通过next-token进行多模态生成和理解。通过将图像、文本和视频标记到一个离散空间中,并从头训练单个Transformer,Emu 3不仅消除了对扩散和合成方法的依赖,而且还超越了SDXL和LLaVA-1.6等已建立的特定任务模型的性能。这篇论文的研究结果提供了令人信服的证据,表明Next-token可以作为多模态模型的强大范例,超越其他类型的模型,并在各种任务中提供最先进的性能,包括具有挑战性的视频生成。原创 2024-10-31 15:46:49 · 3630 阅读 · 1 评论 -
Show-o:统一多模态理解和生成的强大模型(包含代码论文详解)
Show-o”是一种创新的统一Transformer模型,它在多模态理解和生成领域展现出了革命性的潜力。与传统的多模态模型不同,Show-o通过融合自回归和离散扩散建模,能够灵活地处理各种模态的输入和输出。这种融合策略不仅提高了模型的适应性,还增强了其在不同视觉-语言任务中的表现力,包括视觉问题回答、文本到图像生成、文本引导的修复和扩展,以及混合模态生成等。在实际应用中,Show-O模型展示了其在加速图像生成方面的显著优势。原创 2024-10-29 21:01:11 · 1936 阅读 · 0 评论