logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

震惊!东京大学提出ARTalk!语音驱动3D面部动画大突破!

语音驱动的3D面部动画旨在根据任意音频片段为3D头部模型生成逼真的嘴唇动作和面部表情。尽管现有的基于扩散的方法能够产生自然的动作,但其生成速度较慢,限制了其应用潜力。在本文中,我们介绍了一种新颖的自回归模型,该模型通过学习从语音到多尺度运动码本的映射,实现了高度同步的嘴唇动作、逼真的头部姿态和眨眼的实时生成。此外,我们的模型可以利用样本运动序列适应未见的说话风格,从而能够创建具有独特个人风格的3D

文章图片
#3d#人工智能#论文阅读 +2
商汤提出Shining Yourself!首个高保真饰品虚拟试戴新方法!

虽然基于扩散模型的服装和鞋子虚拟试戴已经受到关注,但手镯、戒指、耳环和项链等饰品的虚拟试戴在很大程度上仍未得到探索。由于大多数饰品中存在复杂的微小图案和重复的几何子结构,在饰品和模特之间存在较大的姿态和尺度变化时,更难保证身份和外观的一致性。本文提出了饰品虚拟试戴任务,并提出了一种改进饰品虚拟试戴的几何和外观保留的方法。具体来说,我们在去噪过程的迭代方案中估计一个准确的佩戴掩码,以改善饰品和模特之

文章图片
#人工智能#语言模型#深度学习 +1
太赞了!阿里通义Lab提出VACE!视频创作与编辑统一模型!

扩散变换器(Diffusion Transformer)在生成高质量图像和视频方面展现出了强大的能力和可扩展性。进一步追求生成和编辑任务的统一,在图像内容创作领域取得了显著进展。然而,由于对时间和空间动态一致性的内在要求,实现视频合成的统一方法仍然具有挑战性。我们推出了VACE,它使用户能够在一个集创作与编辑功能于一体的框架内执行视频任务。这些任务包括参考到视频生成、视频到视频编辑以及掩码视频到视

文章图片
#音视频#人工智能#深度学习
ANU联合腾讯提出Motion Anything!可控多模态运动生成新框架!

条件运动生成在计算机视觉领域已得到广泛研究,但仍存在两个关键挑战。首先,尽管掩码自回归方法最近在性能上超越了基于扩散的方法,但现有的掩码模型缺乏一种机制,无法根据给定条件对动态帧和身体部位进行优先级排序。其次,现有的针对不同条件模态的方法往往无法有效整合多种模态,限制了生成运动的可控性和连贯性。为应对这些挑战,我们提出了“Motion Anything”,这是一个多模态运动生成框架,引入了基于注意

文章图片
#人工智能#深度学习
超详细!字节公开Seedream 2.0文生图技术报告!

为解决这些局限性,我们推出了Seedream 2.0,这是一款原生中英双语图像生成基础模型,在多个维度表现出色,能够熟练处理中文和英文文本提示,支持双语图像生成和文本渲染。我们开发了一个强大的数据系统以促进知识整合,以及一个兼顾图像描述准确性和丰富性的字幕系统。特别地,Seedream集成了自研的双语大语言模型(LLM)作为文本编码器,使其能够直接从海量数据中学习原生知识。这使得它能够生成具有准确

文章图片
#深度学习#AI#人工智能 +2
浙江大学提出V²Edit!视频与3D场景编辑的免训练革命!

本文介绍了编辑,这是一种用于指令引导的视频和3D场景编辑的新型免训练框架。为解决平衡原始内容保留与编辑任务完成这一关键挑战,我们的方法采用了一种渐进策略,将复杂的编辑任务分解为一系列更简单的子任务。每个子任务通过三个关键的协同机制进行控制:初始噪声、每个去噪步骤添加的噪声以及文本提示与视频内容之间的交叉注意力图。这确保了在有效应用所需编辑的同时,能稳健地保留原始视频元素。

文章图片
#3d#人工智能#深度学习
微软提出I2V3D!3D引导的可控图像生成视频新框架!

我们提出了I2V3D,这是一个新颖的框架,利用3D几何引导和先进生成模型的优势,将静态图像精确地动画化为动态视频。我们的方法将计算机图形流水线的精确性(能够精确控制相机运动、物体旋转和角色动画等元素)与生成式的视觉保真度相结合,从粗略渲染的输入中生成高质量的视频。为了支持从任意初始点开始的动画和扩展序列,我们采用了由几何引导的两阶段生成过程:1)引导的关键帧生成,其中定制的图像扩散模型优化渲染的关

文章图片
#3d#音视频#AI +2
浙大联合上海AI Lab提出Astrea!基于MoE的MLLM新框架!

基于专家混合(Mixture-of-Experts,MoE)架构的视觉语言模型(Vision-Language Models,VLMs)已成为多模态理解领域的关键范式,为整合视觉和语言信息提供了强大的框架。然而,任务的复杂性和多样性不断增加,在协调异构视觉专家之间的负载平衡方面带来了重大挑战,因为优化一个专家的性能往往会损害其他专家的能力。为了解决任务异构性和专家负载不平衡的问题,我们提出了阿斯特

文章图片
#人工智能#音视频#AIGC +2
腾讯提出TrajectoryCrafter:重新定义单目视频相机轨迹,打造沉浸式视觉体验!

无论是用户拍摄的视频还是人工智能生成的视频,都已成为社交媒体上无处不在的媒介。然而,传统视频只能让我们对动态世界管中窥豹,而让用户能够在日常视频中自由重定向相机轨迹则有望带来更沉浸式的体验。图2. TrajectoryCrafter(轨迹生成器)概述。从源视频开始,无论是随意拍摄的还是由人工智能生成的,我们首先通过深度估计将其转换为动态点云。然后,用户可以使用所需的相机轨迹交互式地渲染点云。

文章图片
#音视频#人工智能#深度学习 +1
浙大联合上海AI Lab提出NAR!邻域自回归建模视觉生成!比DiT

视觉自回归模型通常遵循光栅顺序的“下一标记预测”范式,该范式忽略了视觉内容固有的空间和时间局部性。具体而言,与距离较远的视觉标记相比,视觉标记与其在空间或时间上相邻的标记之间的相关性明显更强。在本文中,我们提出了邻域自回归建模(Neighboring Autoregressive Modeling,NAR),这是一种新颖的范式,它将自回归视觉生成表述为一个渐进式的外部绘制过程,遵循从近到远的“下一

文章图片
#人工智能#深度学习#算法
    共 22 条
  • 1
  • 2
  • 3
  • 请选择