‘Atlas’-CSDN博客

达摩出品，ONE-PEACE作为一种易扩展的跨模态泛化表征模型，可对齐和集成视觉、语音、语言模态表征，实验结果表明，在多个任务达到前沿效果：图像分类、语义分割、音频-文本检索、音频问答、图文检索、visual grounding。同时具有一定zero-shot检索能力，即使训练集数据模态非成对，也能够对齐模态。

2023-07-22 23:04:38 1252

原创 gen1-视频生成论文阅读

gen1，Runway出品，作者提出基于扩散模型视频生成方法。基于深度估计确保结构一致性，同时利用文本或图片进行内容控制；通过在模型中引入时间连接以及联合图像视频训练确保时间稳定性，通过控制轮次ts控制结构保留度。

2023-07-03 21:16:47 1676

原创 DreamBooth论文解读

DreamBooth，Google Research出品。仅需要3-5张目标图片，通过prompt引导就可生成该目标变体。

2023-06-19 22:55:36 3264

原创 DragGAN论文阅读

作者提出DragGAN，一种交互式基于点的图像编辑方法，可以依据用户输入操纵图像。这归因于两点：a. 隐向量优化模块，将处理点移动至目标点；b. 点跟踪模块准确跟踪处理点轨迹。DragGAN超越现有基于GAN的图像操纵方法，同时开拓新方向，利用生成先验进行图像操纵。

2023-06-13 22:23:22 821

原创 BLIP使用教程

BLIP hugface API调用demo

2023-06-04 22:56:59 5449 1

原创万物分割SAM使用教程

万物分割SAM使用教程，支持框、点、文本输入

2023-05-30 22:46:40 1521 1

原创 CLIP使用教程

本地调用Hugging Face中CLIP API教程

2023-05-23 22:58:47 8939

原创多条件引导图像生成-ControlNet安装使用

分割、pose等条件+文本引导图像生成，ControlNet使用教程

2023-05-16 23:18:25 822 2

原创利用文本描述替换万物（Inpaint-Anything-Description）

Inpaint-Anything-Description，通过文本描述替换目标

2023-05-05 21:59:22 1027 1

原创 SAM（2023）-分割万物

Meta新作，SAM通过point、box、text提示进行万物分割

2023-04-26 20:09:14 4223

原创 Grounding DINO-开集目标检测论文解读

Grounding DINO在COCO数据集上零样本检测达到52.5AP，在COCO数据集finetune后达到63AP。

2023-04-15 13:56:18 14806 9

原创 Latent Diffusion（CVPR2022 oral）-论文阅读

LDM，CVPR22022 oral。作者提出的LDM在不降低质量情况下，大幅提升扩散模型训练及采样效率。在多个有条件图像生成领域，不需要特定任务结构基于cross-attention有条件机制即可达到SOTA或接近SOTA效果。

2023-04-08 09:04:39 2430 3

原创 SadTalker（CVPR2023）-音频驱动视频生成

SadTalker CVPR2023，作者利用3DMM运动系数作为中间表征，学习其与视频之间关系。

2023-03-19 21:19:47 3139

原创 ControlNet-有条件图文生成论文阅读

ControlNet 可以控制大的预训练扩散模型支持额外输入条件，ControlNet端到端的方式学习特定任务条件，即使训练集小（

2023-03-08 21:14:02 4648 1

BLIP-2，基于现有的图像编码器预训练模型，大规模语言模型进行预训练视觉语言模型；BLIP-2通过轻量级两阶段预训练模型Querying Transformer缩小模态之间gap，第一阶段从冻结图像编码器学习视觉语言表征，第二阶段基于冻结语言模型，进行视觉到语言生成学习；BLIP-2在各种视觉-语言模型达到SOTA。比如在zero-shot VQAv2上超越Flamingo80B 8.7%，也证明该模型可以根据自然语言指引进行zero-shot图像到文本生成；

2023-02-26 11:25:52 23275 16