自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

liguandong

github:https://github.com/leeguandong

  • 博客(911)
  • 资源 (2)
  • 收藏
  • 关注

原创 创意项目开源,文生图、排序/优选等...,持续开源更新!!

learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。- GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。GitHub - leeguandong/AllRank: learn-to-rank框架,召回/粗排/精排/重排中的重排模块,之前主要是动态创意优化时对包括图片等特征进行重排。,中文文生图算法集合。

2023-12-03 15:08:05 375

原创 sd_webui的实用插件,prompt/lama/human matting/...,持续开源更新!!

3.sd_webui_sghm 人像抠图,在人像场景比rembg好很多。1.prompt优化插件。2.lama图像修复插件。

2023-12-02 12:17:55 1493

原创 llama_factory0.9.3微调Qwen3

本文介绍了如何使用LLaMA-Factory微调Qwen1.5模型,包括1.8B和0.5B版本的训练细节。在数据、训练、LORA融合及推理等方面进行了探讨,同时也分享了微调后模型在不同任务上的表现,如聊天对齐和显存占用等。在examples/train_lora中选择llama3_lora_sft.yaml。llama_factory微调QWen1.5-CSDN博客。在4卡A100上微调的,没用deepseed。

2025-05-05 15:02:03 344

原创 agent course-3

https://huggingface.co/learn/agents-course/zh-CN/unit1/dummy-agent-libraryhttps://huggingface.co/learn/agents-course/zh-CN/unit1/dummy-agent-libraryhttps://colab.research.google.com/#scrollTo=8WOxyzcmAEfI&fileId=https%3A//huggingface.co/agents-course/noteb

2025-04-30 16:01:17 276

原创 agent course-2

思维代表着智能体解决人物的内部推理与规划能力,这利用了智能体的llm能力来分析其prompt中的信息,这是智能体内部的对话,在此过程中会考量当前任务并制定应对策略,智能体的思维负责获取当前观察结果,并决定下一步应采取的行动,通过这一过程,智能体能够将复杂问题分解为更小、更易管理的步骤。是智能体感知其行动结果的方式,能提供关键信息,为智能体的思考过程提供指导。框架可以轻松的解析到要调用的函数名称和要应用的参数,这种清晰的,机器可读的格式最大限度的减少了错误,并使外部工具能够准确处理智能体的命令。

2025-04-30 15:45:05 52

原创 agent course-1

llm只能接受文本输入并生成文本输出,无法自行调用工具,当我们谈及为智能体提供工具时,实质是教导llm认识到工具的存在,并要求模型在需要时生成调用工具的文本,例如,若我们提供从互联网获取某地天气的工具,当询问llm巴黎的天气时,llm将识别该问题适合使用我们提供的天气工具,并生成代码形式的文本来调用该工具,智能体负责解析llm的输出,识别工具调用需求,并执行工具调用,工具的输出将返回给llm,由其生成最终用户响应。工具是赋予llm的函数,常用的工具包括,网络搜索,图像生成,信息检索,API接口。

2025-04-30 14:43:34 530

原创 smolagents - Guided tour

在这种框架,多个agent协同工作来解决问题,对于许多任务,与其使用一个包罗万象的系统,不如让单元专门负责子任务,在这种情况下,拥有独立工具集和内存的代码可以更专业。工具是agent使用的原子函数,要被llm使用,它还需要一些构成其api的属性,这些属性将用于向llm描述如何调用此工具,可以创建自己的新工具。model,一个文本生成模型,支持agent,agent不同于简单的llm,是一个使用llm作为引擎的系统。

2025-04-30 10:59:35 26

原创 smolagents介绍

是否真的需要灵活的工作流程来完成手中的任务,如果预先设定的工作流程经常会出现问题,意味着需要更大的灵活性,例如,假设正在开发一款旅游网站,可以提前知道强求强属于哪种情况,每种情况都有一个预定义的工作流程,1.想了解一些旅游知识?需要更大的灵活性,这就是agent有用的地方,可以创建一个多步骤agent,该agent可以方位天气api进行天气预报,google maps api来计算旅游距离,知识库中的rag。tools和model是必备的,2.如何使用agent。4.1 构建agent。

2025-04-30 10:26:30 27

原创 SVDQuant:Absorbing outliers by low-rank components for 4bit diffusion models

https://zhuanlan.zhihu.com/p/8487841492https://zhuanlan.zhihu.com/p/8487841492

2025-04-28 16:30:39 35

原创 InstantCharacter:Personalize any characters with a scalable diffusion transformer framework

提出了InstantCharacter框架,这是一个为角色驱动图像生成设计的可扩展的transformer框架,3个优势,1.通用性;基于flux.1-dev实现InstantCharacter.调优方法对于数十亿参数的dit架构,计算上很贵。通用视觉编码器:用SigLIP代替CLIP,此外引入了DINOv2作为另一个图像编码器,以增强特征的鲁棒性,最后通过通道级联整合dinov2和siglip。投影head:最终的特征通过投影到去噪空间,并与潜在噪声进行交互,通过一个时间步感知的Qformer实现。

2025-04-28 16:13:23 401

原创 VisualCloze:A universal image generation framework via visual in-context learning

在扩散模型下,图像生成领域的应用很多,包括图像编辑、风格转换、虚拟试穿以及个性化生成,然而这些任务通常需要特定于任务的模型,这限制了实际应用的效率和可扩展性。希望用一个单一统一的框架来处理多样化的图像生成任务。大语言模型通过incontext learning,允许模型仅通过少量示例适应各种任务,我们的目标是在纯视觉模型中复制这种上下文的概念,让模型可以直接从几个视觉示例作为任务示范中学习所需的任务。GPT3使语言模型在给出少量示范的情况下理解和执行复杂人物。

2025-04-28 15:34:24 112

原创 Dreamid:High-fidelity and fast diffusion-based face swapping via triplet id group learning

本文提出了一种准确且显式的监督训练框架,通过构建三元组ID组数据来增强面部交换模型的ID相似性和属性保留能力。即梦的AI写真就是这个算法,实测感觉不太行。

2025-04-28 14:43:26 19

原创 GPT-ImageEval:A Comprehensive Benchmark for Diagnosing GPT4o in image generation

GPT-ImgEval是第一个综合基准,旨在评估GPT-4o在图像生成方面的能力,评估三块,文本到图像生成,用GenEval评估,基于指令的图像编辑,用Reason-Edit评估,世界知识驱动的语义合成,用WISE评估。图像生成中的不一致性:图像生成中GPT4o经常难以完美再现输入图像,即使在不需要编辑的情况下,明确无更改的prompt,也可能有更改,在图像尺寸上尤为明显,可能会输出不可预测的纵横比变化或自动边缘裁剪和重新缩放。复杂场景生成中的失败:在空间推理和高视觉复杂性上保持一致性是比较困难的。

2025-04-28 13:57:05 197

原创 ChatGen: Automatic text-to-image generation from freestyle chatting

我们认为,自动化T2I应视为一个复杂的多步骤推理问题。我们旨在开发一个可以接受任意用户输入的模型,类似于chatgpt,并自动生成所有必要的生成组件,成为自动T2I,提出了一个ChatGenBench,包含了6807个定制模型的高质量配对数据的丰富数据集,每对数据包含用户的自由聊天输入、精炼的提示、适当的模型和优化的参数。多阶段策略训练,阶段1,通过sft写提示,阶段2,通过模型标记进行模型选择,模型标记训练,在训练过程中,用户输入c和提示p被拼接作为前缀,特殊的模型标记被附加为下一个标记预测的真实值;

2025-04-28 10:33:01 19

原创 seededit: Align image re-generation to image editing

引入了一种新框架,将图像生成扩散模型转换为编辑图像的模型,图像编辑的本质上image reconstruction和re-generation之间的平衡,产生了一个能够根据指令或描述修改图像的模型,称之为seededit。成对图像数据的稀缺性是图像编辑的核心难点,具体来说,首先将文本到图像模型视为一个弱编辑模型,改造它通过生成带有新提示的新图像来实现编辑,随后,将这种弱编辑模型反复进行蒸馏和对齐,以最大程度的继承在生成能力,同时提升图像一致性。SeedEdit是从一个预训练好的文生图模型开始,这里支持。

2025-04-27 15:23:52 32

原创 Step1X-Edit: A practical framework for general image editing

为了有效训练token并实现丰富的跨模态,从flux-fill中引入了token连接机制的灵感,关键思想是增强模型在对比视觉上下文中的推理能力,在训练过程中,目标图像和参考图像同时输入系统,目标图像首先由VAE编码器编码,然后添加高斯噪声以促进泛化,生成的潜在表示随后被线性投影为图像标记表征,相比之间,参考图像在没有噪声的情况下编码并进行类似的投影,这两组图像标记沿标记长度维度连接,形成一个双倍token长度的融合特征,作为最终的视觉输入。我们的方法在参考图像重建和编辑提示词跟随之间保持了良好的平衡。

2025-04-27 14:30:06 55

原创 uno:less-to-more generalization unlocking more controllability by in-context generation

主题驱动生成包括dreambooth,text inversion,lora,每个主题都需要调参,ipadapter,blipdiffusion使用额外的图像编码器和新层来编码主题的参考图像,并将其注入到扩散模型中,DiT,IClora,Ominicontrol探索了transformer中固有图像参考能力,并且指出DiT本身是可以作为主题参考的图像编码器。利用DiT模型内在的上下文生成能力,引入了一种高分辨率、高一致性的数据合成pipeline,合成数据的质量可以显著提升模型的性能。

2025-04-27 10:05:05 24

原创 视频生成上下文并行方案

在多张rtx4090上的并行生成方案,主要就是xdit和paraattention中的并行上下文注意力机制。希望找到一个和skyreel一致的para attn的并行方案。skyreel有很不错的多gpu推理方案,可以参考来实现。只有wan2.1的多卡推理,还是文生视频的。paraattention的方案最好。目前只支持了文生视频的多gpu推理。只有单卡的不同版本的混元视频的推理。我没看到i2v的多卡推理。也没看到多卡gpu的推理。也没看到多卡推理的方案。

2025-04-21 17:48:44 232

原创 FLUX加速总结

flux加速技巧包括lora加速,lora中还有好几个有字节的加速方案,也有其它的,还有torch.compile,再有就是teacache,wavecache,xidt以及nunchaku等,下面我整体总结一下。还可在线进行模型训练。Teacache和wavespeed原理是比较类似的,组合效果未必更好,wavespeed如果不用动态fp8,也就是compile的编译模式,实际上就是fbcache。flux.1-lite-8B-alpha的最优实现-工作流-AIKSK-LiblibAI。

2025-04-10 14:24:38 67

原创 Timestep embedding tells:it s time to cache for video diffusion model

时间步嵌入随着时间步的进展而变化,但与噪声输入和文本嵌入独立,因此很难完全反应输入的信息,噪声输入在去噪过程中逐渐更新,并包含来自文本嵌入的信息,但对时间步的敏感性较低。以前的方法通过在均匀选择的时间步上缓存和重用模型输出来加速模型,然后,这种策略忽略了面模型输出在时间步之间的差异并不均匀之一事情,妨碍了选择适当的模型输出进行缓存,从而导致推理效率和视觉质量之间的平衡不佳。

2025-04-07 15:32:54 47

原创 Wavespeed与ParaAttention

AdaCache还表明,缓存可以在不牺牲生成质量的情况下显著提高推理速度,但Teacache比较复杂,因为需要一个重新缩放策略来确保缓存的准确性,在ParaAttention中,我们可以直接使用第一个transformer块输出的残差来近似模型输出之间的差异,当差异足够小时,可以重用前面推理步骤的残差,这意味可以实际跳过当前这个去噪步骤。torch.compile需要先编译,会花一段时间。FBCache,会观察模型运行的第一个步骤,如果发现和上次很像,就直接跳过后面好很多重复步骤,直接使用上次结果。

2025-04-07 14:14:27 41

原创 ReAct: Synergizing Reasoning and Acting in Language Models

https://zhuanlan.zhihu.com/p/624003116https://zhuanlan.zhihu.com/p/624003116https://github.com/apssouza22/ai-agent-react-llm/tree/mainhttps://github.com/apssouza22/ai-agent-react-llm/tree/mainhttps://github.com/datawhalechina/tiny-universe/blob/main/conten

2025-03-25 10:09:01 161

原创 Infinite you:flexible photo recrafting while preserving your identity

Infiniteyou,引入了InfuseNet,作为controlnet的一种推广,能够接受id信息以及控制条件,通过残差连接,infusenet将投影的id特征注入到DiT基础模型中,从而使文本和id注入解耦。在训练过程中,投影网络和InfuseNet是可训练的,而其他模块保持不变,这种id特征的残差注入与通过注意力层的文本注入不同,有效的将文本和id输入分开,从而减少潜在的纠缠和冲突,得益于这种不依赖ipa的纯残差注入设计,基础的生成能力得到了更少的妥协,产生了更高质量和改善的文本-图像对齐。

2025-03-24 17:24:51 89

原创 Agents:building effective agents

2.将简单/常见问题路由到较小的模型,将困难/不寻常的问题路由至功能更强大的模型,以优化成本和速度。随着llm在关键功能,理解复杂输入,进行推理和规划,可靠的使用工具等方面日趋成熟,agent通过人类用户的命令或与人类用户的互动中开始工作,一旦任务确定,agenthi独立规划和操作,并可能返回人类手中以得到更多信息或判断。llm有时可以同时执行一项任务,并以编程方式汇总其输出,1.Sectioning,将任务分解为并行运行的独立子任务,2.Voting,多次运行相同的任务以获得不同的输出。

2025-03-08 22:19:04 101

原创 ChatDiT:a training-free baseline for task-agnostic free-form chatting with diffusion transformers

该系统将用户意图转为话语上下文工具包兼容的格式,并规划处理大规模图像集的生成策略,这涉及将自有形式的自然语言指令和参考图像翻译为结构化参数,制定逐步策略以确保输入和目标图像之间适当的关系,并执行这些步骤利用上下文工具包生成高质量的输出。Group transformer和In-Context Lora中引入的图像生成范式,其中图像生成任务被设定为生成一组n>=1的目标图像,以另一组m>=0的参考图像为条件,并附加一个全面的提示,描述n+m图像的组合。从自然语言提示中生成高保真且风格多样的图像。

2025-02-26 11:17:04 68

原创 Step-video-T2V Technical report:The Practice,challenges,and future of video foundation model

人类反馈有效的提高了视觉质量,建议使用人工标注的反馈数据训练一个奖励模型,该奖励模型在训练过程中动态评估新生成样本的质量,奖励模型定期通过新的人工反馈进行微调,以保持与发展的策略的一致性。30B,DIT,Flow Matching,544x992,204帧,一个特殊设计的VAE实现了16x16空间和8x的时间的压缩比,两个双语文本编码器,使得step-video可以理解中文或者英文提示,引入一种级联的训练pipeline,包括文本到图像的预训练,文本到视频的预训练,监督微调sft以及直接偏好优化dpo。

2025-02-24 20:37:07 236

原创 Logic-RL:Unleashing LLM Reasoning with Rule-Based Reinforcement learning

deepseek-r1引入了一种简单而有效的基于规则的强化学习,无需依赖传统的支撑技术,如蒙特卡洛书树搜索MCTS或者过程奖励模型PRM,便能出现新兴的推理模式。logic-rl,基于规则的强化学习框架,通过在逻辑难题上的训练来获得r1的推理模式,训练框架采用Reinforce++算法和deepseek-r1的奖励设计用于后训练。采用了REINFORCE++的一个修改版本作为我们的基线算法,显示出比GRPO更好的性能。奖励作为RL中的主要训练信号,指导优化过程,包括两种类型的奖励,格式奖励和答案奖励,

2025-02-24 19:24:10 160

原创 ace++:Instruction-based image creation and editing via context-aware content filling

对于不包含参考图像的任务,如可控生成、图像修复和单图像编辑,ACE的LCU在token序列维度上拼接输入,与t2i相比,在dit的注意力输入中引入了额外的条件序列,将这些任务的条件输入从序列连接更改为通道维度连接,可以有效的减少模型适配成本。在训练上,两个阶段,第一阶段,用t2i的0-ref任务的任务数据预训练模型,flux.1-fill-dev也是这个思路,第二阶段,微调上述模型,关注模型重建输入参考图像和生成目标图像的能力,以知道模型学习上下文感知信息。

2025-02-24 17:32:04 82

原创 ace:all-round creator and editor following instructions via diffusion transformer

构建一个全能视觉生成模型的一大挑战在于多模态输入格式的多样性和支持任务的多样性,设计了一个统一框架,使用dit生成模型,以适应广泛的输入和任务,多轮绘图以及editor,1.分析了大多数视觉生成任务的条件输入,定义了条件单元condition unit,CU,该单元建立了一个统一的输入范式,包括图像掩码以及文本指令等核心元素。,考虑一个包含M个CU的LCU,模型为每个CU涉及三个入口点,一个语言模型T5,一个VAE将参考图像压缩为潜在表征,以及一个下次样模块将mask调整为相应潜在图像的形状。

2025-02-24 16:48:53 196

原创 Deepseek-r1:Incentivizing reasoning capability in llms via reinforcement learning

我们的目标是讨论LLM在没有任何监督数据的情况下,发展推理能力的潜力,专注于RL。自我演化中最显著的方面之一就是随着测试时间计算的增加而出现的复杂行为,例如,反思-模型重新审视并重新评估先前步骤的行为-探索解决问题的替代方法,这些并非显式编程的结果,而是模型与强化学习环境互动的结果。Deepseek-r1-zero是通过rl训练的,没有经过sft,通过rl涌现了许多强大而有趣的推理行为,但是有可读性差和语言混合等挑战,deepseek-r1结合了多阶段训练和冷启动数据。蒸馏的模型比直接rl效果好。

2025-02-21 09:58:04 79

原创 深度推理模型的测评

1.科大讯飞X14.GLM-Zero。

2025-02-08 10:10:29 131

原创 深度推理COT常用测评数据集

数学与推理:AIME、Math-500、LogiQA等。知识广度编程能力生成质量多语言与伦理部分数据集(如AIME 2024、MATH500)已被用于直接对比DeepSeek-R1和O1的性能。此外,李飞飞团队近期提出的s1K数据集(1000个数学问题)展示了通过小规模高质量数据微调实现高效推理的可能性。

2025-02-08 09:45:19 415

原创 [SaaS] 内容创意生产平台

7.

2025-01-27 13:06:52 121

原创 Fine-Grained head pose estimation without keypoints

Fine-Grained Head Pose Estimation Without Keypoints-论文解读代码论文Abstract传统的头部姿态计算方法是通过人脸上关键点求解二维到三维对应问题,因为对landmark 检测性能的依赖而导致存在不足。论文中提出一种基于多损失卷积神经网络的姿态估计方法。在代码中交叉熵(CrossEntropyLoss)包含了softmax,分类时从-99到99,以3为间隔,共67个值,66个间隔,作为离散的分类,对这些使用交叉熵计算损失。

2025-01-23 11:25:10 549

原创 人物一致性训练测评数据集

测试:从VGGFace2中选取了每个id的一张图片,共500个id,用于生成的提示词仅限于简单的类别名词,如男性或者女性,多乐衡量多样性,提示词则是一个类别名词和一个表情词,如快乐,悲伤和生气的组合。测试:从CelebA-HQ中随机选择300个id进行评估,每一个id有一个参考图像你,此外,还收集了一个25个id的数据集,每个id下有4个图像用于多参考图像设置下的评估。测试:手动选取的额外id和一部分Mystyle数据,对于文本提示,考虑了6个因素,服饰,配饰,动作,表情,视角和背景。

2025-01-18 23:48:45 137

原创 clip中绘制特征图

heatmap以及cam图,现在大部分clip特征不可用的原因还是因为都是计算text和image相似度的,看输入的text在image上面的表现的热力图。不行,先分块,然后在一块一块和text计算相似度,在转成图片去计算attention图。通过hook机制写的,相当于把clip中每一行的特征全部都可视化出来了。

2025-01-16 13:55:59 165

原创 ConsistentID:Portrait Generation with Multimodal fine-grained identity preserving

为了充分融合图像和文本,设计了一个面部编码器,以在文本序列的维度上无缝整合视觉提示和文本提示,给定facial embedding和text embedding,面部编码器最初采用自注意力机制将整个面部特征和面部区域特征对齐,从而得到对齐特征,N=5表示脸部的5个区域,包括眼睛、嘴巴、耳朵、鼻子和其他面部区域,下图的右侧是用facial替换的5个关键词,缺失的补0,最后,将已富含id信息的文本特征被输入到两个多层感知机中,已学习文本条件embedding。细粒度的面部视觉和文本embedding。

2025-01-15 15:30:43 61

原创 人物一致性测评方案

从互联网上收集了一个多样化的肖像测试集,该数据集涵盖了多种肤色、年龄和性别,共计120张图像,我们称之为DivID-120,作为补充资源,还使用了最近开源的测试集Unsplash-50,包含了2024年2月至3月期间上传到Unsplash网站的50张肖像图像。测试集包括15个对象和30个文本。

2025-01-14 10:24:39 82

原创 VBench:Comprehensive benchmark suite for video generateive models

为了评估物体的颜色是否符合指定条件,使用GRiT的描述能力来描述颜色,GRiT识别物体的边界框,然后将其送入两个文本编码器,一个预测类别,另一个用于生成合成视频帧的密集描述,然后我们验证对应物体的颜色是否在所有的帧中成功描述,在生成对应物体并且描述包含颜色信息的帧中,我们计算文本提示所需颜色成功描述的帧的百分比。对于真实视频,时间闪烁通常是频繁的光照变化或在视频捕捉过程中相机抖动造成的结果,对于生成的视频,时间闪烁是视频生成模型的内在属性,通常是由于局部和高频细节的时间不一致不好导致的。

2025-01-13 15:40:00 237

原创 EVA-02:A visual representation for neon genesis

EVA系列方法均按照MVP[5]提出的基于多模态视觉Encoder作为Teacher来生成Mask Token的特征作为Student模型的监督信息,训练时的Loss使用Teacher输出的特征和Student输出的特征负余弦相似度(negative cosine similarity)。对于256个视觉Token,随机Mask的比例设置在40%左右,即102个。模型的视觉Encoder作为Teacher,EVA V2使用了智源自己训练的gaint规模多模态模型EVA-CLIP作为Teacher。

2025-01-13 10:45:54 119

imagemagick.zip

imagemagick的pdf教程以及中文翻译版本

2022-01-18

图像篡改检测.zip

图像篡改ppt。

2019-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除