OMG: 在扩散模型中友好处理遮挡的个性化多概念生成

2024年3月26日下午4:12 • 工具软件

OMG: 在扩散模型中友好处理遮挡的个性化多概念生成

腾讯这个新研究，支持多角色多概念在一张图片中生成。以前的 ID 或者概念保持项目只能将一个人还原在图片里面，有了这个项目以后就可以多人合照了。

项目还支持与原有的 ID 保持项目一起使用比如 Lora 以及InstantID。代码已经开源，大佬们可以看看插件实现了。

项目介绍：

我们提出了一个名为OMG的新框架，它是专门为个性化生成设计的，并能友好地处理遮挡问题，能够在一幅图像中无缝集成多种概念。

我们的框架包含两个阶段：第一阶段专注于图像布局的生成和为处理遮挡而收集视觉理解信息；第二阶段则利用这些视觉理解信息，并结合精心设计的噪声混合技术，将多个概念融合在一起，同时考虑遮挡因素。

我们还发现，在噪声混合过程中选择合适的开始去噪时间点对于保持人物身份和图像布局至关重要

此外，OMG还能与多种单概念生成模型兼容，如LoRA和InstantID，无需额外调整。尤其值得一提的是，LoRA模型可以直接从这个网址获取并使用。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun291852.html

处理遮挡概念生成

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

字节发布了AnimateDiff-Lightning 模型

上一篇 2024年3月26日

FRESCO：实现零样本视频翻译的空间与时间匹配技术

下一篇 2024年3月26日

工具软件

Polymet ：AI 生成前端界面

Polymet ：AI 生成前端界面 YC 投了一个类似V0 的前端代码生成项目 Polymet。这个比 V0 多了很多很实用的功能对设计的还原也很好。自定义主题色、字体、圆角…

2024年9月20日
工具软件

Clapper app：AI 剪辑工具

Clapper app：AI 剪辑工具非常强的网页端 AI 生成和视频剪辑工具。接入了 AI 视频需要的各种 API，包括图片生成、LLM、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日
工具软件

The AI Scientist：可以进行自主科学发现和论文撰写的 Agents

The AI Scientist：可以进行自主科学发现和论文撰写的 Agents Sakana AI 宣布开发了一个名为 “The AI Scientist” 的系统，它能够自动化…

2024年8月31日
工具软件

Ideogram 发布了 2.0 图像生成模型

Ideogram 发布了 2.0 图像生成模型图像生成质量大幅提高，产品易用性改善，最强的文字生成能力。尝试了一下发现真的很离谱，不只是文字生成这么简单，可以实现复杂排版搭配色彩…

2024年8月31日
工具软件

User Evaluation：AI 帮助进行用户研究

User Evaluation：AI 帮助进行用户研究 User Evaluation 是一个利用人工智能（AI）来提升用户研究和数据分析的工具。功能特点 AI驱动的转录：支持5…

2024年5月20日
工具软件

Wegic：即时设计团队推出的 AI 网页生成工具

Wegic：即时设计团队推出的 AI 网页生成工具尝试了一下，Wegic 这个 AI 网页生成工具也太好了。通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太…

2024年5月20日
工具软件

viva：首个可供使用的 Dit 架构视频生成工具

viva：首个可供使用的 Dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
工具软件

AI音乐生成工具Udio发布

AI音乐生成工具Udio发布音乐生成应用Udio正式发布比Suno有更多的自定义能力。同时整个软件的设计也更偏向内容消费，不只是单纯的当工具在做。前谷歌DeepMind的顶尖A…

2024年5月10日
Midreal：AI小说生成

Midreal：AI小说生成最近发现之前推荐过的 Midreal AI 互动小说游戏更新了网页版本，不需要在 Discord 里面使用了。这次升级非常强大，Midreal已经不…

工具软件 2024年5月10日
Mora：借助多智能体系统实现通用视频生成

Mora：借助多智能体系统实现通用视频生成微软的一个视频生成项目 Mora，利用 Agents 来复原 Sora 的能力，基本还原了 Sora 所有的能力，目前支持生成 1024…

工具软件 2024年3月26日
工具软件

如何使用 Haiper 免费制作 AI 视频

如何使用 Haiper 免费制作 AI 视频 Haiper AI 是一款突破性的 AI 视频生成器，最近进入市场，为用户提供了完全免费创建令人惊叹的逼真视频的能力。Haiper A…

2024年3月17日
工具软件

Assistive：视频生成工具

Assistive：视频生成工具新的视频生成软件Assistive，支持从文本和图像生成视频，从演示视频的流体内容和表现来看，我嗅到了SVD的熟悉味道。同时推出的还有DATA-一…

2024年1月2日
工具软件

TwitterBio：使用 AI 帮你生成推特简介

TwitterBio：使用 AI 帮你生成推特简介使用 Mixtral 和 GPT-3.5生成你的Twitter 简介。项目已经开源，可以改一改生搞成国内的。

2023年12月26日
工具软件

Tripo3d：AI生成3D模型

Tripo3d：AI生成3D模型可以说是现在最强大的3D模型生成工具，一经发布就把几个老牌产品打趴了，支持从文字直接生成3D模型，也支持图片生成。

2023年12月26日
工具软件

Creatify：从一条链接生成视频广告

Creatify：从一条链接生成视频广告 Creatify 这个产品，可以直接从你的产品页面获取内容，可以是官网可以是电商商品页，然后直接生成广告视频。优质广告的广告语口播和内容其…

2023年12月26日
工具软件

ChatGPT 内容创建者手册：生成博客文章、脚本等

ChatGPT 是 OpenAI 打造的尖端语言模型，是内容创作领域的变革力量。这种先进的人工智能的实力在于它以令人印象深刻的速度无缝生成反映人类质量的文本。这种能力使其成为各种内…

2023年12月21日
Midjoourney V6 beta 版本更新后缀加 –v 6就可以

Midjoourney V6 beta 版本更新后缀加 –v 6就可以Midjourney V6 特色亮点： 1、超高图像分辨率：V6 呈现 2048×2048 …

工具软件 2023年12月21日
谷歌发布了一个用于视频生成的大语言模型VideoPoet

谷歌发布了一个用于视频生成的大语言模型VideoPoet，这个有点意思。这个是一个专注于视频生成的多模态 LLM 。支持各种视频生成功能以及音频生成，让 LLM 来指导完整的视频生…

工具软件 2023年12月21日
W.A.L.T：谷歌视频生成模型

W.A.L.T：谷歌视频生成模型刚注意到李飞飞团队的这个视频生成模型W.A.L.T，这效果也太好了，感觉比 Pika 1.0 还要好的多。清晰度和动作都非常好，特别是光剑打斗的那…

工具软件 2023年12月19日
工具软件

Coffee：AI 生成前端组件

Coffee：AI 生成前端组件这个AI生成前端代码的项目“Coffee”有意思，可以生成干净可维护的前端组件代码。交互也很有意思，你只需要在代码对应位置加一个标签在里面写上对组…

2023年12月19日
工具软件

Runway ：上线文字生成语音功能

Runway ：上线文字生成语音功能尝试了一下英文的效果真的很好，感情很丰富自然。中文还是老问题，有外国人口音，这块可能不能指望外国公司了。这个功能可以选的语音模型非常多，可以都…

2023年12月19日
工具软件

Midreal AI：AI生成小说

Midreal AI：AI生成小说 Midreal AI小说生成工具，与其他LLM直接生成的所谓根本没有逻辑和情节的“小说”不同。这个产品可以生成真正的小说，逻辑性和创造力都在线，…

2023年12月19日
工具软件

Midjourney发布网页图片生成功能

Midjourney发布网页图片生成功能 Midjourney上周发布了Alpha版本的网页图片生成功能写一下如何使用Alpha 版本和图片生成的一些变化，后面发现的小细节也会写在…

2023年12月19日
如何使用 Snapchat 生成 AI 图像

Snapchat 最近推出了非常酷的功能，其中之一是使用 AI 生成带有简单提示的图像（甚至扩展图像）。再见，Midjourney？因此，如果您经常使用其他 AI 生成图像并将其发…

技术教程 2023年12月18日
谷歌Google

如何在 Google Bard 中充分利用 Gemini

谷歌最近对其称为 Bard 的大型语言模型进行了重大增强。这种增强功能以集成 Gemini AI 的形式出现，Gemini AI 是一种新颖的神经网络架构。Gemini 的独特之处…

2023年12月15日

OMG: 在扩散模型中友好处理遮挡的个性化多概念生成

相关推荐