英特尔实验室根据文本提示创建 360 度沉浸式图像

2023年6月22日下午10:13 • 最新资讯

英特尔的研究部门在IEEE/CVF计算机视觉和模式识别会议（CVPR）上展示了新技术。英特尔实验室与 Blockade Labs 合作，最近推出了一种独特的扩散模型，名为 3D 潜在扩散模型（LDM3D）。这种创新的生成人工智能（AI）扩散模型旨在从文本提示生成逼真的 3D 视觉内容。查看下面的 VR 演示。

“本研究论文提出了一种3D潜在扩散模型（LDM3D），该模型从给定的文本提示生成图像和深度图数据，允许用户从文本提示生成RGBD图像。

LDM3D是该领域的先驱，是第一个能够使用扩散过程生成深度图的模型，从而产生具有完整3度视图的生动和身临其境的360D图像。LDM3D 的潜在用途跨越多个行业，包括游戏、娱乐、建筑和设计，它有望极大地改变内容创作和数字体验的格局。

“生成式人工智能技术旨在进一步增强和增强人类的创造力并节省时间。然而，当今的大多数生成式 AI 模型仅限于生成 2D 图像，只有极少数可以从文本提示生成 3D 图像。

与现有的潜在Stable Diffusion模型不同，LDM3D允许用户使用几乎相同数量的参数从给定的文本提示生成图像和深度图。与用于深度估计的标准后处理方法相比，它为图像中的每个像素提供了更准确的相对深度，并为开发人员节省了大量开发场景的时间，“英特尔实验室 AI/ML 研究科学家 Vasudev Lal 说。

生成式人工智能技术旨在增强和放大人类的创造力，同时节省宝贵的时间。然而，目前的生成式AI模型主要生成2D图像，只有少数能够从文本提示生成3D图像。

LDM3D与标准不同，使用户能够使用与潜在Stable Diffusion模型几乎相同数量的参数，从给定的文本提示生成图像和深度图。与用于深度估计的标准后处理技术相比，这种方法为图像中的每个像素提供了更精确的相对深度，从而大大减少了开发人员在场景开发上花费的时间。

来自文本提示的 360 度图像

这项研究的潜在影响是深远的，有望改变我们与数字内容互动的方式。通过允许用户以全新的方式可视化其文本提示，LDM3D 能够将热带海滩、现代摩天大楼或科幻宇宙的文本描述转换为详细的 360 度全景图。

这种捕获深度信息的能力可以极大地增强真实感和沉浸感，为广泛的行业开辟新的应用，从游戏和娱乐到室内设计和房地产列表，以及虚拟博物馆和沉浸式虚拟现实（VR）体验。

为了构建用于训练LDM3D的数据集，使用了来自LAION-10M数据库的000，400个样本的子集，其中包括超过400亿个图像标题对。之前在英特尔实验室开发的密集预测转换器（DPT）大深度估计模型用于注释训练语料库。DPT 大模型为图像中的每个像素提供高度准确的相对深度。

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun235438.html

图像扩散模型文本

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

如何在 Kick 上能不能赚钱，操作方法有哪些？

上一篇 2023年6月22日下午10:13

这是新宝马M2，宝马M2怎么样

下一篇 2023年6月22日下午10:15

Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
Win 11

如何使用 Windows Phone 链接复制 Android 照片中的文本

Windows 上的 Phone Link 应用程序具有多项功能，可让用户连接到智能手机并访问其内容。现在，Microsoft使用新的“文本”工具更新了该应用程序，该工具也与Sni…

2024年5月30日
在 iPhone 上找不到要纠正的红眼：修复

红眼校正功能可校正 iPhone 中拍摄的照片中的红眼。但是，当板载 AI 无法正确检测到图片中的红眼时，它会显示“没有找到要纠正的红眼”消息。您可以采取一些措施来避免此问题。当您…

2024年5月29日 • 苹果Apple
ChatGPT产品层面的更新

ChatGPT产品层面的更新新的 ChatGPT 更新，支持利用 GPT-4o 进行实时的语音和视频对话。网页端和移动端全新的 UI 设计。发布 Mac 版本的 ChatGP…

工具软件 2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

AI画图应用Ideogram发布模型更新

AI画图应用Ideogram发布模型更新 Ideogram 发布了一大波更新，模型能力再次增强，平时做海报和普通图片挺好用的。主要升级内容有：增强的文字渲染和照片写实效果：减少…

2024年5月10日
如何窥视 .使用 PowerToys 在 Windows 上使用 WebP 映像

Microsoft 的 PowerToys 一直是用户执行 Windows 上原生无法执行的各种任务的首选工具。在它的各种实用程序中，有一个是’Peek’，…

2024年4月10日 • Win 11
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Excel不断更改数字：如何修复

Excel 具有此功能，它可以自动将单元格中的数字转换为特定日期。但是，如果 Excel 开始将数字更改为日期格式，这个有用的功能很快就会成为您头疼的原因！此问题可能会影响整个行或…

2024年3月31日 • 苹果Apple
工具软件

利用 Google Gemini 的强大功能：初学者指南

利用 Google Gemini 的强大功能：初学者指南 Google Gemini 是一款突破性的 AI 模型，可无缝融合语言、图像和代码处理功能。这是一个真正的多模态强国，正在…

2024年3月26日
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
Microsoft Edge 正在 Windows 上获得新的 AI 功能和放大图像

Microsoft Edge具有新的“放大图像”功能，可改进您在浏览器中缩放图像的方式。传统上，您可以右键单击图像，然后选择“在新选项卡中打开图像”选项，这将加载高分辨率版本。然后…

2024年3月24日 • 微软Microsoft
工具软件

Midjourney Consistent Characters 提示和技巧

Midjourney Consistent Characters 提示和技巧在《Midjourney》中，你有能力让你的数字角色栩栩如生，但这需要创造力和技术诀窍的融合。本指南将…

2024年3月21日
Microsoft Edge正在Windows上获得新的AI功能和放大图像

Microsoft Edge 具有新的“放大图像”功能，可改进您在浏览器中缩放图像的方式。传统上，您可以右键单击图像，然后选择“在新选项卡中打开图像”选项，这将加载高分辨率版本。然…

2024年3月21日 • 微软Microsoft
如何在Windows上免费打开HEIC图像

当我们熟悉 JPEG、PNG 和 GIF 图像格式时，并不是说这三种图像格式仅用于将数据填充到像素中，使其看起来像图像。随着现代智能手机拍摄的照片太多，为新照片创造更多空间非常重要…

2024年3月17日 • 工具软件
工具软件

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库提示是人工智能（AI）的命脉，可让您从大型语言模型中获得最佳结果。如果您正在寻找在尖端技术和 …

2024年3月15日
使用 Canva Magic Edit 替换图像中对象的 2 种方法

Canva 提供了一个魔术编辑工具，允许用户替换图像中的对象并将它们换成其他东西。该工具可用于将带有某些元素的现有图像转换为具有一整套其他元素，方法是将不需要的部分替换为 AI 生…

2024年3月6日 • 工具软件
如何在 Google Gemini 上的提示中添加图像

Gemini 为用户提供了将图像添加到他们的提示中的能力。结合其对图像的反应能力，Gemini 可以“理解”图像，使其成为一个完全可视化（和基于文本）的 AI 聊天机器人。以下是如…

2024年3月4日 • 谷歌Google
苹果Apple

在 iPhone 上从 PDF 获取文本的 3 种方法

Apple 的实况文本功能可以识别“照片”或“相机”应用程序中的文本、手写笔记和数字，并允许您将这些信息粘贴到任何其他应用程序上。但是，当您处理 PDF 并想从中提取文本时，您会怎…

2024年2月22日
如何在 Windows 上使用 PowerToys 批量调整图像大小

那些每天必须处理图像文件的人通常必须调整它们的大小以适应他们的项目和工作需求。但是，如果要处理的图像太多，则单独调整它们的大小会消耗大量时间和精力。在这种情况下，像 PowerT…

2024年2月2日 • Win 11
如何使用截图工具从图像中编辑和提取文本 Windows 11

与许多其他应用程序一样，Microsoft正在更新和简化Windows的本机屏幕截图应用程序Snipping Tool，并提供一些新功能。“文本操作”是一项基于 OCR 的新功能，…

2024年2月2日 • Win 11
在 iPhone 上为文本添加下划线的 11 种方法

在计算机上进行文本编辑非常简单。您可以使用 Command（在 CTRL 上）+ U 键盘快捷键为部分文本添加下划线。不过，在你的手机上，情况有点不同。由于您在手机上处理很多应用程…

2024年1月19日 • 苹果Apple
如何在 Snapchat 中扩展图像

为了跟上 AI 趋势和 AI 为图像处理带来的一系列全新酷炫功能，Snapchat 添加了另一项新功能，即使用 AI 扩展快照的能力。此功能可以帮助您使用 AI 缩小照片并扩展照片…

2024年1月5日 • 技术教程
工具软件

Midjourney 6 与 Midjourney 5 逼真度和电影图像比较

随着 Midjourney 6 的推出，AI 摄影和 AI 艺术生成世界见证了重大飞跃。这个新版本是其前身 Midjourney 5 的重大升级，提供了一套增强功能，旨在重新定义 …

2024年1月3日

英特尔实验室根据文本提示创建 360 度沉浸式图像

来自文本提示的 360 度图像

相关推荐