Story-to-Motion：根据文本故事内容生成连续的角色的动画

2023年11月23日下午3:36 • 工具软件

该项目商汤科技研究院开发，能够处理复杂的文本描述，并将这些描述转换成具体的动作和位置信息。

它不仅能生成单一动作，还能连续地生成一系列动作，创造出连贯的动画效果。

Story-to-Motion一个关键特点是它能够生成无限长的角色动画。

这意味着，理论上，只要提供的文本故事足够长且内容连续，这个系统就能不断地根据文本内容生成相应的角色动作和行为，从而创造出持续不断的动画序列。

主要原理：

1、文本解析与动作调度：首先，系统使用大型语言模型来解析输入的长文本故事。这个过程涉及从文本中提取关键信息，如角色的动作、位置和情境。这些信息被转换成一系列的（文本，位置）对，用于后续的动作生成。

2、文本驱动的动作检索：系统接着根据提取的信息检索合适的动作。这一步骤结合了动作匹配技术、动作语义理解和轨迹约束，以确保生成的动作不仅与文本内容相符，而且在空间上也是合理的。

3、动作合成与过渡处理：系统设计了一个特殊的渐进式掩码变换器，用于处理动作之间的过渡。这个变换器解决了动作合成中常见的问题，如不自然的姿势和脚部滑动，确保动作的自然流畅。

4、无限动画生成：由于系统能够连续处理文本中的动作描述，它可以生成无限长的动画序列。这意味着只要文本故事持续，动画也会相应地持续生成。

论文摘要

从故事中生成自然的人体动作有可能改变动画、游戏和电影行业的格局。当角色需要移动到不同的位置并根据长文本描述执行特定的动作时，就会出现一项新的、具有挑战性的任务，即故事到动作。该任务需要低级控制（轨迹）和高级控制（运动语义）的融合。先前在字符控制和文本到运动方面的工作已经解决了相关方面的问题，但全面的解决方案仍然难以捉摸：字符控制方法不处理文本描述，而文本到运动方法缺乏位置约束并且经常产生不稳定的运动。鉴于这些限制，我们提出了一种新颖的系统，可以生成与输入文本对齐的可控、无限长的运动和轨迹。

1）我们利用当代大型语言模型作为文本驱动的运动调度程序，从长文本中提取一系列（文本，位置）对。

2）我们开发了一种文本驱动的运动检索方案，该方案将经典运动匹配与运动语义和轨迹约束相结合。

3）我们设计了一个渐进式掩模转换器，可以解决过渡运动中的常见伪影，例如不自然的姿势和脚部滑动。

除了作为第一个故事到动作综合解决方案的先驱作用之外，我们的系统还对三个不同的子任务进行了评估：轨迹跟踪、时间动作合成和动作混合，其性能优于以前的最先进技术（ SOTA）全面的运动合成方法。

项目链接

项目及演示：https://story2motion.github.io

论文：https://arxiv.org/abs/2311.07446

原创文章，作者：校长，如若转载，请注明出处：https://www.yundongfang.com/Yun267378.html

动作文本生成

打赏

微信扫一扫不于多少！

支付宝扫一扫礼轻情意重

Windrecorder：连续记录屏幕内容，通过OCR技术识别记录内容

上一篇 2023年11月23日

阿里云研发大规模音频语言模型Qwen-Audio

下一篇 2023年11月23日

工具软件

Polymet ：AI 生成前端界面

Polymet ：AI 生成前端界面 YC 投了一个类似V0 的前端代码生成项目 Polymet。这个比 V0 多了很多很实用的功能对设计的还原也很好。自定义主题色、字体、圆角…

2024年9月20日
Napkin：文本转换为信息图表

Napkin：文本转换为信息图表 Napkin AI 是一个将文本内容转换为视觉图像的工具，旨在通过生成图表、流程图等视觉元素来加速和提高业务故事讲述的效果。使用 Napkin …

工具软件 2024年8月31日
工具软件

Clapper app：AI 剪辑工具

Clapper app：AI 剪辑工具非常强的网页端 AI 生成和视频剪辑工具。接入了 AI 视频需要的各种 API，包括图片生成、LLM、语音生成、音乐生成、视频生成。时间轴直…

2024年8月31日
工具软件

The AI Scientist：可以进行自主科学发现和论文撰写的 Agents

The AI Scientist：可以进行自主科学发现和论文撰写的 Agents Sakana AI 宣布开发了一个名为 “The AI Scientist” 的系统，它能够自动化…

2024年8月31日
工具软件

Ideogram 发布了 2.0 图像生成模型

Ideogram 发布了 2.0 图像生成模型图像生成质量大幅提高，产品易用性改善，最强的文字生成能力。尝试了一下发现真的很离谱，不只是文字生成这么简单，可以实现复杂排版搭配色彩…

2024年8月31日
Win 11

如何使用 Windows Phone 链接复制 Android 照片中的文本

Windows 上的 Phone Link 应用程序具有多项功能，可让用户连接到智能手机并访问其内容。现在，Microsoft使用新的“文本”工具更新了该应用程序，该工具也与Sni…

2024年5月30日
工具软件

User Evaluation：AI 帮助进行用户研究

User Evaluation：AI 帮助进行用户研究 User Evaluation 是一个利用人工智能（AI）来提升用户研究和数据分析的工具。功能特点 AI驱动的转录：支持5…

2024年5月20日
工具软件

Wegic：即时设计团队推出的 AI 网页生成工具

Wegic：即时设计团队推出的 AI 网页生成工具尝试了一下，Wegic 这个 AI 网页生成工具也太好了。通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太…

2024年5月20日
工具软件

viva：首个可供使用的 Dit 架构视频生成工具

viva：首个可供使用的 Dit 架构视频生成工具海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型，而且现阶段免费。支持文本生成视频、图片生成视频…

2024年5月20日
ChatGPT产品层面的更新

ChatGPT产品层面的更新新的 ChatGPT 更新，支持利用 GPT-4o 进行实时的语音和视频对话。网页端和移动端全新的 UI 设计。发布 Mac 版本的 ChatGP…

工具软件 2024年5月20日
关于GPT-4o 模型更新

关于GPT-4o 模型更新它可以接受任意组合的文本、音频和图像作为输入，并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入，平均为 320 毫秒，这与人…

工具软件 2024年5月20日
工具软件

Adobe 发布 Firefly Image 3 模型及对应新功能

Adobe 发布 Firefly Image 3 模型及对应新功能 Adobe 发布了Firefly Image 3模型，Photoshop（测试版）也大规模更新了很多功能。包括文…

2024年5月10日
工具软件

AI音乐生成工具Udio发布

AI音乐生成工具Udio发布音乐生成应用Udio正式发布比Suno有更多的自定义能力。同时整个软件的设计也更偏向内容消费，不只是单纯的当工具在做。前谷歌DeepMind的顶尖A…

2024年5月10日
Midreal：AI小说生成

Midreal：AI小说生成最近发现之前推荐过的 Midreal AI 互动小说游戏更新了网页版本，不需要在 Discord 里面使用了。这次升级非常强大，Midreal已经不…

工具软件 2024年5月10日
工具软件

WhatsApp将获得基于文本的状态更新的新界面以及转发和快退视频的能力

WhatsApp 通过定期更新不断改进。最近的报道表明，WhatsApp正在开发一个新的状态更新界面，为基于文本的更新提供自己的空间。此外，WhatsApp 还改进了平台上的视频播…

2024年4月6日
Excel不断更改数字：如何修复

Excel 具有此功能，它可以自动将单元格中的数字转换为特定日期。但是，如果 Excel 开始将数字更改为日期格式，这个有用的功能很快就会成为您头疼的原因！此问题可能会影响整个行或…

2024年3月31日 • 苹果Apple
工具软件

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI

Open-Sora 开源替代 OpenAI 的 Sora 文本转视频 AI 继今年早些时候推出 Sora 之后，OpenAI 强大的文本到视频 AI 模型以 Open-Sora 的…

2024年3月26日
Mora：借助多智能体系统实现通用视频生成

Mora：借助多智能体系统实现通用视频生成微软的一个视频生成项目 Mora，利用 Agents 来复原 Sora 的能力，基本还原了 Sora 所有的能力，目前支持生成 1024…

工具软件 2024年3月26日
OMG: 在扩散模型中友好处理遮挡的个性化多概念生成

OMG: 在扩散模型中友好处理遮挡的个性化多概念生成腾讯这个新研究，支持多角色多概念在一张图片中生成。以前的 ID 或者概念保持项目只能将一个人还原在图片里面，有了这个项目以后就…

工具软件 2024年3月26日
工具软件

如何使用 Haiper 免费制作 AI 视频

如何使用 Haiper 免费制作 AI 视频 Haiper AI 是一款突破性的 AI 视频生成器，最近进入市场，为用户提供了完全免费创建令人惊叹的逼真视频的能力。Haiper A…

2024年3月17日
工具软件

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库

为 Claude 3、ChatGPT 和 Gemini 发布的终极 AI 提示库提示是人工智能（AI）的命脉，可让您从大型语言模型中获得最佳结果。如果您正在寻找在尖端技术和 …

2024年3月15日
苹果Apple

在 iPhone 上从 PDF 获取文本的 3 种方法

Apple 的实况文本功能可以识别“照片”或“相机”应用程序中的文本、手写笔记和数字，并允许您将这些信息粘贴到任何其他应用程序上。但是，当您处理 PDF 并想从中提取文本时，您会怎…

2024年2月22日
如何使用截图工具从图像中编辑和提取文本 Windows 11

与许多其他应用程序一样，Microsoft正在更新和简化Windows的本机屏幕截图应用程序Snipping Tool，并提供一些新功能。“文本操作”是一项基于 OCR 的新功能，…

2024年2月2日 • Win 11
在 iPhone 上为文本添加下划线的 11 种方法

在计算机上进行文本编辑非常简单。您可以使用 Command（在 CTRL 上）+ U 键盘快捷键为部分文本添加下划线。不过，在你的手机上，情况有点不同。由于您在手机上处理很多应用程…

2024年1月19日 • 苹果Apple
工具软件

Google Gemini Pro 与 OpenAI ChatGPT-4 AI 模型比较

自去年年底推出并随后在 Google Bard 中推出以来，谷歌最新的 AI 模型 Gemini Pro 是 OpenAI 的 ChatGPT 的主要竞争对手，提供非常相似的多模态…

2024年1月2日

Story-to-Motion：根据文本故事内容生成连续的角色的动画

项目链接

相关推荐