Kling 3.0 运动控制:上传任意视频作为运动参考

VideoToPrompton 14 days ago9 min read

Kling 3.0 运动控制如何改变 AI 视频制作

Kling 3.0 的运动控制功能是我自从开始使用 AI 视频工具以来一直期待的。你不再需要用文字描述动作然后祈祷模型能正确理解,而是直接上传一段视频作为参考,Kling 就会将那些精确的动作转移到你的 AI 角色上。我花了整整一周的时间测试它,它解决了困扰我数月的问题。

该功能在发布时就获得了多个平台的支持。OpenArt 的发布帖获得了 548 个赞和超过 230 万次浏览,而且已经在 Lovart、OpenArt 和 invideo 上线。这种发布即多平台可用的覆盖度足以说明这项功能的重要性。

运动控制到底做了什么

从本质上讲,Kling 3.0 运动控制让你可以上传任何视频作为运动参考。系统会从参考片段中提取身体动作、手势、面部表情和整体运动特征,然后将其应用到新生成的 AI 角色或场景中。

你可以把它想象成一个不需要特殊服装、标记点或工作室设备的动作捕捉系统。你用手机录下自己表演一个场景,上传这段片段作为参考,Kling 就会生成一段精致的 AI 视频,完全跟随你的动作。

核心功能包括:

  • 全身动作转移 —— 支持任何视频源
  • 面部表情保留 —— 包括细微的微表情
  • 手势一致性 —— 保持手臂和手部动作
  • 最长 30 秒的生成输出
  • 兼容任何参考视频 —— 包括屏幕录制、手机拍摄或专业素材

分步教程:你的第一个运动控制视频

以下是我制作运动控制 AI 视频的完整工作流程。我将以 OpenArt 为例进行演示,因为我在那里获得了最稳定的效果。

第 1 步:录制参考视频

参考视频的质量直接决定了输出质量。以下是我遵循的录制规则:

光线比相机质量更重要。 光线充足的手机录制比光线昏暗的单反录制效果更好。面对窗户或使用环形灯。均匀柔和的光线能让动作提取算法获得最佳的追踪效果。

保持背景简洁。 素色墙面效果最好。复杂的背景可能会干扰动作追踪,尤其是当你的身体经过复杂的图案或家具前面时。

对话场景取腰部以上,动作场景取全身。 算法需要看到你想要转移的身体部位。如果双手对场景很重要,确保它们在整个片段中完全可见。

保持稳定的距离。 不要在录制过程中变焦。选择一个构图然后保持不变。你可以在生成提示词中控制最终的相机角度。

控制在 10 秒以内效果最佳。 虽然 Kling 支持最长 30 秒的输出,但较短的参考片段能产生更准确的运动转移。我通常录制 5-8 秒的参考片段,然后在后期将它们拼接在一起。

第 2 步:准备角色描述

在上传参考之前,先写一个详细的角色提示词。运动控制处理动作,但文字提示词控制外观。

一个效果不错的模板:

"[年龄] [性别],[发型描述],穿着 [服装],[肤色/种族(如相关)],[艺术风格:写实/动画/风格化]"

示例:"一位 30 岁的女性,留着齐肩黑发,穿着藏蓝色西装外套搭配白色 T 恤,温暖的肤色,写实风格,柔和的工作室灯光。"

服装要具体描述,因为它会影响模型对身体运动的理解。宽松衣物和贴身衣物的运动方式不同,模型需要这些信息才能令人信服地渲染运动效果。

第 3 步:上传和配置

在 OpenArt(或你选择的平台)上:

  1. 选择 Kling 3.0 作为模型
  2. 在设置面板中启用运动控制
  3. 上传你的参考视频
  4. 输入角色描述提示词
  5. 设置时长(建议与参考片段长度一致)
  6. 质量设为"高"用于最终输出,设为"标准"用于测试迭代
  7. 生成

生成通常需要 2-4 分钟,具体取决于片段长度和服务器负载。测试时使用标准质量即可,确认你的参考视频和提示词组合有效后再进行高质量渲染。

第 4 步:迭代优化

你的第一次生成很少会完美。以下是我排除常见问题的方法:

运动与参考不匹配: 重新录制参考视频,动作要更慢更刻意。快速、突然的动作更难被算法准确追踪。

角色外观在片段中途变化: 在提示词中添加更具体的锚定细节。不要只说"棕色头发",试试"直发棕色头发,中分,长度刚好到耳朵下方。" 更具体的描述能减少模型漂移的空间。

手部看起来不对: 这是最难解决的问题,部分原因是模型本身的限制。在参考视频中保持手部处于简单、清晰的姿势会有帮助。避免复杂的手指手势或手部重叠的位置。

真实使用案例

社交媒体说话头像视频

这是最显而易见的应用,效果也非常好。我录制了自己做一个 10 秒产品评测独白,上传作为参考,然后用不同的 AI 角色生成了相同的表达。

唇部同步不完美,但面部表情和头部动作的转移已经足够准确,适用于社交媒体内容。结合 AI 语音克隆,你可以在不出镜的情况下制作说话头像内容。

商业制作

内容创作者 starks_arq 展示了这种可能性,他仅用 12 小时就使用 Kling 3.0 结合 Nano Banana 制作了一支完整的 Rumble 广告。工作流程包括录制粗略表演作为参考片段、生成精致的 AI 版本、最后剪辑成完整序列。

对于无法负担专业演员和制作团队的小企业和独立创作者来说,这个工作流程是变革性的。你自己成为运动参考演员,Kling 负责视觉打磨。

叙事角色动画

运动控制为系列内容解锁了一致的角色动画。录制自己表演每个场景的动作,在所有生成中保持相同的角色提示词,你就能获得一个在多个片段中执行连贯动作的一致角色。

正如演员兼创作者 Uncanny Harry 所说,表演者将"与生成式 AI 一起创作",而不是被它取代。运动控制让人类表演成为输入,而不是障碍。你的表演技能直接提升你的 AI 视频输出质量。

进阶技巧

运动控制与图像参考结合使用

为了获得最大的角色一致性,可以同时使用运动控制和图像参考。上传角色参考图像来锁定视觉外观,然后使用运动控制来驱动表演。这种双输入方法产生了我使用任何 AI 视频工具以来最一致的效果。

拼接片段制作更长的序列

对于超过 30 秒的内容,我分段录制参考表演,然后分别生成每个片段。关键是在参考录制中保持一致的构图和光线,这样生成的片段能顺畅地衔接在一起。

尽可能使用每个生成片段的最后一帧作为下一次生成的参考。一些平台支持"继续"或"延展"功能。

运动保留的风格转换

我最喜欢的技巧之一:用自然主义风格录制参考,然后通过提示词生成完全不同的视觉风格。你的真实动作驱动一个动漫角色、像素艺术人物或水彩画,在自然运动和风格化视觉之间创造出令人惊艳的对比。

要研究顶级创作者如何构建运动控制生成的提示词,可以使用 VideoToPrompt 逆向分析他们发布的片段。从成功视频中提取提示词模式,能教你什么样的描述能产生最好的运动到视觉的转换效果。

运动控制可用平台

截至 2026 年 3 月,Kling 3.0 运动控制可在以下平台使用:

  • OpenArt —— 功能最完整的实现,最适合实验
  • Lovart —— 界面简洁,适合生产工作流程
  • invideo —— 集成在更完整的视频编辑流程中
  • Kling AI 原生平台 —— 直接访问,有时比第三方平台更早获得新功能

每个平台在界面和可用设置方面的实现略有不同,但底层的 Kling 3.0 模型是相同的。我建议先试用 OpenArt,因为它有最灵活的配置选项。

社区提示

AIWarper 发布了一个详细的教程帖子,涵盖了一些我在其他地方没有见过的技巧。最有用的洞察:使用慢动作参考素材能产生更流畅的 AI 输出,因为模型在每一帧中能获得更多的时间信息。

另一个改善效果的社区提示:以你期望的最终输出的相同宽高比录制参考视频。如果你要为 TikTok 生成竖版视频,就用竖屏模式录制参考。当运动提取不需要重新裁切追踪数据时,效果会更好。

有关 Kling 功能的更多信息,请查看 Kling AI 官方文档。即使你使用第三方平台,技术规格和提示词指南也值得一读。

常见错误

不要使用有版权的素材作为参考。 虽然 AI 会生成新的视觉内容,但使用有版权的动作表演作为输入会产生法律灰色地带。录制你自己的参考素材。

不要在第一次尝试时就搞得太复杂。 从简单的手势、说话头像或基本的行走循环开始。随着你了解系统如何理解不同类型的运动,再逐步增加复杂度。

不要忽视提示词。 运动控制处理动作,但你的文字提示词对视觉质量仍然极其重要。一个模糊的提示词配上完美的运动参考,效果只是一般。一个详细的提示词配上好的运动参考,效果会非常出色。

不要跳过测试生成。 在进行高质量渲染之前,始终先运行标准质量的测试。时间和点数的 2 倍差异在迭代过程中会很快累积。

要为运动控制视频制作更好的提示词,可以试试提示词增强器,在生成之前优化你的角色描述和场景设置。

这对 AI 视频创作意味着什么

运动控制从根本上将 AI 视频从"描述你想要的然后听天由命"转变为"展示你想要的然后让 AI 来打磨"。这种转变使 AI 视频在专业制作中变得更加可预测和实用。

我预计运动控制将在未来几个月内成为所有主要 AI 视频平台的标准功能。Kling 3.0 目前处于领先地位,但 Sora、Runway 和其他平台将会跟进。现在学习运动控制工作流程的创作者将拥有显著的先发优势。

想要提升你的 AI 视频提示词技巧?访问 VideoToPrompt 分析最佳 AI 视频是如何编写提示词的,并使用 Sora 提示词生成器 创建结构化提示词,这些提示词可以在不同的 AI 视频平台上通用,包括 Kling 的运动控制系统。

Kling 3.0 运动控制:上传任意视频作为运动参考