Kling O1:快手打造的全能型 AI 视频模型

VideoToPrompton 14 days ago6 min read

为什么 Kling O1 值得你关注

说实话——当快手在 2025 年 12 月首次发布 Kling O1 时,我是持怀疑态度的。"全球首个统一多模态视频模型"听起来像是营销噱头。然后我实际用了一下。三个月后,它已经成为我做快速视频原型的首选工具,我觉得 AI 视频领域的大多数人都低估了它。

下面是 Kling O1 真正能做什么、不能做什么,以及它对所有 AI 视频内容创作者的意义。

Kling O1 的"统一"意味着什么?

大多数 AI 视频工具都是单一用途的。你在这边有一个文生视频工具,那边有一个图片动画工具,另外还有一个编辑工具。每次切换工具,你都会失去上下文、风格一致性和时间。

Kling O1 将所有功能整合在一个界面中:

  • 文生视频 —— 描述场景即可获得视频片段
  • 图生视频 —— 将静态照片动画化
  • 角色参考 —— 上传角色图片保持一致性
  • 视频编辑 —— 用文字命令修改现有片段
  • 镜头转场 —— 生成场景间的流畅过渡
  • 首尾帧控制 —— 精确指定片段的开头和结尾

"统一"不仅仅是方便——它意味着模型在操作之间保持上下文。当你编辑你生成的片段时,它记得原始场景参数。当你延展一个镜头时,它理解之前内容的物理和光照。

基于文本的编辑:杀手级功能

这是说服我的功能。你上传一段视频——AI 生成的或真实素材——然后输入你想要的修改。

"移除背景中的行人。" 完成。 "将时间从白天改为黄昏。" 完成。 "把主角的夹克从蓝色换成皮衣。" 完成。

Kling O1 执行的是他们所称的"像素级语义重建"。它不只是简单地加个滤镜。它真正理解场景的 3D 结构,修改特定元素的同时保留其他所有内容。

我用一段人在公园散步的片段测试了它。我要求它"添加飘落的秋叶"。叶子与场景中已有的风向互动,按照地形堆积在地面上,也不会穿透人物。这种场景理解能力是大多数工具所不具备的。

真正有效的角色一致性

角色一致性问题从一开始就困扰着 AI 视频。你在一个场景中生成一个角色,到了下一个场景,他看起来就像是完全不同的人。

Kling O1 的方法是:上传最多 10 张角色参考图片,模型就会锁定其视觉身份。我用 5 个不同角度的参考图测试了一个角色,生成了 4 个场景的序列——室内对话、户外散步、面部特写和远景建立镜头。角色在四个场景中都保持了可辨识度。

它并非完美无瑕。极端的光线变化(从明亮日光到烛光室内)可能会改变肤色,非常具体的配饰如眼镜在某些角度偶尔会消失。但对于社交媒体内容和短视频来说,一致性已经足以讲述一个连贯的视觉故事。

图像模型

Kling O1 不仅仅是视频——它包含完整的图像生成和编辑流程。你可以从文本生成图像,使用最多 10 张参考图片,并且无缝地从图像创建过渡到视频生成。

工作流程的好处是实在的:我先将角色设计为静态图像,通过几次迭代优化外观,然后将那张图片直接作为视频生成的起点。不需要在不同工具之间导出-导入-然后祈祷它看起来一样。

对于缩略图创建、故事板和后续要做成动画的概念艺术,这个集成流程确实节省了时间。

6000 万创作者和 2.4 亿美元年收入

值得关注的数据:截至 2025 年 12 月,Kling AI 平台拥有超过 6000 万创作者,已生成超过 6 亿段视频,每月收入达 2000 万美元。

这些不是研究实验室的指标。这是一个被真实创作者大规模使用来制作真实内容的生产平台。庞大的使用量意味着模型在不断根据实际创作者需求进行优化,而不仅仅是基准数据集。

作为参考,这大约与 Canva 等专业工具在类似阶段拥有的用户基数相当。Kling 正在成为基础设施,而不只是一个新奇玩意。

横向对比

功能Kling O1Sora 2.0Runway Gen-3
统一编辑有限
角色一致性中等中等
最大视频长度10秒(标准)20秒10秒
图像+视频流程集成分离分离
音频生成是(Kling 2.6)
定价按点数订阅制订阅制
公开 API

Sora 仍然能生成更长、更连贯的单个片段。Runway 拥有最精致的专业工作流程界面。但 Kling O1 的统一方法意味着更少的工具切换,更多的时间用于创作。

想看看不同模型如何解读同一个提示词?使用 VideoToPrompt 从 AI 生成的视频中提取提示词,然后在不同模型中运行来比较输出。这是了解每个模型优势的最快方式。

我的测试实用技巧

从图片开始,而不是文本。 当你提供起始图片参考时,Kling O1 能产生更一致的结果,而不是纯依赖文本描述。先生成第一帧图片,确认效果后再进行动画。

使用文本计数器控制提示词长度。 Kling 有 token 限制,过长的提示词会被不可预测地截断。视频提示词最好控制在 150 词以内。

分层编辑。 不要试图在一次生成中做到完美,先生成基础片段,然后使用文本编辑功能来优化特定元素。编辑功能足够强大,后期迭代往往比重新生成更快。

参考图片比文本更重要。 使用角色一致性功能时,花时间创建好的参考图片。三张精心构图的角度参考胜过十张随意拍的。

有待改进之处

  • 速度:生成速度比 Runway 慢,尤其是较长的片段
  • 英文提示词质量:与大多数中国开发的模型一样,中文提示词的效果明显更好。英文可以用,但不够细腻。
  • 复杂物理:多物体交互和流体动力学仍然不太稳定
  • 文档:英文文档明显落后于中文版本

总结

Kling O1 不是最华丽的 AI 视频模型。它不能生成最长的片段,也不是最逼真的输出。但它是我用过的最实用的内容制作工具。在一个工具中完成生成、编辑、保持一致性和迭代的统一工作流程,是真正的生产力优势。

如果你在持续创作视频内容,并且厌倦了在多个 AI 工具之间来回切换,Kling O1 值得一试。

要提升你在各种模型上的提示词技巧,试试 VideoToPrompt —— 从你欣赏的视频中提取提示词结构,学习有效的方法,然后应用到你自己的创作中。