Kling O1: 모든 것을 한 곳에서 처리하는 Kuaishou의 통합 AI 영상 모델

VideoToPrompton 20 days ago11 min read

Kling O1에 주목해야 하는 이유

솔직히 말하면, 2025년 12월 Kuaishou가 Kling O1을 처음 발표했을 때 회의적이었습니다. "세계 최초 통합 멀티모달 비디오 모델"은 마케팅 과장처럼 들렸습니다. 그런데 실제로 사용해봤습니다. 3개월이 지난 지금, 빠른 영상 프로토타이핑을 위한 기본 도구가 되었고, AI 영상 분야의 대부분 사람들이 이를 간과하고 있다고 생각합니다.

Kling O1이 실제로 제공하는 것, 제공하지 못하는 것, 그리고 AI 생성 영상을 만드는 모든 사람에게 왜 중요한지 알려드리겠습니다.

Kling O1의 "통합"이란?

대부분의 AI 영상 도구는 단일 목적입니다. 텍스트 투 비디오 생성기가 여기, 이미지 애니메이터가 저기, 별도의 편집 도구가 또 어딘가에 있습니다. 도구를 전환할 때마다 맥락, 스타일 일관성, 시간을 잃습니다.

Kling O1은 모든 것을 하나의 인터페이스로 통합합니다:

  • 텍스트 투 비디오 생성 — 장면을 설명하면 클립을 얻음
  • 이미지 투 비디오 — 정지 사진에 모션을 추가하여 애니메이션
  • 피사체 참조 — 일관성을 위해 캐릭터 이미지 업로드
  • 영상 편집 — 텍스트 명령으로 기존 클립 수정
  • 샷 전환 — 장면 간 부드러운 컷 생성
  • 첫/마지막 프레임 제어 — 클립의 시작과 끝을 정확히 지정

"통합"이 단순한 편의성이 아닌 이유는 모델이 작업 간 맥락을 유지하기 때문입니다. 생성한 클립을 편집하면 원래 장면 매개변수를 기억합니다. 샷을 연장하면 이전의 물리와 조명을 이해합니다.

텍스트 기반 편집: 킬러 기능

이것이 저를 설득한 기능입니다. AI 생성이든 실제 영상이든 업로드하고 원하는 변경 사항을 입력합니다.

"배경의 사람들을 제거해주세요." 완료. "시간을 낮에서 황혼으로 변경." 완료. "주인공의 재킷을 파란색에서 가죽으로 교체." 완료.

Kling O1은 "픽셀 수준 의미 재구성"이라고 부르는 것을 수행합니다. 단순히 필터를 씌우는 것이 아닙니다. 장면의 3D 구조를 진정으로 이해하고 다른 모든 것을 보존하면서 특정 요소를 수정합니다.

공원을 걷는 사람의 클립으로 테스트했습니다. "가을 낙엽이 떨어지도록 추가해주세요"라고 요청했습니다. 낙엽은 장면에 이미 존재하는 바람 방향과 상호작용했고, 지형을 따라 바닥에 쌓였으며, 피사체를 통과하지 않았습니다. 대부분의 도구가 보여주지 못하는 수준의 장면 이해력입니다.

실제로 작동하는 캐릭터 일관성

캐릭터 일관성 문제는 AI 영상 출현 이래로 골칫거리였습니다. 한 장면에서 캐릭터를 생성하면, 다음 장면에서는 완전히 다른 사람처럼 보입니다.

Kling O1의 접근법: 캐릭터의 참조 이미지를 최대 10장까지 업로드하면 시각적 정체성을 고정합니다. 5개의 참조 각도로 정의한 캐릭터로 4개 장면 시퀀스(실내 대화, 야외 산책, 클로즈업 반응 샷, 와이드 설정 샷)를 생성하여 테스트했습니다. 캐릭터는 네 장면 모두에서 인식 가능하게 유지되었습니다.

완벽하지는 않습니다. 극적인 조명 변화(밝은 햇빛에서 촛불 실내로)는 피부톤을 변화시킬 수 있고, 안경 같은 매우 구체적인 액세서리는 특정 각도에서 가끔 사라집니다. 하지만 소셜 미디어 콘텐츠와 숏폼 영상에서는 일관된 시각적 스토리를 전달하기에 충분합니다.

이미지 모델

Kling O1은 영상만이 아니라 전체 이미지 생성 및 편집 파이프라인을 포함합니다. 텍스트에서 이미지를 생성하고, 최대 10개의 참조 이미지를 사용하며, 이미지 생성에서 영상 생성으로 매끄럽게 전환할 수 있습니다.

워크플로우의 이점은 실질적입니다: 정지 이미지로 캐릭터를 디자인하고, 여러 차례 반복하여 외형을 다듬은 다음, 그 정확한 이미지를 영상 생성의 출발점으로 사용했습니다. 별도 도구 간에 내보내기-가져오기-같아 보이길 바라기 작업이 없습니다.

썸네일 제작, 스토리보딩, 나중에 애니메이션이 될 컨셉 아트를 위해 이 통합 파이프라인은 진정한 시간 절약을 제공합니다.

6천만 크리에이터와 연 $240M 매출

주목할 만한 수치: 2025년 12월까지 Kling AI는 플랫폼에 6천만 명 이상의 크리에이터를 보유했고, 6억 개 이상의 영상을 생성했으며, 월 2천만 달러의 매출을 올렸습니다.

이것은 연구실 지표가 아닙니다. 실제 크리에이터가 실제 콘텐츠에 대규모로 사용하는 프로덕션 플랫폼입니다. 엄청난 사용량은 모델이 벤치마크 데이터셋이 아닌 실제 크리에이터의 니즈에 맞게 지속적으로 개선되고 있음을 의미합니다.

맥락을 잡자면, 유사한 단계에서 Canva 같은 전문 도구와 비슷한 사용자 기반입니다. Kling은 단순한 신기함이 아니라 인프라가 되어가고 있습니다.

비교

기능Kling O1Sora 2.0Runway Gen-3
통합 편집제한적아니오
캐릭터 일관성강함보통보통
최대 영상 길이10초 (표준)20초10초
이미지 + 영상 파이프라인통합분리분리
오디오 생성예 (Kling 2.6)아니오아니오
가격크레딧 기반구독제구독제
공개 API

Sora는 여전히 더 길고 일관된 단일 클립을 생성합니다. Runway는 전문 워크플로우를 위한 가장 세련된 UI를 가지고 있습니다. 하지만 Kling O1의 통합 접근법은 도구 전환을 줄이고 더 많은 창작을 의미합니다.

각 모델이 같은 프롬프트를 어떻게 해석하는지 보고 싶으신가요? VideoToPrompt로 AI 생성 영상에서 프롬프트를 추출한 다음, 다른 모델에 적용하여 결과물을 비교해보세요. 각 모델의 강점을 이해하는 가장 빠른 방법입니다.

테스트에서 얻은 실전 팁

텍스트가 아닌 이미지로 시작하세요. Kling O1은 순수 텍스트 설명에 의존하기보다 시작 이미지 참조를 제공할 때 더 일관된 결과를 만듭니다. 첫 프레임을 이미지로 생성하고, 승인한 다음 애니메이션을 적용하세요.

프롬프트 길이를 위해 Text Counter를 사용하세요. Kling에는 토큰 제한이 있으며, 지나치게 긴 프롬프트는 예측할 수 없게 잘립니다. 영상 프롬프트를 150단어 이하로 유지하세요.

편집을 레이어링하세요. 한 번의 생성으로 모든 것을 맞추려 하지 말고, 기본 클립을 생성한 다음 텍스트 기반 편집으로 특정 요소를 다듬으세요. 편집 기능이 충분히 강력해서 생성 후 반복 작업이 재프롬프팅보다 빠른 경우가 많습니다.

텍스트보다 참조 이미지가 더 중요합니다. 캐릭터 일관성으로 작업할 때, 좋은 참조 이미지를 만드는 데 시간을 투자하세요. 잘 구성된 3개의 참조 각도가 조잡한 10개보다 낫습니다.

개선이 필요한 점

  • 속도: 특히 긴 클립의 경우 Runway보다 생성이 느림
  • 영어 프롬프트 품질: 대부분의 중국 개발 모델처럼 중국어 프롬프트에서 눈에 띄게 더 좋은 성능. 영어는 작동하지만 덜 섬세함
  • 복잡한 물리: 다중 객체 상호작용과 유체 역학은 여전히 불안정
  • 문서화: 영어 문서가 중국어 버전에 비해 상당히 뒤처짐

결론

Kling O1은 가장 화려한 AI 영상 모델이 아닙니다. 가장 긴 클립이나 가장 포토리얼리스틱한 결과물을 생성하지도 않습니다. 하지만 실제 콘텐츠 제작에서 가장 실용적인 모델입니다. 통합 워크플로우(생성, 편집, 일관성 유지, 반복)를 단일 도구에서 제공하는 것은 진정한 생산성 이점입니다.

정기적으로 영상 콘텐츠를 만들면서 여러 AI 도구를 연결하는 것에 지쳤다면, Kling O1은 시간을 투자할 가치가 있습니다.

어떤 모델에서든 프롬프팅 기술을 날카롭게 하려면, VideoToPrompt를 시도해보세요. 감탄하는 영상에서 프롬프트 구조를 추출하고, 무엇이 효과적인지 배우고, 그 기법을 자신만의 창작에 적용하세요.

Kling O1: 모든 것을 한 곳에서 처리하는 Kuaishou의 통합 AI 영상 모델