Kling-MotionControl Technical Report

Authors: Jialu Chen, Yikang Ding, Zhixue Fang, Kun Gai, Kang He, Xu He, Jingyun Hua, Mingming Lao, Xiaohan Li, Hui Liu, Jiwen Liu, Xiaoqiang Liu, Fan Shi, Xiaoyu Shi, Peiqin Sun, Songlin Tang, Pengfei Wan, Tiancheng Wen, Zhiyong Wu, Haoxian Zhang*, Runze Zhao, Yuanxing Zhang, Yan Zhou (*Project Lead) Affiliations: Kling Team, Kuaishou Technology arXiv: 2603.03160 Project Page: app.klingai.com/global/video-motion-control/new

1. Motivation (研究动机)

角色图像动画(Character Image Animation)旨在将驱动视频中的运动动态迁移到包含不同角色的参考图像上,生成逼真的动画视频。该技术在数字虚拟人、动画制作、可控视频合成等领域具有广泛应用前景。

现有方法的局限性

  • 粒度割裂:早期方法要么专注于面部重演(facial reenactment),要么专注于身体动作控制(body motion control),难以在统一框架中同时处理身体、面部和手部的多粒度运动
  • 质量与可控性矛盾:Dreamina、Runway Act-Two、Wan-Animate 等全身动画方法在平衡大尺度肢体稳定性与细粒度细节(面部微表情、手指关节)方面存在困难
  • 跨身份迁移漂移:在动画/卡通等非写实角色上进行运动迁移时,容易出现身份漂移(identity drift)
  • 推理效率瓶颈:高保真度模型的计算成本过高,限制了实际部署

核心问题:如何在一个统一的 DiT-based 框架中,同时实现多粒度运动编排、跨身份鲁棒泛化、身份保持、3D 感知相机控制,并达到可实际部署的推理效率?

2. Idea (核心思想)

Kling-MotionControl 提出”分而治之”(divide-and-conquer)策略,核心思想包括:

  1. 异构运动表示编排(Heterogeneous Motion Representation Orchestration):针对身体、面部、手部的不同运动特性,设计专用的运动表示方案,通过渐进式多阶段训练将它们统一到单一模型中
  2. 身份无关的自适应运动学习(Identity-Agnostic Motion Learning):在几何层面将运动动态模式与驱动主体的物理属性解耦,实现从写实人物到风格化卡通的自然运动重定向
  3. 语义运动建模(Semantic Motion Modeling):捕获动作的高层语义意图(如”鼓掌”、“捂脸”),确保生成结果不仅在几何上对齐,还在语义上忠实于驱动表演
  4. 多阶段蒸馏加速(Multi-Stage Distillation):通过 dual-branch sampling、few-step distillation 和 CFG 梯度合并,实现端到端 加速

3. Method (方法)

3.1 Overall Framework

Figure 2 解读:Kling-MotionControl 的整体训练与推理流程。训练阶段分为两步:(1) Multi-Stage Identity-Agnostic Training——Teacher Model 进行多粒度运动建模和身份编码融合的训练;(2) Few-Step Distillation——将 Teacher Model 蒸馏为轻量 Student Model。推理阶段:输入参考图像 + Subject Library + 驱动视频 + 用户文本 Prompt,经过多粒度运动建模、身份编码融合、Prompt Enhancer & 语义运动建模三条路径汇入 Kling-MotionControl DiT (Student Model),输出动画视频。

系统基于 Diffusion Transformer (DiT) 作为生成骨干网络,核心组件包括:

  • Multi-Granularity Motion Modeling:多粒度运动建模模块
  • Identity Encoding & Fusion:身份编码与融合模块
  • Prompt Enhancer & Semantic Motion Modeling:提示增强与语义运动建模模块
  • Few-Step Distillation:推理加速蒸馏

3.2 Multi-Granularity Motion Modeling (多粒度运动建模)

采用”分而治之”策略,针对身体、面部、手部三个粒度分别设计异构运动表示:

运动粒度特点表示策略
Body (身体)大尺度结构性运动,需要全局稳定性定制化鲁棒表示,通过 multi-view supervision 增强 3D 感知
Face (面部)细粒度微表情,需要高表现力自适应表示建模丰富的非结构化面部动态,过滤无关身份线索
Hand (手部)复杂关节运动,精细动作针对手部特性的细化表示,协调全局稳定性与细粒度关节细节

渐进式多阶段训练策略(Progressive Multi-Stage Training):将三个粒度的运动表示在不同训练阶段逐步引入,使模型能在单一统一框架中同时建模:

  • 大尺度肢体运动的结构稳定性
  • 面部微表情的细腻表达
  • 手指交互的精细控制
# Pseudocode: Multi-Granularity Motion Modeling (推断流程)
def multi_granularity_motion_modeling(driving_video):
    """
    从驱动视频中提取多粒度运动表示
    """
    # Stage 1: 身体运动提取 - 大尺度骨骼/姿态信号
    body_motion = extract_body_representation(driving_video)
    # 通过 multi-view supervision 增强 3D 感知
    body_motion_3d = enhance_3d_awareness(body_motion)
 
    # Stage 2: 面部运动提取 - 细粒度表情动态
    face_motion = extract_face_representation(driving_video)
    # 自适应过滤身份相关信息,保留纯运动信号
    face_motion_clean = identity_agnostic_filter(face_motion)
 
    # Stage 3: 手部运动提取 - 关节级精细运动
    hand_motion = extract_hand_representation(driving_video)
 
    # 融合多粒度运动为统一条件信号
    motion_condition = fuse_motion_representations(
        body=body_motion_3d,
        face=face_motion_clean,
        hand=hand_motion
    )
    return motion_condition

3.3 Adaptive Cross-Identity Motion Transfer (自适应跨身份运动迁移)

身份无关运动学习范式(Identity-Agnostic Motion Learning):

核心目标是在几何层面将运动动态与驱动主体的物理属性解耦。这样模型能够:

  • 从驱动视频中提取纯粹的运动模式,不受驱动者外观干扰
  • 支持跨越显著形态差异的运动重定向(如成人到儿童、写实到卡通、人到动物)
  • 无需手动校准即可实现自然的运动迁移

语义运动建模模块(Semantic Motion Modeling):

在几何对齐的基础上,进一步捕获动作的高层语义意图:

  • 识别动作语义(如”鼓掌”、“捂脸”等)
  • 确保在复杂交互中正确解析运动歧义
  • 使生成结果不仅在姿态上对齐,还在动作语义上忠实
# Pseudocode: Identity-Agnostic Motion Learning
def identity_agnostic_training(driving_video, reference_image):
    """
    身份无关训练:解耦运动与身份
    """
    # 提取驱动视频的运动表示(去除身份信息)
    motion_repr = extract_identity_agnostic_motion(driving_video)
 
    # 提取参考图像的身份特征
    identity_feat = encode_identity(reference_image)
 
    # 语义运动建模 - 捕获高层动作意图
    semantic_motion = semantic_motion_module(motion_repr)
 
    # DiT 生成:以运动条件 + 身份条件生成视频
    output_video = dit_generate(
        motion_condition=semantic_motion,
        identity_condition=identity_feat,
        noise=sample_noise()
    )
    return output_video

3.4 Identity Encoding & Fusion (身份编码与融合)

Kling-MotionControl 通过专用的身份编码和融合机制实现高保真身份保持:

  • 身份嵌入提取与集成:精心提取参考图像的身份嵌入,确保运动迁移过程中严格保持角色特征
  • Subject Library 机制:允许用户提供额外参考材料(多视角图像或视频片段),构建更鲁棒的身份表示,在极端姿态或长时间生成中也能保持外观一致性
# Pseudocode: Identity Encoding & Fusion with Subject Library
def identity_encoding_and_fusion(reference_image, subject_library=None):
    """
    身份编码与融合,支持 Subject Library 增强
    """
    # 主身份编码
    primary_identity = identity_encoder(reference_image)
 
    if subject_library is not None:
        # Subject Library: 多视角/多片段身份信息聚合
        library_features = []
        for ref_material in subject_library:
            feat = identity_encoder(ref_material)
            library_features.append(feat)
        # 聚合多源身份特征,构建鲁棒身份表示
        enhanced_identity = aggregate_identity(
            primary_identity, library_features
        )
    else:
        enhanced_identity = primary_identity
 
    # 身份融合:注入 DiT 的生成过程
    identity_condition = identity_fusion_layer(enhanced_identity)
    return identity_condition

3.5 3D Awareness & Free-View Camera Control (3D 感知与自由视角相机控制)

通过大规模 multi-view supervision 赋予模型 3D 感知能力:

  • 感知驱动运动的内在 3D 几何与动态,超越简单的 2D 平面对齐
  • 支持在生成结果中灵活指定角色朝向
  • 通过文本描述控制动态相机轨迹(如平移、推拉、变焦)
  • 保持严格的几何一致性和结构完整性

3.6 Prompt Enhancer (提示增强器)

智能 Prompt Enhancer (PE) 模块弥合运动控制与文本引导之间的gap:

  • 在保持精确运动遵循的同时,高度响应用户文本提示
  • 用户可通过文本灵活操控:场景元素、服装风格、相机运动
  • 支持超越参考图像的创意控制(如改变背景、服装、环境)
# Pseudocode: Prompt Enhancer & Semantic Motion Modeling
def prompt_enhanced_generation(
    motion_condition,
    identity_condition,
    user_prompt
):
    """
    Prompt Enhancer 增强文本可控性
    """
    # Prompt Enhancer: 智能融合文本语义与运动信号
    enhanced_prompt = prompt_enhancer(
        user_prompt=user_prompt,
        motion_context=motion_condition
    )
 
    # 语义运动建模: 理解动作语义意图
    semantic_condition = semantic_motion_modeling(
        motion_condition,
        enhanced_prompt
    )
 
    # DiT 多条件生成
    output = kling_dit_forward(
        motion_cond=semantic_condition,
        identity_cond=identity_condition,
        text_cond=enhanced_prompt
    )
    return output

3.7 High-Efficiency Inference Acceleration (高效推理加速)

实现端到端 加速的三层加速框架:

Step 1: Dual-Branch Sampling Strategy(双分支采样策略)

  • 针对 Teacher Model 设计高效的多条件 Classifier-Free Guidance (CFG) 采样
  • 避免多个推理分支的计算负担

Step 2: Multi-Stage Distillation(多阶段蒸馏)

  • 大幅减少 Number of Function Evaluations (NFE)
  • 生成高质量的 few-step Student Model

Step 3: Conditional Gradient Merging(条件梯度合并)

  • 将 CFG 相关的条件梯度合并到 Student Model 中
  • 完全绕过推理时的 CFG 采样开销
# Pseudocode: Multi-Stage Distillation & Acceleration
def few_step_distillation(teacher_model, train_data):
    """
    多阶段蒸馏:Teacher -> Student
    """
    # Stage 1: 标准蒸馏 - 减少 NFE
    student_model = initialize_student(teacher_model)
    for batch in train_data:
        # Teacher 多步采样作为目标
        teacher_trajectory = teacher_model.multi_step_sample(
            batch, num_steps=50
        )
        # Student 少步采样
        student_output = student_model.few_step_sample(
            batch, num_steps=4  # 大幅减少步数
        )
        loss = distillation_loss(student_output, teacher_trajectory)
        loss.backward()
        optimizer.step()
 
    # Stage 2: 条件梯度合并 - 消除 CFG 开销
    # 将 conditional/unconditional 梯度差异直接内化到模型中
    student_model = merge_cfg_gradients(student_model)
 
    return student_model  # 单次前向即可生成,无需 CFG
 
 
def inference(reference_image, driving_video, user_prompt,
              subject_library=None):
    """
    完整推理流程
    """
    # 多粒度运动提取
    motion_cond = multi_granularity_motion_modeling(driving_video)
    # 身份编码
    identity_cond = identity_encoding_and_fusion(
        reference_image, subject_library
    )
    # Prompt 增强 + 语义运动
    output = prompt_enhanced_generation(
        motion_cond, identity_cond, user_prompt
    )
    return output

3.8 Data Curation Framework (数据策划框架)

构建了大规模高质量数据集,包含:

  • 多维筛选:视频质量评分、运动动态指标(幅度、流畅度)、主体一致性
  • 高质量渲染数据 + 高速摄像机拍摄:支持快速复杂运动的优化
  • 细粒度标注系统:覆盖具体动作、微表情、人物-物体交互、相机运动等属性

3.9 Code-to-Paper Mapping Table

Paper ConceptSource FileKey Class/Function
代码搜索未找到开源实现N/AN/A

注:Kling-MotionControl 为 Kuaishou 闭源商业产品,仅通过 https://app.klingai.com 提供 API 访问。

4. Experimental Setup (实验设置)

评估基准

  • 测试集:150 个高质量测试案例,每个包含参考图像 + 来自不同主体的驱动视频
  • 分辨率:1080P
  • 评估协议:人类偏好评估(Human Preference-based Subjective Evaluation)
    • Good/Same/Bad (GSB) 成对比较
    • 多人独立评判,多数投票决定最终标签
    • 核心指标: 比值,越高表示用户偏好越强

评估维度(5 个细粒度维度)

维度评估内容
Visual Quality (视觉质量)逐帧美学质量、图像清晰度、结构完整性、无伪影
Dynamic Quality (动态质量)时序一致性、运动流畅度、帧间连贯性
Identity Preservation (身份保持)参考图像的可辨识身份特征和外观细节保持
Motion Accuracy (运动准确度)整体身体运动迁移精度,姿态和手势是否准确复现
Expression Accuracy (表情准确度)面部动态与驱动源的对齐度,含头部姿态和微表情

对比方法

方法类型
Dreamina [1]商业方案(字节跳动)
Runway Act-Two [2]商业方案
Wan-Animate [5]开源 SOTA

5. Experimental Results (实验结果)

5.1 Quantitative Results (定量结果)

Figure 3 解读:GSB 偏好率(百分比)可视化。绿色代表 Kling-MotionControl 被偏好,灰色代表相同,浅色代表对手被偏好。在与 Dreamina 的对比中,Overall 偏好率为 72.0% vs 3.7%;与 Runway Act-Two 的对比中达到 93.8% vs 6.2%;与 Wan-Animate 的对比中为 75.8% vs 3.3%。Kling-MotionControl 在所有维度上均优于或不弱于竞争对手。

Table 1: GSB 指标数值结果 比值,越高越好)

GSB 对比OverallVisual Qual.Dynamic Qual.ID Preserv.Motion Acc.Expression Acc.
Ours vs. Dreamina3.443.331.921.561.051.20
Ours vs. Runway Act-Two16.258.004.642.953.324.50
Ours vs. Wan-Animate4.006.431.773.071.341.16

关键发现

  • Kling-MotionControl 在所有评估维度上均超越所有竞争对手
  • 与 Runway Act-Two 差距最大(Overall GSB 比值 16.25),说明 Runway 在全身动画方面显著落后
  • 在 Overall Preference 和 Visual Quality 上优势尤为显著
  • 与 Dreamina 最接近的是 Motion Accuracy (1.05) 和 Expression Accuracy (1.20)

5.2 Qualitative Results (定性结果)

Figure 4 解读:与 baseline 方法的定性对比。上方两组展示面部表情和手势细节:Dreamina 在极端情绪(如强烈悲伤)下表现有限;Wan-Animate 处理复杂手势时频繁出现错误手部运动和伪影;Runway Act-Two 在复杂手部姿态和面部动态上表现较差,甚至出现完全失败。Kling-MotionControl 能精确复制极端和微妙的表情以及复杂手部交互。下方两组展示复杂快速大幅运动:Dreamina 存在空间深度模糊和断裂肢体结构;Runway 面对快速运动容易崩溃;Wan-Animate 出现严重外观退化和全局色彩漂移。Kling-MotionControl 有效应对极端条件。

Figure 1 解读:Kling-MotionControl 的能力展示。上部:Fine-grained Expression & Gesture Imitation——精确复制驱动视频中的面部表情和手势到参考人物。中部:Robustness to Challenging Motion Transfer——在大幅度、复杂运动场景下保持鲁棒性。下部:Generalization to Diverse Characters——从写实人物到 3D 卡通角色的跨身份泛化,忠实保持目标角色身份。

Figure 5 解读:多样化场景下的生成结果。展示了从特写肖像到全身场景的多种 shot scale,涵盖写实人物面部表情、公主礼服手势、花样滑冰动态、卡通人物舞蹈、以及通过文本提示添加 Corgi 的创意控制能力。最后一行特别展示了 Prompt Enhancer 的文本可控性——通过 “A Corgi runs in from the left and circles around the girl’s feet” 添加了原始场景中不存在的元素。