Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation
Paper
•
2508.03334
•
Published
概述:MMPL 是在 Wan2.1-14B-T2V 基座上,使用 50k 私有高质量视频数据 进行微调得到的“规划式(Planning)”文本到视频生成模型。我们不修改任何原始架构,仅通过高质量规划式指令与监督,显著提升主体/背景一致性、运动平滑与文本-视觉对齐的人评表现。
MMPL 完全沿用 Wan2.1-14B-T2V 的原始网络结构与推理范式:
下表为 MMPL 与常见方法的对比。粗体表示该列最优。
| 模型 | Subject Consistency | Background Consistency | Motion Smoothness | Aesthetic Quality | Imaging Quality | Text-Visual Alignment | Content Consistency | Color Shift |
|---|---|---|---|---|---|---|---|---|
| Causal | ||||||||
| FIFO (Kim et al., 2024) | 0.956 | 0.960 | 0.949 | 0.588 | 0.603 | – | – | – |
| Distilled Causal | ||||||||
| CausVid (Yin et al., 2025) | 0.969 | 0.980 | 0.981 | 0.606 | 0.661 | 34.7 | 33.0 | 25.0 |
| SF (Huang et al., 2025a) | 0.967 | 0.958 | 0.980 | 0.593 | 0.689 | 52.0 | 46.1 | 50.5 |
| DF Causal | ||||||||
| SkyReels (Chen et al., 2025) | 0.956 | 0.966 | 0.991 | 0.600 | 0.581 | 47.9 | 51.4 | 51.3 |
| MAGI-1 (Teng et al., 2025) | 0.979 | 0.970 | 0.991 | 0.604 | 0.612 | 34.7 | 40.4 | 39.5 |
| Planning | ||||||||
| MMPL (ours) | 0.980 | 0.968 | 0.992 | 0.628 | 0.661 | 80.0 | 79.2 | 83.1 |
Base model
Wan-AI/Wan2.1-T2V-14B