先用图像-视频联合VAE将图像和视频压缩到共享的潜在空间,再用全注意力Transformer对潜在表示进行建模,实现图像和视频的统一生成。