OpenAI发布全新模型sCM：图像生成速度提升50倍，视频实时生成将不再是梦

文章目录

Diffusion models虽然在生成式 AI 领域混得风生水起，但采样速度慢一直是它的硬伤。要走几十步甚至几百步才能生成一张图片，效率低到让人抓狂！

虽然也有一些蒸馏技术，例如直接蒸馏、对抗蒸馏、渐进式蒸馏和变分分数蒸馏（VSD），可以加速采样，但它们都有各自的局限性，例如计算成本高、训练复杂、样本质量下降等现在，OpenAI 推出了全新的 sCM 模型，只需两步采样，速度提升 50 倍，性能直逼甚至超越扩散模型

sCM作为其前期一致性模型研究的延续和改进，简化了理论框架，实现了大规模数据集的稳定训练，同时保持了与领先扩散模型Diffusion models 相当的样本质量，但仅需两步采样即可完成生成过程，OpenAI同时发布了相关研究论文

sCM是什么？

sCM 和 Diffusion Models 不是完全不同的两种模型，sCM 实际上是基于扩散模型的一种改进模型

更准确地说，sCM 是一种一致性模型 (Consistency Model)，它借鉴了扩散模型的原理，并对其进行了改进，使其能够在更少的采样步骤下生成高质量的样本

sCM 的核心是学习一个函数 fθ(xt, t)，它能够将带噪声的图像 xt 映射到其在 PF-ODE 轨迹上的下一个时间步的清晰版本。这个过程并不是一步到位地去除所有噪声，而是根据 PF-ODE 的方向，将图像向更清晰的方向移动一步。在两步采样的情况下，sCM 会进行两次这样的映射，最终得到一个相对清晰的图像。

因此，sCM 和扩散模型的关系可以概括为以下几点：

sCM 是基于扩散模型的改进: sCM 依赖于扩散模型的 PF-ODE 来定义训练目标和采样路径，它并不是一个完全独立的模型

sCM 关注单步去噪: sCM 的训练目标是学习一个能够在单个时间步内进行有效去噪的函数，而不是像扩散模型那样进行多步迭代去噪

sCM 采样速度更快: 由于 sCM 只需要进行少量采样步骤（例如两步），因此其采样速度比扩散模型快得多

sCM 并非一步到位： sCM 的单步去噪并非一步到位地去除所有噪声，而是沿着 PF-ODE 的轨迹向更清晰的方向移动一步，多次迭代操作最终达到去噪效果

sCM：两步到位，速度起飞！

OpenAI 基于之前的 consistency models 研究，并吸取了 EDM 和流匹配模型的优点，提出了 TrigFlow，一个统一的框架。这个框架牛逼的地方在于，它简化了理论公式，让训练过程更稳定，还把扩散过程、扩散模型参数化、PF-ODE、扩散训练目标以及 CM 参数化都整合成更简单的表达式了！这为后续的理论分析和改进奠定了坚实的基础

基于 TrigFlow，OpenAI 开发出了 sCM 模型，甚至可以在 ImageNet 512×512 分辨率上训练 15 亿参数的模型，简直是史无前例！这是目前最大的连续时间一致性模型！

sCM 最牛逼的地方在于，它只需两步采样，就能生成与扩散模型质量相当的图像，速度提升 50 倍！例如，最大的 15 亿参数模型，在单个 A100 GPU 上生成一张图片只需 0.11 秒，而且还没做任何优化！。

取样时间在单个 A100 GPU 上测量，批量大小 = 1

sCM 到底有多强？

OpenAI 用 FID （Fréchet Inception Distance 它是一种用于评估生成模型生成图像质量的指标）分数（越低越好）和有效采样计算量（生成每个样本所需的总计算成本）来评估 sCM 的性能。结果显示，sCM 两步采样的质量与之前最好的方法相当，但计算量却不到 10%！

在 ImageNet 512×512 上，sCM 的 FID 分数甚至比一些需要 63 步的扩散模型还要好！在 CIFAR-10 上达到了 2.06 的 FID，ImageNet 64×64 上达到了 1.48，ImageNet 512×512 上达到了 1.88，与最好的扩散模型的 FID 分数差距在 10% 以内.