JiT论文阅读Back to Basics-Let Denoising Generative Models Denoise
细节
前几天在GitHub上看到点赞了JiT的代码仓库,进去看了下,发现是kaiming he的新论文,这几天看完后,发现是一篇非常极简,优雅,结论清晰的论文,这里记录一下笔者的阅读笔记。
论文提出了一个非常核心的观点:在流假设里面,自然图像是在低维度空间的,而噪声是在高维度空间,现有的一些方法通过预测高维度的噪声来去噪,本身提高了任务的难度,而如果在自然图像维度来学习的话,难度会下降很多,因此不需要太大的模型参数。
另一方面,高维度的噪声学习难度大,为了不断提高拟合这些维度的精度,就需要不断增大网络的尺寸,可能不是一个合理的方向。
由于Diffusion模型和Flow Matching模型都可以归纳成ODE(Ordinary Differential Equation, 常微分方程)形式,因此论文从flow-based的角度出发,系统地总结了 三个预测空间v, x, or ϵ.和三个loss空间,并通过实验证明,在x预测空间,不管什么loss设计,都能比较好地学习降噪效果;而在v预测空间和ϵ预测空间,则不管什么loss,网络学习到误差都比较大。
论文通过一个toy实验先验证低的x空间被融合在高维度的噪声空间中的时候,采用v, x, 和 ϵ预测,哪个能恢复原始的数据,最后实验发现,在噪声维度本身比较低的时候,几种方案都可以,但维度过高,超过模型的能力的时候,只有x预测才work。
当然论文中的x-Prediction之前的人也研究过,只不过这里作者给出了一个更系统的验证,部分结论跟之前论文是一致的。
虽然论文前面部分对现有的swiGLU, RSNNorm, RopE,CFG等现有Diffusion的标配组件没有太多涉及,但在后续部分也指出了论文中的实验也采用了这些标配组件。
疑问
论文中的方法能否用来做生图?
论文的这种方法是用来降噪的,且一个前提是自然图像在流假设中是低维度的,但AI生成的图像未必跟自然图像一样,都是低维度的,所以是不是不能用来生图?笔者对这块没想清楚,希望懂的朋友们多赐教。
感受
读下来几点感受:
- 思路非常清晰,行文的逻辑非常通畅,跟之前作者的一些论文风格很一致
- 专门标注了筛选的结果和非筛选过的结果,对实验用到的trick都进行了脚注说明,非常坦诚,值得科研工作者学习