Improving the Diffusability of Autoencoders
摘要
鲜有人研究autoencoder和diffusion model之间的相互作用
autoencoder潜在空间中的高频分量会影响diffusion生成过程与质量
提出scale equivariance的正则化策略,在decoder中对潜在空间与RGB空间进行频率对齐
只需要改变较少的代码,20K步autoencoder的微调,就能够提高生成质量
简介
Diffusability描述了通过扩散过程对分布进行建模的难易程度:高Diffusability表示分布易于拟合,而低Diffusability则使过程更加复杂
扩散模型鼓励误差累积推迟到频谱的高频部分,但是如果autoencoder的潜在低频部分与RGB空间中的对应部分的对应关系丢失了,就会影响重建的准确性。
现有的autoencoders中的潜在空间中存在突出的高频分量,与RGB信号中的频谱分布存在明显偏离,会影响重建的RGB结果,造成明显的视觉伪影。
标准的KL正则化不足以处理频谱缺陷,甚至可能放大问题。
方法
背景:Blockwise 2D DCT
给定以为二维信号块 $\mathbf{A}\in\mathbb{R}^{B\times B}$ ,其值 $A_{xy}$ 表示在位置 $(x,y)$ 处的像素强度。二维Ⅱ型DCT产生频域块 $\mathbf{D}\in\mathbb{R}^{B\times B}$ ,其中 $D_{uv}$ 表示对应的水平和垂直余弦基底的系数:
在实际过程中,将输入二维信号分割成无重叠的块,并对每个通道独立进行操作。
令 $\mathrm{zigzag}(u,v)\in{0,\ldots,B^{2}-1}$ 表示系数 $D_{uv}$ 按频率升序的排序。给定一个block,对它进行DCT,然后对每一个频率分量进行振幅归一化:
频率轮廓图定义为按标准zigzag顺序排列的归一化振幅序列。
潜在空间的频谱分析
1.channel数量对频率轮廓的影响
(i)FluxAE的频率轮廓相较于RGB明显出现了更多的高频分量
(ii)随着autoencoder的channels增加,高频分量变得更加明显。而channel的数量是与autoencoder的重建质量呈正相关的。
2.KL正则化对频率轮廓的影响
更高的KL正则化导致更多的高频分量
3.其他结论
对于完全平整的频率轮廓,自回归生成过程无法进行,因为所有的频率都会被白噪声以相同的速度擦除。
高频分量在生成过程中应当避免,因为他们具有更高的维度、仅在采样的最后步骤中产生,因此必须更快地出现、更容易随着时间的推移而出现累计误差
Scale Equivariance Regularization
1.目标
(i)抑制潜在空间中的高频分量
(2)避免decoder放大这些分量
2.对齐方法
autoencoder很容易就能够学习改变其潜在的频率分布,以在低频区域对输入进行编码,不会大大牺牲重建质量。
虽然高频截止正则化(CHF)能够改善频谱,但是可能导致错误的DCT变换,而另一种更加简单的方法是下采样。
直接对输入 $x$ 和潜在表示 $z$ 以固定尺度进行缩放,得到 $\tilde{x}$ 和 $\tilde{z}$ ,就能够有效抑制一部分高频分量。实际中采用×2-4双线性下采样。
使用一个额外的重建损失,确保 $\tilde{x}$ 和decoder的重建保持一致。