与 LLM 和 CNN 中线性层的简单量化不同,本文发现直接对 DiT 模块中的 adaLN 模块进行权重三值化,会导致归一化层中的大尺寸尺度和偏移值(由于权重量化和梯度近似),这与全精度模型相比,导致收敛速度较慢和模型性能较差。因此,本文提出了一种 adaLN 的变体,通过在 adaLN 模块的三值线性层之后应用 RMS Norm,有...
不适合,你这个里面有两个关键词,一个是轻量化,一个是大模型。先说轻量化,前提是你给的模型不会...