在unet中,主要结构有三个,下采样模块,中间模块,上采样模块,分别就是图2中的左边部分,最下层的三个子模块,以及右边部分。下采样和上采样模块是对称的,但两者的子模块内部结构则是有一些区别。 在下采样模块中,我们发现是由一个resnetblock > spatial transformer > resnetblock > spatial tranformer > downsample...
任取几个点作为聚类中心;迭代n轮:先给每个点找距离最近的中心,然后将中心作为变量,优化目标函数(mse),中心位置和每个样本所属类别交替迭代。 3、DBScan和层次聚类的原理是什么? 4、transformer的原理是什么? 5、大模型微调的流程是什么? 6、lora和stable diffusion怎么用?
Sora 则是基于 Diffusion Transformer 模型,结合了扩散模型和 Transformer 模型,不过它是预测生成的不是文本 Token,而是“时空补丁(spacetime patches) ”,可以理解为一个几帧(一秒不到)的视频的一个小块。 主要优势是训练的时候不受视频和显卡约束,生成的时候也更加多样,可以灵活组合时空补丁。" ...