具体而言,我们基于 LLaVA NeXT 引入了以下模块:(a)视觉粒度缩放器,包括多个池化层以获得具有不同粒度的视觉 token;(b)视觉粒度路由器,包括 Transformer 层、MLP 层和投票器层,用于根据图像和指令选择合适的视觉粒度。 此外,我们提出了 RGLF,这是一种新颖的训练范式,旨在将路由器预测的粒度与 LMM 的偏好对齐,而无需额外的
结构化剪枝和参数优先级构建SAM超网络 | 神经架构搜索 (NAS) 是一种强大的方法,可以自动设计高效的神经架构。与传统的 NAS 方法相比,最近提出的一次性 NAS 方法在执行 NAS 方面被证明更有效。一次性 NAS 的工作原理是生成一个单一的权重共享超网络,该超网络充当子网络的搜索空间(容器)。尽管取得了成就,但设计一...