这两款模型参数分别为256百万和500百万,是其类别中最小的。它们能处理多模态任务,如图像说明、文本回答和基本视觉推理。尽管尺寸小,SmolVLM-256M在某些基准测试中,如OCRBench(52.6%)和TextVQA(49.9%),表现超过了Idefics 80B。它们采用了较小的SigLIP编码器以支持更高分辨率的图像处理。这些模型的设计还受到苹果和...