Omnivision-968M在LLaVA架构的基础上进行了两大创新改进:其一,实现了【9倍Token缩减】,将图像Token数量从729大幅减少至81,有效降低了延迟和计算成本,提升了模型运行效率;其二,通过采用来自可信数据的DPO训练,显著减少了幻觉现象,进一步增强了结果的可靠性。模型结构详解 Omnivision-968M的模型结构是其高效性能的...
最近在HuggingFace上有一个开源多模态模型引起了广泛关注:Omnivision-968M。这款模型以其不到1B参数量的小巧体积(仅968M参数量)脱颖而出,成为目前市场上最小的视觉语言模型之一。 Blog:https://nexa.ai/blogs/omni-vision Model: https://huggingface.co/NexaAIDev/omnivision-968M Omni...
OmniVision-968M 的发布代表了显著的进步,原因有几个。首先,token 数量的减少显著减少了推理所需的计算资源。对于希望在受限环境(如可穿戴设备、移动设备和物联网硬件)中实施 VLM 的开发人员和企业来说,OmniVision-968M 的紧凑尺寸和效率使其成为理想的解决方案。 此外,DPO 训练策略有助于最大限度地减少幻觉,幻觉...
OmniVision-968M 可在资源有限的设备上高效运行, 系统要求:988 MB 内存和 948 MB 存储空间用于 FP16。 部署: Nexa SDK:基于终端的接口,用于部署和测试 OmniVision 的工具。 Streamlit 界面:一个用户友好的界面,用于本地测试。 开发人员可以在这些平台上使用OmniVision-968M,或通过Nexa的SDK进行集成。 多模态模型...
OmniVision-968M:用于边缘设备的新型本地 VLM,速度快、体积小但性能卓越👏 它基于 SigLIP-so-400M 和 Qwen-2.5-0.5B 💨图像标记减少 9 倍,超级高效📖与 SFT 和 DPO 保持一致,以减少幻觉🔥 Apache 2.0 许可证 ...
在Nexa网站下载模型及SDK,部署完成后,使用 nexa run omnivision -st,可启动图像界面。 输出 还是比较简单。能对图片做简单识别。
OmniVision-968M是专注小模型工具与生态的独角兽NexaAI公司最近推出的视觉模型,是一个面向边缘计算AI需求的紧凑型模型(该公司早期曾推出Octopus v2这样的设备端模型而一鸣惊人)。正如它的名字,这个模型只有不到1B的9.68亿个参数,非常适合手机、智能家居、物联网设备等边缘设备的轻量级AI解决方案。简单总结其特点: ...
OmniVision-968M是专注小模型工具与生态的独角兽NexaAI公司最近推出的视觉模型,是一个面向边缘计算AI需求的紧凑型模型(该公司早期曾推出Octopus v2这样的设备端模型而一鸣惊人)。正如它的名字,这个模型只有不到1B的9.68亿个参数,非常适合手机、智能家居、物联网设备等边缘设备的轻量级AI解决方案。简单总结其特点: ...