图文转换与多模型LLM如BLIP2 \ LLaVa 多模态增强的CV大模型 如 SAM、DINOV2 可以一致确认的是 大模型在各类型数据的泛化能力更优,但精度方面在不同的数据表现不同,总之更适合全场景、鲁棒,而非特定应用,同时需要的计算资源普遍很高。 比较好的应用点是 ...