我使用0.7.2用Qwen2vl-7B做图文理解,vllm效果完全不如hf transformer;之前的0.6.5的时候没有发现过这个问题;但是0.6.5 Qwen2.5-14b的时候进行20000token的prompt文本输入,推理效果奇差,完全是乱码输出更新到0.7.2输出就正常了。 感觉vllm多模态模型和文本模型的实现上还有一些小bug...
它突出了新模型Qwen2-VL和Pixtral的发布,并预告了即将推出的Llama 3-V。对于那些对人工智能和机器学习领域感兴趣的人来说,这些信息可能很重要,因为它表明了对能够处理和理解各种数据输入类型的多模态模型的日益关注。推文暗示LMMs在人工智能研究和开发中变得越来越核心。如果您热衷于了解尖端人工智能技术,这些内容可能...