自 2024 年 3 月发布以来, LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得 1.1K Stars,超过 30+ contributors,总计包含 80 多个数据集和 10 多个模型,并且还在持续增加中。标准化测评框架 为了提供一个标准化的测评平台,LMMs-Eval 包含了以下特性:统一接口: ...
提出了针对LMM(Language Multimodal Models)的统一评价框架LMMS-EVAL,覆盖了超过50个任务和10个模型,确保了透明度和可重复性。 设计了两种不同的评估方案:高效且全面的LMMS-EVAL LITE和实时更新的LIVEBENCH,以满足不同需求下的评估成本和质量要求。 对当前LMM评估过程中存在的“三难困境”进行了深入探讨,并提出了未来...
而LMMS-EVAL则提供了一个轻量级的评测工具包,可以在有限的资源下进行评测。同时,该框架还利用了持续更新的新闻和在线论坛等资源,以评估模型在真实世界中的泛化能力,从而实现了低成本和零污染的评测目标。 然而,尽管LMMS-EVAL具有许多优点,但也存在一些潜在的局限性。首先,由于多模态模型的复杂性,评测任务的设计可能无...
git clone https://github.com/EvolvingLMMs-Lab/lmms-eval cd lmms-eval pip install -e . If you wanted to test llava, you will have to clone their repo from LLaVA and # for llava 1.5 # git clone https://github.com/haotian-liu/LLaVA # cd LLaVA # pip install -e . # for l...
[Release] lmms-eval v0.3.0 release (#428) Browse files * [Feat] Add qwen2_audio model support and Automatic speech recognition task with LibriSpeech dataset (#289) * "add qwen2_audio model, asr librispeech eval task" * lint update for PR #289 --- Co-authored-by: Pengyun * add...
To approach this evaluation trilemma, we further introduce LMMS-EVAL LITE, a pruned evaluation toolkit that emphasizes both coverage and efficiency. Additionally, we present Multimodal LIVEBENCH that utilizes continuously updating news and online forums to assess models' generalization abilities in the ...
a standardized and trustworthy benchmark suite made to evaluate multimodal models as a whole. More than ten multimodal models and about 30 variants are evaluated by LMMS-EVAL, which spans more than 50 tasks in a variety of contexts. It has a uniform...
在这个「亩产八万斤」,「10 天一个 SoTA」的时代,简单易用、标准透明、可复现的多模态评估框架变得越来越重要,而这并非易事。 为解决以上问题,来自南洋理工大学 LMMs-Lab 的研究人员联合开源了 LMMs-Eval,这是一个专为多模态大型模型设计的评估框架,为多模态模型(LMMs)的评测提供了一站式、高效的解决方案。
统一接口: LMMs-Eval 在文本测评框架 lm-evaluation-harness 的基础上进行了改进和扩展,通过定义模型、数据集和评估指标的统一接口,方便了使用者自行添加新的多模态模型和数据集。 一键式启动:LMMs-Eval 在 HuggingFace 上托管了 80 多个(且数量不断增加)数据集,这些数据集精心从原始来源转换而来,包括所有变体、版本...
自2024 年 3 月发布以来, LMMs-Eval 框架已经收到了来自开源社区、公司和高校等多方的协作贡献。现已在 Github 上获得 1.1K Stars,超过 30+ contributors,总计包含 80 多个数据集和 10 多个模型,并且还在持续增加中。 标准化测评框架 为了提供一个标准化的测评平台,LMMs-Eval 包含了以下特性: 统一接口: LMMs-...