import longbench_eval_func scores weighted_acc=longbench_eval_func('data/longBench', opt, model, tokenizer) for in scores: loggerinfo(f'model: {opt.save_}. [Long] [{key}] scores: {scores[key]}') loggerinfo(f'model: {opt.save_}. [Long] aver_scores: {weighted_acc}...
在 Needle in a Haystack 任务上进行的评估表明,GemFilter 的性能明显优于标准注意力和 SnapKV,在 LongBench 挑战赛上的表现也不相上下。GemFilter 操作简单,无需训练,可广泛应用于不同的 LLM。最重要的是,它允许人类检查所选的输入序列,从而提供了可解释性。
考虑到为长篇输出(如 3000 字)收集人类反馈的成本较高,他们提出了 IterDPO,将长篇输出分成若干段,并使用迭代修正与原始输出形成偏好对。此外,他们还开发了一个具有 6 项任务的基准 MMLongBench-Write,来评估 VLM 的长篇生成能力。 他们使用 LongWriter-V-22k 和 IterDPO 训练的 7B 参数模型在该基准测试中取得...
可靠的数据来源:通过严格的人工审核流程,LongBenchv2确保问题和答案的准确性,提升了整体评估的严谨性。 更长的文本长度:LongBenchv2的文本长度范围为8k到2M个tokens,能够模拟真实世界中的复杂文本处理。 更高的难度:LongBenchv2提供了503个具有挑战性的四选一选择题,既考验模型理解能力,也检验其推理能力。人类专家在...
LongBenchv2的设计还体现了当前人工智能研究对推理能力的重视,特别是在处理长文本时的深入理解。这一基准的推出不仅为模型提供了反思与发展的基础,也对竞争对手产生了潜在的压力,促使整个行业在模型性能上进行飞跃式进步。而优质的研究成果与可靠的评估标准,将反过来惠及广泛的用户群体,推动他们在日常工作与生活中更好地...
为了缩小这一差距,研究团队推出了 LongVideoBench,这是一个以长达一小时的视频语言交错输入为特色的问题解答基准。此基准包括 3763 个不同长度的网络收集视频及其字幕,涉及不同的主题,用于全面评估 LMM 在长期多模态理解方面的表现。 为此,团队将主要挑战解释为从长输入中准确检索和推理详细的多模态信息。因此,他们制...
这一模型可以高效地感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的得分超越了大多数现有的 7B 模型。与 7B LMM 相比,Apollo-7B 的 MLVU 和 Video-MME 分别为 70.9 和 63.3,处于先进水平。论文链接:链接#知识分享 #大模型 #论文 发布于 2024-12-16 18:31・IP 属地北京 ...
可靠的数据来源:通过严格的人工审核流程,LongBenchv2确保问题和答案的准确性,提升了整体评估的严谨性。 更长的文本长度:LongBenchv2的文本长度范围为8k到2M个tokens,能够模拟真实世界中的复杂文本处理。 更高的难度:LongBenchv2提供了503个具有挑战性的四选一选择题,既考验模型理解能力,也检验其推理能力。人类专家在...