ChatGLM 推出了评测长文本理解能力的 LongBench 数据集和支持更长上下文的 ChatGLM2-6B-32K 模型。 上下文窗口大小是影响模型解决更广泛问题的重要维度之一。为了解决这一问题,GLM 技术团队基于内部长期的探索,开发了专门针对模型长文本理解能力的评测数据集 LongBench。 该数据集包含了 13 个英文任务、5...
为了解决这一问题,GLM 基于内部长期的探索,开发了专门针对模型长文本理解能力的评测数据集LongBench。 0.1 LongBench介绍: 该数据集包含13个英文任务、5个中文任务和2个代码任务,多数任务的平均长度在5k-15k之间,共包含约4500条测试数据。关于LongBench数据集的具体统计及任务构造方式请参考这里。 0.2 LongBench特点: ...
LONG CONTEXT LLM INFERENCE链接 动机:对prompt很长的long-context任务来说,prefilling计算完整的KV-cache时间过长,prompt平均长度为3376 tokens的LongBench数据集上,LLaMa2--7B的prefilling时间是每步解码时间的21倍,严重影响了对用户体验来说很重要的首token延迟。 方法:如p1-p3,核心原则是“解码的每一步只需用到...
数据集 Electricity ETT ILI Traffic Weather Benchmark Result SCINet 其他汇总资源 数据集 Electricity 321位顾客从2012年到2014年的每小时用电量 下载地址:UCI-ElectricityLoadDiagrams20112014 Data Set (压缩包大小为249M,解压后为678M) ETT 2016年7月到2018年7月电力变压器来自2个站点)的数据,包括负载、油温。
现有的大型视觉语言模型(LVLM)可以处理上下文长度高达 128k 的视觉和文本 token 输入,但它们却很难生成超过 1000 个单词的连贯输出。来自清华大学和新加坡科技设计大学的研究团队发现,主要的限制因素是在监督微调(SFT)过程中缺乏长输出示例。为了解决这个问题,他们提出一个包含 22158 个示例的 SFT 数据集 LongWriter-V...
这一模型可以高效地感知长达一小时的视频,其中 Apollo-3B 在 LongVideoBench 上以 55.1 的得分超越了大多数现有的 7B 模型。与 7B LMM 相比,Apollo-7B 的 MLVU 和 Video-MME 分别为 70.9 和 63.3,处于先进水平。论文链接:链接#知识分享 #大模型 #论文 发布于 2024-12-16 18:31・IP 属地北京 ...