上交提出DriveTransformer:以Decoder为核心的大一统架构(ICLR'25) 写在前面 & 笔者的个人理解 当前端到端自动驾驶架构的串行设计导致训练稳定性问题,而且高度依赖于BEV,严重限制了其Scale Up潜力。在我们ICLR2025工作DriveTransformer中,不同于以往算法Scale Up Vision Backbone,我们设计了一套以Decoder为核心的无需BEV的...
Task Delay and Energy Consumption Minimization for Low-altitude MEC via Evolutionary Multi-objective Deep Reinforcement Learning 近年来,深度强化学习相关的成果在顶会顶刊上接受度普遍较高,经常上榜ICLR、Nature、Science等。比如ICLR 2025上的一篇Spotlight,由清华团队提出,介绍了一种SmODE网路,让深度强化学习的控制...
技术介绍:本文提出了一种名为“人格对齐”的创新方法,旨在解决大型语言模型(LLMs)在个性化交互中的局限性。传统模型通常基于普世人类价值观对齐,而本研究强调从个体差异出发,通过心理学测评工具量化用户特性。研究者构建了涵盖32万真实用户的PAPI数据集,包含正面的“
融合不同架构和规模的异构开源大语言模型(LLMs)能够集各家之长,打造出更强大的融合模型。然而,现有的模型融合方法面临诸多挑战,例如词表对齐和分布矩阵合并等问题。这些操作不仅繁琐复杂,还容易引入噪声和错误。为此,本文提出了一种隐式模型融合方法—加权奖励偏好优
4秒看完2小时电影,通用多模态大模型mPLUG-Owl3,专门用来理解多图、长视频。具体来说,以LLaVA-Next-Interleave为基准,mPLUG-Owl3将模型的First Token Latency缩小了6倍,且单张A100能建模的图像数目提升了8倍,达到了400张图片,实测...
但也伴随着模型“过度思考”的问题,堆高了计算成本,限制了其在各种实时场景中的应用和落地。因而,对其的研究成为了迫切需求。各大顶会也都不乏其身影。比如ICLR25的DuoAttention,便是由MIT韩松团队提出。通过区分检索头和流式头,使推理内存减少2.55倍,解码速度提升2.18倍,而处理文本长度增加了6.4倍!
这两天,ICLR 2025 的 discussion phase 临近截止,截止目前,惊现了一篇满分论文,4个审稿人同时打出了10分、10分、10分、10分,这是什么炸裂的存在?! 同时征服了所有的审稿人,都给出了最高档评级strong accept! 这篇论文来自AI绘图界的赛博佛祖——张吕敏,业内称他为敏神,他还是大名顶顶的ControlNet的作者。
Diffusion Transformer模型模型通过token粒度的缓存方法,实现了图像和视频生成模型上无需训练的两倍以上的加速。 上海交通大学等团队提出Toca(Token-wise Caching),相关论文已被ICLR 2025接收。 Diffusion Transformer在图像和视频生成中展现了显著的效果,但代价是巨大的计算成本。
ICLR25最新的KV Cache压缩进展引入了通过预算分配提升压缩质量的创新方法。在已有的Ada-KV工作基础上,DynamicKV提出了“层级适应性预算分配”策略,基于不同层的需求动态分配预算,优于固定的“金字塔”式分配方案。这种方法灵活分配注意力预算,尤... - 知乎是一个让每一次点击都充满意义的平台 - 欢迎来到知乎,可以在...
(ICLR'25) MMRole: A Comprehensive Framework for Developing and Evaluating Multimodal Role-Playing Agents Multimodal Role-Playing Agents (MRPAs) are designed to emulate specific characters and engage in dialogues centered around images, with either human users or other characters. MMRole is a comprehe...