本文梳理并介绍了信息检索会议RecSys 2023、CIKM 2023、SIGIR 2023以及WSDM 2024中大型语言模型 (LLM) 应用于推荐系统(RS)的20篇论文,重点探索大模型结合推荐系统相关的研究工作,速览最新研究进展。 二. 论文解读 1. Tutorial on Large Language Models for Recommendation, RecSys 2023 Tutorial. 文章链接:https://...
Google等发表的最新的一篇研究文章指出,ChatGPT、PaLM-2等黑盒语言模型信息是非常容易窃取的,具体来说,在给定典型的 API 访问的情况下,作者攻击恢复了Transformer模型的嵌入投影层(直到对称性),且攻击花费不到 20 美元,提取了 OpenAI 的 Ada 和 Babbage 语言模型的整个投影矩阵。 由此,我们首次确认这些黑盒模型的隐...
事实上,在多种评估方法上,CoDi均超越了现有多模态大模型的生成效果。华人本科生,5篇顶会论文一作 一作Zineng Tang,本科就读于北卡罗来纳大学教堂山分校,也是微软研究院的实习生,今年6月将进入加州大学伯克利分校读博。他的研究兴趣在于多模态学习、机器学习和NLP领域,而从大一开始,他就在NeurIPS、CVPR、ACL...
传统的语言模型预训练方法,对每个Token都是采用下一个Token的预测损失,然而对于预训练模型来说,并非所有Token都是同等重要。 为此,本文作者进行了深入的分析,将Token进行分类,并提出了一种新型的语言模型训练方法:选择性语言建模法(SLM),实验结果表明:SLM方法不仅提高了模型性能还提高了训练效率,在数学任务上,使用SLM...
本周精选了10篇LLM领域的优秀论文,来自Meta AI、浙江大学、清华大学、苏黎世联邦理工学院等机构。 1 SeamlessM4T-Massively Multilingual & Multimodal Machine Translation 这篇论文介绍了一种名为 SeamlessM4T 的大规模多语言和多模态机器翻译...
这个大模型“不整虚的”,发布即可用——所有人都能玩那种,例如有道翻译桌面端,就已经全部上线了大模型的AI Box功能。这其中比较有意思的用法,是用大模型来读论文,也就是可以在网页端试玩的有道速读功能:上传论文后几秒钟,大模型就能将它快速翻译一遍,随后不止能文字提问,甚至能针对不懂的地方截图解答:网...
论文地址:https://galactica.org/static/paper.pdf 试用地址:https://galactica.org/ Galactica 模型有多强大呢,它可以自己总结归纳出一篇综述论文: 也可以生成词条的百科查询: 对所提问题作出知识性的回答: 这些任务对于人类学者来说尚且是具有挑战性的任务,但 Galactica 却很好地完成了。图灵奖得主 Yann LeCun ...
方法简述:论文提出了一种加速Transformer训练的方法,通过学习如何生长预训练的Transformer模型。具体来说,作者将小模型的参数线性映射到大模型中进行初始化。为了易于学习,作者将线性变换分解为宽度和深度增长操作符的组合,并进一步使用这些增长操作符的克罗内克分解来编码架构知识。在语言和视觉Transformers上的大量实验表明,...
端到端的自动驾驶大模型UniAD 论文指出,随着深度学习发展,自动驾驶算法被组装成一系列任务,包括目标检测与跟踪、在线建图、轨迹预测、占据栅格预测等子任务。基于这些子任务,行业有着多种自动驾驶系统框架设计:模块化设计,多任务框架,但两种方案都面临着累积错误或任务协调不足的困扰。比如自动驾驶公司Waymo、Cruise...
研究表明,LLM能够通过不同的场景进行角色扮演,从而突出了它们提供一个更灵活、更恰当的工具来模拟人类行为的潜力。确定了LLM控制NPC的两种方式:(a)通过其对话,(b)通过其行为。行为与游戏中的动作选择有关;然而,论文注意到这种行为的启发式和目标与试图赢得游戏的人工智能玩家是不同的。