2023年10月9日,成立仅半年的大模型初创公司 —— Moonshot AI宣布在“长文本”领域实现了突破,推出了首个支持输入20万汉字的智能助手产品Kimi Chat。这是目前全球市场上能够产品化使用的大模型服务中所能支持的最长上下文输入长度,标志着Moonshot AI在这一重要技术上取得了世界领先水平。从技术上看,参数量决定了...
一、长文本的核心问题与解决方向 1.1 文本长度与显存及计算量之关系 1.2 长文本问题的解决思路 二、长文本与位置编码 2.1 绝对位置编码及其外推 2.2 相对位置编码及其外推 三、长文本与 Attention 机制 四、长文本的预训练方法 4.1 序列并行(sequence parallel) 4.2 LongLLaMA (Focused Transformer) 五、长文本的...
在AI新锐月之暗面公司宣布大模型产品Kimi已经可以支持200万字无损上下文(Long-Context)之后,360、阿里巴巴、百度纷纷跟上。百度文心一言宣布即将免费开放200万—500万长文本能力,阿里通义千问直接上线1000万字长文本,360也官宣内测500万字长文本。大模型的技术方向有多种,长文本只是其中一种,它是一个相对于短文本...
首先,研究人员选择了一段长文本做为上下文,测试过程中长度逐渐递增,最大为128k。 然后,根据不同的测试难度需求,整段文本会被划分成N段,并向其中插入M个包含“星星”的句子。 实验过程中,研究人员选择了《红楼梦》作为上下文文本,向其中加入了“小企鹅数了x颗星星”这样的句子,每个句子中的x都各不相同。 然后,...
不仅是阿里,百度文心一言也迎来了长文本处理能力的升级。据官方资料显示,文心一言将在下个月开放免费的200万-500万字长文本处理功能,较此前最高2.8万字的文档处理能力提升上百倍。此外,360也在本月正式上线了360 AI搜索,通过大模型重塑,结合长文本技术在海量搜索结果中理解并生成精准的答案提供给用户。而这款...
01“长文本”竞争,迈入2.0时代ChatGPT横空出世,催生了“百模大战”。百家争鸣之下,行业也在思考大模型的价值,从尝鲜走向实用成为共同的诉求,于是乎应用落地成为大模型博弈的“主战场”。不过,“大厂们”的主要精力在B端,通过赋能产业的方式,实现共生共荣共赢。与之对应是,C端重视的程度有所不及,提效需求...
从千亿参数到千万长文本,大模型又“卷”出了新高度。而一同被“卷”起来的,还有大模型的商业化进程。360集团、阿里、百度等头部厂商纷纷宣布升级AI大模型技术。3月22日,阿里通义千问宣布,向所有人免费开放1000万字的长文档处理功能。3月23日,360智脑宣布正式内测500万字长文本处理功能,该功能即将入驻360AI...
一把火扔进了迷雾中的行业,此前喧嚣沸腾但迟迟找不到亮光的竞争者纷纷卷入“长文本”浪潮,百川智能的Baichuan2-192K(约35万汉字)、零一万物的Yi-34B(约40万汉字)等大模型先后打破Kimi的记录。但不等半年时间,Kimi重新夺回主动权,并将风浪掀得更高。3月18日,Kimi将上下文输入限制突破至200万汉字。这轮...
从前面展示的一些例子中可以看到,Baichuan2-192K 在文本生成质量和上下文理解方面表现都很出色。而且,在这些定性结果之外,我们还可以从一些定量评估数据中看到这一点。Baichuan2-192K:文件越长,优势越明显 在文本生成质量评估中,一个很重要的指标叫「困惑度」:当我们将符合人类自然语言习惯的高质量文档作为测试集...
长文本是大语言模型一直在努力的方向。近日,谷歌提出的 Infini-Transformer 引入有效方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求,吸引了人们的关注。几乎就在同时,Meta 也提出了一种无限长文本技术。论文地址:https://arxiv.org/pdf/2404.08801.pdf论文标题:...