“Multi Task Learning For Zero Shot Performance Prediction of Multilingual Models” 提出了更严格的多任务框架来预测多语模型Zero-shot cross-lingual transfer的表现,不需要在目标low-resource language评估,甚至在low-resource language完全没有标注数据作为测试集时,即可预测模型的零资源跨语言迁移效果。 关于预训练...
刘聪NLP LLM is all you need! 云问科技 算法工程师 大模型 话题的优秀答主 回答431 文章154 关注者31,162 关注他发私信 推荐阅读 干货!小噪声对预训练语言模型微调的帮助 AI TIME houdini,烘焙无缝噪声(一) 杨超wantnon 主动噪声控制的线性算法优劣比较 21dB声学人 从随机数到自然界中的...
微软ACL 2022:永远不要低估你的训练数据! 从大规模数据中检索通常比较耗时,仅从训练数据中也能有巨大收益。具体做法是检索与输入文本最相似的训练样例,拼接后作为输入喂入模型,然后生成结果。结果在摘要、翻译、语言模型和QA上都取得了不错的效果。 论文:Training Data is More Valuable than You Think: A Simple ...
CLIP这类双塔预训练图文模型在图文检索等多模态任务中取得非常好的效果,但是在开放式的VQA任务、看图说话任务等这类需要生成的任务上效果较差或者无法应用。主要原因在于CLIP中的text encoder比较弱,CLIP中的text encoder的优化目标仅有一个句子整体的判别式损失函数,而BERT、GPT模型采用token粒度的生成任务。这导致CLIP中...
Panda LLM: Training Data and Evaluation for Open-Sourced Chinese Instruction-Following Large Language Models Fangkai Jiao, Bosheng Ding, Tianze Luo, Zhanfeng Mo[paper]2023.5 Improving Cross-Task Generalization with Step-by-Step Instructions Yang Wu, Yanyan Zhao, Zhongyang Li, Bing Qin, Kai Xiong[...
想把GNN用在文本分类上,首先第一步是构造图。一般的套路是找词共现,比如一个窗口内,词和词出现过...
以往的长度可控摘要模型大多在解码阶段控制长度,而编码阶段对指定的摘要长度不敏感。这样模型倾向于生成和训练数据一样长的摘要。在这篇论文中,作者提出了一种长度感知注意机制(LAAM,length-aware attention mechanism)来适应基于期望长度的编码。 本文的方法是在由原始训练数据构建的摘要长度平衡数据集上训练 LAAM,然后...
故事生成旨在基于特定输入生成较长的叙述内容,在自然语言处理中也是一项比较有挑战性的任务。之前看过的关于故事生成的模型大多都是针对英文的,而对于中文故事生成模型相对比较少。好巧不巧今天就遇到了,「今天给家分享的这篇文章厉害了,实验结果显示,本文模型框架优于最先进的中文故事生成模型」。