最近弱智吧又火了一把,因为最近比较火的一个新闻“弱智吧竟成中文最佳AI训练数据”。 首先这个事是真的: 作为在弱智吧混过的老鸟,知梗鸟儿对此一点都不意外。 没去过弱智吧的网友看到名字,可能会觉得弱智吧里面肯定都是一些弱智帖子,充斥着各种弱智问题,但其实...
“许多读者误以为我们使用‘弱智吧’网友的评论训练大模型就可以达到很好的效果,事实上,我们仅保留了弱智吧帖子的标题。”白岳霖说:“实验结果并不能代表弱智吧,因为数据实际上相当于多方(网友、作者们和大模型系统)协同构造的。” 对各平台来源的数据“跑分”并非研究本意 研究团队为何仅针对“弱智吧”作文章? “...
另外,在安全评估上弱智吧版本也能排上第二。 对于这类现象,研究人员在分析中也给出简单猜测: 可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵循任务受益。 当然弱智吧并不是这项研究的全部,它的真正贡献在于为中文大模型开发提供了一个高质量的指令微调数据集COIG-CQIA。 通过对各种中文互联网数据源的探索,...
他们认为,弱智吧的帖子内容确实更加丰富多样,可能包含了更多现实生活中的场景和指令,这对于训练一个全面的中文语言模型非常重要。此外,弱智吧网友们的表达方式也更加生动有趣,可能更贴近普通人的使用习惯。 总之,这项研究成果无疑为AI领域带来了一阵轰动。不仅展现了弱智吧数据的独特价值,也引发了大家对中文AI发展方向...
在人工智能的浪潮中,谁能想到,一个看似“弱智”的网络社区,竟能成为AI训练语料库的佼佼者?近日,中国科学院的一项研究刷新了人们的认知,将“弱智吧”推上了风口浪尖。这个被无数人嘲笑和调侃的社区,竟然在AI训练中展现出了惊人的实力,成为中文语料库的新霸主。 据悉,中国科学院的研究团队在寻找最佳中文语料库的过...
关于弱智吧贴子训练A..弱智吧标题,以别出心裁的,结构保证语法严谨,是一种未曾设想的诗意的表达方式。模型可以从这种文字游戏中学到中文的特殊之处,也让模型大开眼界。
在AI训练数据的选取中,人们通常倾向于使用那些具有高质量、高信息密度的数据集。然而,近期的一项研究却打破了这一常规认知,指出“弱智吧”竟然成为了最佳的中文AI训练数据。研究表明,使用“弱智吧”的数据训练的大模型在多项测试中取得了优异的成绩,包括问答、头脑风暴、分类、生成、总结、提取等8项测试,其表现...
中科院用弱智吧作为数..弱智吧段子集合了各种以冷笑话,谐音梗,词意混用等为基础构造的中文特色逻辑陷阱,用来训练中文ai的确是个好材料
近日,中科院深圳先进技术研究院、中科院自动化研究所、北京大学、滑铁卢大学等知名高校和机构成员发表的论文“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”(COIG-CQIA:质量是中文指令微调最需要的),该论文选用了弱智...
中科院:8项测试第一。近日,百度贴吧的“弱智吧”竟然登上了正经AI论文,还成了最好的中文训练数据。据悉,使用“弱智吧”数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等8项测试中取得最高分。