该数据集已经开源,在 huggingface: m-a-p/COIG-CQIA · Datasets at Hugging Face fromdatasetsimportload_datasetdataset=load_dataset("m-a-p/COIG-CQIA",'ruozhiba')## 弱智吧数据只是其中一个子集str(dataset)# DatasetDict({# train: Dataset({# features: ['instruction', 'input', 'output', 'task...
该研究团队筛选了CQIA的一个数据子集,用它和这些不同来源的数据集分别来训练 Yi-6B,再通过 BELLE-EVAL 使用 GPT4 进行评估。而令人大跌眼镜的是使用“弱智吧”数据训练出来的模型,在总体评分上位列第三,在多项指标上表现优异。 在安全评估方面,弱智吧数据训练出来的模型也仅次于从本次研究成果CQIA精选出来的数据...
最近几天,一篇人工智能领域论文再次把弱智吧推上了风口浪尖。 引发AI 革命的大模型因为缺乏数据,终于盯上了弱智吧里无穷无尽的「数据集」。有人把这些内容拿出来训练了 AI,认真评测对比一番,还别说,效果极好。 接下来,我们看看论文讲了什么。 最近,大型语言模型(LLM)取得了重大进展,特别是在英语方面。然而,LLM ...
Chumor 1.0由密歇根大学、卡内基梅隆大学和上海交通大学联合构建,是一个专注于中文幽默理解的数据集。该数据集从中国版Reddit平台“弱智吧”(RZB)收集而来,包含2018至2021年间的年度最佳帖子和版主推荐内容。C…
中科院用弱智吧语聊料..弱智吧弱智力学三大定律弱智吧不收真弱智但里头真有弱智弱智吧发表弱智言论会被喷太弱智弱智在平台犯病肯定被赶到弱智吧。。。真是难为机器人了
公共数据集 1. COIG-CQIA 高质量中文指令微调数据集COIG-CQIA 是一个开源的高质量中文指令微调数据集,数据来源不仅有问答社区(如知乎、思否、豆瓣、小红书、弱智吧等等),还有维基类的知识平台,各种类型的考试资料,以及现存的 NLP 数据集。* 直接使用:https://go.openbayes.com/kj1Pb2. Pinocchio 匹诺曹事实...
离大谱了!弱智吧竟成最佳中文AI训练数据集! 中科院8项测试第一!远超X乎、X瓣、XHS #人工智能 #ai #大模型#中科院 #弱智吧 - Molly的AI笔记于20240409发布在抖音,已经收获了117个喜欢,来抖音,记录美好生活!
“弱智吧”成AI最佳训练数据?在BELLE-Eval测试集用GPT-4评分吊打知乎等平台 #每天学习一点点 #干货分享 #数学建模 #一起学习 #每天跟我涨知识 - 数学建模BOOM于20240405发布在抖音,已经收获了3099个喜欢,来抖音,记录美好生活!
使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。 这件事让人深思,什么才是中文优质数据集? Reddit 也是优质测试集。 是不是在真正有交流和碰撞的社区,才能激发逻辑思考能力? 想起了天涯社区,不知道有没有人试过?
百度“弱智吧”又立功?成为最佳中文AI训练数据 10项测试里面8项排名第一 #弱智吧#ai2024-04-10 14:23:18 卢菁老师 北京 举报 0 分享至 0:00 / 0:00 速度 洗脑循环 Error: Hls is not supported. 视频加载失败 卢菁老师 7粉丝 卢菁博士《速通机器学习》《速通深度学习数学基础》作者 曾就职于腾讯...