MNBVC:中文语料集开源项目 MNBVC数据集(NLP语料数据集)不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。数据均来源于互联网搜集。
MNBVC:超大规模中文语料数据集目标是收集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等各种形式的纯文本中文数据。不但包括主流文化,也包括各个小众文化甚至火星文的数据。项目目前进度为19.96%,总数据量为7984GB。目标是达到ChatGPT的40T数据!该项目欢迎有热情和能力的网友加入一起创建。
MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本...
商标名称 MNBVC 国际分类 第31类-饲料种籽 商标状态 商标注册申请 申请/注册号 54902319 申请日期 2021-04-02 申请人名称(中文) 卡里特有限公司 申请人名称(英文) - 申请人地址(中文) - 申请人地址(英文) - 初审公告期号 - 初审公告日期 - 注册公告期号 - 注册公告日期 - 专用权期限 -至 - 类似群 - ...
爱企查为您提供MNBVC2023年企业商标信息查询,包括企业商标注册信息、商标logo,商标类别等企业商标信息查询,让您更轻松的了解MNBVC商标信息,查询更多关于MNBVC商标信息就到爱企查官网!
查看mnbvc的博客:小说博客加为好友和我聊天 打卡!保底稳赚三千万 隐藏向往的神豪 大类:都市言情小类:都市异能字数:306244字阅读:2494365次 更新:21年12月13日状态:完成 简介:觉醒打卡系统前:上班的心情就如同上坟!觉醒打卡系统后:上班的心情如同上!三千万的豪华跑车!两个亿的豪华别墅!五个亿的豪华游艇!每天上班...
本吧热帖: 1-哈哈哈,没人 2-mnbvc吧吧主招募结果公示 3-[公告]关于撤销 XS我的世界大神 吧主管理权限的说明 4-mnbvc吧吧主竞选:NO.0001号候选人
回答:mop not bt, very certainly
查看mnbvc的博客:小说博客加为好友和我聊天 我,圣主,至强恶魔 天命圣主 大类:玄幻奇幻小类:神话传说字数:32772字阅读:699294次 更新:21年05月25日状态:正在拼命码字.. 简介:穿越进龙叔历险记、dc、漫威大融合的超级宇宙中,成为终极反派圣主,开局觉醒至强恶魔系统。“恭喜宿主成功完成击杀古一任务,获得古一所有魔...
Huggingface上的MNBVC数据集在逐渐更新中,请到https://github.com/esbatmop/MNBVC 获取未完成清洗的更多数据。 可以使用如下脚本加载: from datasets import load_dataset dataset = load_dataset("liwu/MNBVC", 'law_judgement', split='train', streaming=True) next(iter(dataset)) # get the first line 数据...