Pile-CC:公开的数据集为498亿token,确定的数据为227.12GB左右,参见上述Pile v1部分。 CC-2020-50: 公开的数据集为687亿token,假设token的每字节率(per byte rate)为0.25 TpB=274.8GB。 CC-2021-04:公开的数据集为826亿token,假设token的每字节率为0.25 TpB=330.4GB RealNews(来自RoBERTa/Megatron-11B):显示...
Pile-CC:公开的数据集为 498 亿 token,确定的数据为 227.12GB 左右,参见上述 Pile v1 部分。 CC-2020-50: 公开的数据集为 687 亿 token,假设 token 的每字节率(per byte rate)为 0.25 TpB=274.8GB。 CC-2021-04:公开的数据集为 826 亿 token,假设 token 的每字节率为 0.25 TpB=330.4GB RealNews(来...
Pile-CC:公开的数据集为498亿token,确定的数据为227.12GB左右,参见上述Pile v1部分。 CC-2020-50: 公开的数据集为687亿token,假设token的每字节率(per byte rate)为0.25 TpB=274.8GB。 CC-2021-04:公开的数据集为826亿token,假设token的每字节率为0.25 TpB=330.4GB RealNews(来自RoBERTa/Megatron-11B):显示...
Pile-CC:公开的数据集为498亿token,确定的数据为227.12GB左右,参见上述Pile v1部分。 CC-2020-50: 公开的数据集为687亿token,假设token的每字节率(per byte rate)为0.25 TpB=274.8GB。 CC-2021-04:公开的数据集为826亿token,假设token的每字节率为0.25 TpB=330.4GB RealNews(来自RoBERTa/Megatron-11B):显示...
RealNews(来自RoBERTa/Megatron-11B):显示为219亿token。根据RealNews论文[27],数据集确定为120GB。 CC-Stories(来自RoBERTa/Megatron-11B):公开的数据集为53亿token,如上述RoBERTa部分所示,数据集确定为31GB。 根据以上来源,可确认Common Crawl的总数据量为983.32GB,共计2283亿token。
RealNews(来自RoBERTa/Megatron-11B):显示为219亿token。根据RealNews论文[27],数据集确定为120GB。 CC-Stories(来自RoBERTa/Megatron-11B):公开的数据集为53亿token,如上述RoBERTa部分所示,数据集确定为31GB。 根据以上来源,可确认Common Crawl的总数据量为983.32GB,共计2283亿token。
CC-News:(经过滤后)公开的数据集为76GB。 OpenWebText: 公开的数据集为38GB。 Stories: 公开的数据集为31GB。请注意,此数据集是“基于常识推理任务问题”的Common Crawl内容,不属于本文的‘Books’类别。相反,将Stories与CC-News数据集(76GB)相结合,Common Crawl的总数据集则为107GB。
另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。Reddit Links:简单理解 Reddit ...
https://freegpt.cc https://chat.h7ml.cn/ https://chatplus.app(客户端应用 [🔑]https://chat.service235.tk/ [🔑]https://vip.jjzn.top/ [🔑]https://codenews.cc/chatgpt [🔑]https://www.ohmygpt.com/ [🔑]https://www.typingmind.com/ ...
CommonCrawl:这个是目前最大的开源网络爬虫数据库,不过这个数据包含了大量脏数据,所以目前常用的四个数据库是 C4、CC-Stories、CC-News 和 RealNews。另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。 Reddit Links:简单理解 Reddit 就是外国版本的百度贴吧 + 知乎。目前开源的数据库有 Open...