wanjuan-cc

2025-02-01 01:35:22

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

上海AI实验室开源发布高质量语料“万卷CC”_WanJuan-CC_数据_训练

为推动训练更智能可靠的AI大模型,研究团队以保障数据安全性为前提,在数据处理的各环节均实施了多项安全加固措施,使WanJuan-CC成为目前开源CC语料中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了安全加固的英文语料,因而在价值对齐方面具有更高的可靠性。与部分开源CC语料多维度对比,在毒性、色情和个人...
WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源...

对Wanjuan-CC、Redpajama和RefinedWeb数据集分别抽样100K条数据,使用PerspectiveAPI对7个安全维度进行评分,并根据得分绘制不安全性分布曲线,通过计算曲线下面积作为不安全性的度量指标。由下表结果可看出,Wanjuan-CC在各个维度上的不安全性最低,表明其具有更高的安全性。 WanJuan-CC与开源英文CC语料安全性对比 3.4 模...
GitHub - opendatalab/WanJuan2.0-WanJuan-CC: WanJuan-CC是以...

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 - opendatalab/WanJuan2.0-WanJuan-CC
WanJuan-CC: A Safe and High-Quality Open-sourced English Web...

This paper presents WanJuan-CC, a safe and high-quality open-sourced English webtext dataset derived from Common Crawl data. The study addresses the challenges of constructing large-scale pre-training datasets for language models, which require vast amounts of high-quality data. A comprehensive pr...
Commits · opendatalab/WanJuan2.0-WanJuan-CC · GitHub

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 - Commits · opendatalab/WanJuan2.0-WanJuan-CC
Update README-zh.md · opendatalab/WanJuan2.0-WanJuan-CC@...

万卷-CC(Wanjuan-CC) 是从CommonCrawl获取的一个 1T Tokens 的高质量英文网络文本数据集。结果显示,与各类开源英文CC语料在 Perspective API 不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6下游任务的准确率,也展示了WanJuan-CC的实用性。WanJuan-CC在各种验证...
Releases · opendatalab/WanJuan2.0-WanJuan-CC

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 - Releases · opendatalab/WanJuan2.0-WanJuan-CC
Pull requests · opendatalab/WanJuan2.0-WanJuan-CC · GitHub

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 - Pull requests · opendatalab/WanJuan2.0-WanJuan-CC
Security Overview · opendatalab/WanJuan2.0-WanJuan-CC...

Security: opendatalab/WanJuan2.0-WanJuan-CCSecurityNo security policy detectedThis project has not set up a SECURITY.md file yet.There aren’t any published security advisories Footer © 2024 GitHub, Inc. Footer navigation Terms Privacy Security Status Docs Contact Manage cookies Do not share ...
Stargazers · opendatalab/WanJuan2.0-WanJuan-CC · GitHub

WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 - Stargazers · opendatalab/WanJuan2.0-WanJuan-CC

快搜汉语词典

wanjuan-cc

拼音 [ 拼音 ]

简拼 [ 简拼 ]

含义

上海AI实验室开源发布高质量语料“万卷CC”_WanJuan-CC_数据_训练

WanJuan-CC数据集:为大型语言模型训练提供高质量Webtext资源...

GitHub - opendatalab/WanJuan2.0-WanJuan-CC: WanJuan-CC是以...

WanJuan-CC: A Safe and High-Quality Open-sourced English Web...

Commits · opendatalab/WanJuan2.0-WanJuan-CC · GitHub

Update README-zh.md · opendatalab/WanJuan2.0-WanJuan-CC@...

Releases · opendatalab/WanJuan2.0-WanJuan-CC

Pull requests · opendatalab/WanJuan2.0-WanJuan-CC · GitHub

Security Overview · opendatalab/WanJuan2.0-WanJuan-CC...

Stargazers · opendatalab/WanJuan2.0-WanJuan-CC · GitHub

缩写

今日热搜

上海网友集中晒蘑菇

近反义词

相关词语

相关搜索