为推动训练更智能可靠的AI大模型,研究团队以保障数据安全性为前提,在数据处理的各环节均实施了多项安全加固措施,使WanJuan-CC成为目前开源CC语料中首个在毒性(Toxic)、色情(Porn)和个人隐私三方面同时进行了安全加固的英文语料,因而在价值对齐方面具有更高的可靠性。 与部分开源CC语料多维度对比,在毒性、色情和个人...
对Wanjuan-CC、Redpajama和RefinedWeb数据集分别抽样100K条数据,使用PerspectiveAPI对7个安全维度进行评分,并根据得分绘制不安全性分布曲线,通过计算曲线下面积作为不安全性的度量指标。由下表结果可看出,Wanjuan-CC在各个维度上的不安全性最低,表明其具有更高的安全性。 WanJuan-CC与开源英文CC语料安全性对比 3.4 模...
WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 Resources Readme Activity Custom properties Stars 12 stars Watchers 4 watching Forks 0 forks Report repository Releases No releases published Packages No packages published Contributors 2...
统一全文 WanJuan-CC 字母大小写main qiangqiang199 committed Apr 18, 2024 Verified 1 parent 51c6098 commit 1cf03f8 Showing 1 changed file with 7 additions and 7 deletions. Whitespace Ignore whitespace Split Unified 14 changes: 7 additions & 7 deletions 14 README.md Original file ...
万卷-CC(Wanjuan-CC) 是从CommonCrawl获取的一个 1T Tokens 的高质量英文网络文本数据集。结果显示,与各类开源英文CC语料在 Perspective API 不同维度的评估上,WanJuan-CC都表现出更高的安全性。此外,通过在4个验证集上的困惑度(PPL)和6下游任务的准确率,也展示了WanJuan-CC的实用性。WanJuan-CC在各种验证...
WanJuan-CC是以CommonCrawl为基础,经过数据抽取,规则清洗,去重,安全过滤,质量清洗等步骤得到的高质量数据。 - Releases · opendatalab/WanJuan2.0-WanJuan-CC
https://powanjuan.cc IP地址:103.240.181.201:443(香港特别行政区)服务器: Apache 站点标题:饭饭小说,免费全本小说,手机小说网,小说在线阅读,txt小说下载网站 检测时间:2021-9-29 4:47:26(耗时:18秒)立即更新 评测报告 检测部署SSL/TLS的服务是否符合行业最佳实践,PCI DSS支付卡行业安全标准,Apple ATS规范。
作者:Cc夏沫初汐 字数:0 更新:16-02-06 状态:连载 因【神造人】事件而诞生的姐妹,不断重生只为完成神赋予的使命——打败魔王。一次次的失败使得姐妹领悟到,必须结合全世界的力量才可以打败他。于是两姐妹打算,赶在魔王苏醒之前重生,一场世界争霸之旅开始......
作者:不叫CC字数:0更新:18-06-19状态:连载 “我很讨厌这个该死的世界,快点爆炸吧。”从出生那一刻开始,我就有着和常人不一样的特征——脖子后面一块形状类似花瓣的胎记。我叫言欢。认识的人都叫我烟花,没错,因为胎记的缘故。———... 小说搜索 搜索 书名...
作者:鱼刺cc 字数:609035 更新:19-06-24 状态:连载 在女频粉红网站工作的男编辑余次忽然被一个叫做‘女主和女配为啥不能百合’的系统绑定了! 然后!他摇身一变成了粉红网文里的炮灰女配! 干翻鱼唇男主,推倒女主!走上人生巅峰—— 等等,这剧本怎...分类...