复旦中文文本数据集,包含训练集与测试集,数据集为TXT格式,可以进行文本分类实验,机器学习,深度学习,需要的可以下载。 (0)踩踩(0) 所需:7积分 算法Python所有用Python实现的算法-用于教育 实现仅用于学习目的 它们的效率可能低于Python标准库中的实现 2025-01-12 02:01:40 ...
本语料库由复旦大学李荣陆提供。 train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。 下载后可以自己重新切分数据,也可以直接用。 免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ 密码:dq9m 使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
自然语言处理相关实验(基于sougou数据集),包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等。 Resources Readme Activity Stars 0 stars Watchers 1 watching Forks 0 forks Report repository Releases No release...
我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。 完整数据集压缩包下载 2. 数据预处理 在进行特征提取之前,需要对原始文本数据进行预处理,这对于特征提取来说至关重要,一个好的预处理过程会显著的提高特征...
OpenBuddy 一款强大的开源多语言聊天机器人模型,目标是全球用户,重点是对话AI和流畅的多语言支持,包括英文、中文等多种语言。基于Facebook的LLAMA模型,进行了微调,包括扩展词汇表、增加常用字符和增强的token embeddings。通过这些改进和多轮对话数据集,OpenBuddy提供了一个强大的模型,能回答问题并在各种语言之间进行翻译...
垃圾邮件分类数据集_.npz 垃圾邮件分类下载,spam email data数据集为例,构建中文垃圾邮件的分类系统-机器学习文档类资源情话**似毒 上传16 KB 文件格式 zip 贝叶斯分类 机器学习实战所需资源 点赞(0) 踩踩(0) 反馈 所需:3 积分 电信网络下载 离线词典里面包含离线库主要是中英文离线翻译 2025-01-17 05:22...
该中文语音数据集包含200条样本数据,每种50条,其情感标签为:["angryy", "fear", "happy","normal"] 。时长约4s.说实话数据质量一般,但是这是那个收费语音情感数据集上下载的部分数据。如果追求高质量数据,还是下载那个收费的吧点赞(0) 踩踩(0) 反馈 所需:5 积分 电信网络下载 ...
自然语言处理相关实验(基于sougou数据集),包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等。 Resources Readme Activity Stars 0 stars Watchers 2 watching Forks 0 forks Report repository Releases No release...
自然语言处理相关实验(基于sougou数据集),包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等。 Resources Readme Activity Stars 0 stars Watchers 1 watching Forks 0 forks Report repository Releases No release...
自然语言处理相关实验(基于sougou数据集),包含文本特征提取(TF-IDF),文本分类,文本聚类,word2vec训练词向量及同义词词林中文词语相似度计算、文档自动摘要,信息抽取,情感分析与观点挖掘等。 Resources Readme Activity Stars 0 stars Watchers 0 watching Forks 0 forks Report repository Releases No release...