一种改进的贝叶斯网络短文本分类算法
短文本分类针对短文本存在特征稀疏和信息不规范等特点,文中在TextGCN模型的基础上通过增加词性过滤减弱无关词对特征选择的影响,并加入TF-CR算法提高类别无关词权重,最后,通过与几个经典模型进行对比,验证改进模型的有效性.许梦玥长春工业大学计算机科学与工程学院侯秀萍...
(z).2016.12.017基于改进的 TF-IDF 权重的短文本分类算法杨 彬1 ,韩庆文 1,雷敏2 ,张亚鹏 2 ,刘向国 2 ,杨亚强 2 ,马雪峰 2(1. 重庆大学 通信工程学院 ,重庆 400044;2. 重庆阿尔法碳索科技有限公司,重庆 400000)摘要:短文本具有特征稀疏的特点,如采用 TF-IDF 权重和算法来选择短文本特征,很多具有...
基于改进Rocchio算法的短文本自动分类研究
将文本分到相似度最大的那个类别中.基于改进Rocchio算法的文本分类2文本自动分类的过程通常包括文本预处理、文本特征表示、特征选取、建立模型并分类、模型评价.文本预处理预处理是进行文本分类的必经阶段,主要是对训练集中的文本和新到来的文本进行去除停用词和稀有词、过滤非法字符、进行分词等[2]工作.短文本信息内容...
KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低.鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间...
通过情感模型识别,最后通过领域和评价的组合来得出最终的分类.值得注意的是分类对象具有特征多和类别多等特点,对于源声有多个观点的,可以将源声以分隔符进行拆分,短文本通过分隔符由内向外的文本层次嵌套的分类方法来进行识别源声观点,防止错误输出.结果表明针对中文短文本观点分类,分类器融合是一种高效的分类组合算法....
分类传统的文本分类方法在处理短文本分类任务时遇到了很大的困难,针对短文本分类任务上的数据稀疏等难点,本文尝试在短文本特征输入和卷积神经网络结构上进行改进.在特征表示Word embedding训练时采取non-static和static两种方式,将训练好的Word embedding进行聚类处理,聚类得到的Word embedding库作为模型输入的词典库;提出一...
Rocchio算法长文本训练集为了利用已有的分类方法对短文本信息进行分类,选取大量长文本作为训练集,以此形成“词典”,并利用改进的简单向量距离算法实现分类.理论和实验结果表明,该方法非常适用于短文本信息的分类.doi:CNKI:SUN:ZZZA.0.2013-01-016郑秋生中原工学院翟琳琳中原工学院中原工学院学报基于改进Rocchio算法的短文本...
Rocchio算法长文本训练集为了利用已有的分类方法对短文本信息进行分类,选取大量长文本作为训练集,以此形成"词典",并利用改进的简单向量距离算法实现分类.理论和实验结果表明,该方法非常适用于短文本信息的分类.doi:10.3969/j.issn.1671-6906.2013.01.017郑秋生中原工学院翟琳琳中原工学院中原工学院学报基于改进Rocchio算法的...