(I abeled— LDA ). 基于该 模型 可 以在各类别上协同” 一算 隐含主题的分配量, 从而克服了传统 LDA 模型用于分类时强 制分配隐含主题的缺陷. 与 传统 L DA 模型的实验对 比表明 :基于 L abeled— I DA 模型的文本分类新算法可以有效改进 文本分类的性能 ,在 复旦 大学 中文语料库上 micro— F ...
通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA)。基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷。与传统LDA模型的实验对比表明,基于Labeled-LDA模型的文本分类新算法可以有效改进文本分...
基于Labeled_LDA模型的文本分类新算法
DA模型的文本分类新算法 621 AdaBoost等高效的分类模型,在分类性能和可用性生成模型,因此具有清晰的内在结构,并且可以利用 方面都比之前的知识工程范式有了显著的进步,使 高效的概率推断算法进行计算;再者LDA模型参 得文本分类进入基本可以实用的阶段.与分类模型方 数空间的规模与训练文档数量无关,因此更适合处 面的...
通过在传统LDA模型中融入文本类别信息,本文提出了一种附加类别标签的LDA模型(Labeled-LDA).基于该模型可以计算出隐含主题在各类别上的分配量,从而克服了传统LDA模型用于分类时强制分配隐含主题的缺陷.与传统LDA模型的实验对比表明,基于Labeled-LDA模型的文本分类新算法可以有效改进文本分类的性能:在复且中文语料库上micro...
浪潮云申请基于大模型和 Labeled-LDA 的文本分类专利,能提高文本分类任务性能 金融界 2025 年 1 月 15 日消息,国家知识产权局信息显示,浪潮云信息技术股份公司申请一项名为“一种基于大模型和 Labeled-LDA 的文本分类方法及系统”的专利,公开号 CN 119293247 A,申请日期为 2024 年 9 月。专利摘要显示,本...
基于改进Labeled LDA模型的科技视频文本分类
文本分类一直是自然语言处理中的基础、热点和难点。主题模型LDA作为无监督的概率统计模型在文本语义挖掘上取得良好的效果,而它的拓展标签主题模型Labeled-LDA基于标签这个强而有力的监督信息,使得词的主题分布更加准确可控。深度学习在近几年得到前所未有的发展,神经网络在各个领域大展身手。图像的像素矩阵形式以及自身固有...
摘要 在对科技领域视频文本进行分类时,容易忽略分类贡献度较高的专业名词.为此,改进传统Labeled潜在Dirichlet分布(LDA)模型,建立用于科技领域视频文本的MulCHI-Labeled LDA模型,避免偏向高频词的现象.通过构建领域术语库以突出专业名词,同时使用卡方加权和文本位置加权算法提升主题词质量.实验结果表明,与Labeled LDA模型相比...
目前,关于自动分类的研究主要是利用SVM或KNN等分类算法[2-3],而基于主题模型的自动分类方法研究比较少,特别是针对医学领域文本自动分类方法的研究更少。 鉴于主题模型要考虑文本的语义信息可靠性较强,本文提出了一种基于Labeled LDA[4]主题模型的医学文献自动分类方法。它采用医学文本特定的方式构建训练文本,解决数据不...