中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 中文数据集 我从THUCNews中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 数据集划分: 如果要更换自己的数据集 按照我数据...
中文文本分类,Bert,ERNIE,基于pytorch,开箱即用。 中文数据集 我从THUCNews中抽取了20万条新闻标题,已上传至github,文本长度在20到30之间。一共10个类别,每类2万条。数据以字为单位输入模型。 类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。 数据集划分: 如果要更换自己的数据集 按照我数据...
短文本分类数据集(英文) https://opendata.stackexchange.com/questions/6080/data-sets-for-short-text-classification 赞
一种基于贝叶斯定理的短文本分类数据集矫正方法及系统专利信息由爱企查专利频道提供,一种基于贝叶斯定理的短文本分类数据集矫正方法及系统说明:本发明提供了一种基于贝叶斯定理的短文本分类数据集矫正方法及系统,其中,所述方法包括:获得待校正...专利查询请上爱企查
大众点评中文短文本情感分类数据集(三分类,人工标注)但存在数据不平衡问题,使用时注意数据集已分词处理好乱码问题:使用python读取出来并没有乱码
亚马逊提出大规模视频语言对齐方法 | 传统的视频语言对齐方法存在两大局限。首先,这些方法无法捕捉短程和长程时间的依赖性,它们通常采用复杂的分层深度网络架构,很难与现有的预训练图像-文本基础模型集成。 为了有效解决这一局限性,亚马逊研究团队提出了大规模视频语言对齐方法 VidLA,采用了简单的网络架构,并使用一组以分...