中文文本嵌入模型text2vec-base-chinese 喜爱 1 中文文本嵌入模型,用CoSENT(Cosine Sentence)方法训练,基于hfl/chinese-macbert-base在中文STS-B数据训练得到,并在中文STS-B测试集评估达到较好效果。 2023年8月7日下载自https://huggingface.co/shibing624/text2vec-base-chinese...
下载方法:点击任意需要下载的模型 → 选择"Files and versions"选项卡 → 下载对应的模型文件。 使用说明 中国大陆境内建议使用百度网盘下载点,境外用户建议使用谷歌下载点,base模型文件大小约400M。以TensorFlow版BERT-wwm, Chinese为例,下载完毕后对zip文件进行解压得到: chinese_wwm_L-12_H-768_A-12.zip |- ...
本项目提供了面向中文的XLNet预训练模型,旨在丰富中文自然语言处理资源,提供多元化的中文预训练模型选择。 我们欢迎各位专家学者下载使用,并共同促进和发展中文资源建设。 本项目基于CMU/谷歌官方的XLNet:https://github.com/zihangdai/xlnet 中文MacBERT|中文ELECTRA|中文XLNet|知识蒸馏工具TextBrewer|模型裁剪工具TextPruner...
进入https://huggingface.co/hfl 之后选择某个MacBERT模型,例如MacBERT-base:https://huggingface.co/hfl/chinese-macbert-base 选择"files and versions"选项卡 点击需要下载的bin/json等文件 快速加载 通过🤗Transformers 可以快速加载MacBERT模型。 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME") model ...
进入https://huggingface.co/hfl之后选择某个MacBERT模型,例如MacBERT-base:https://huggingface.co/hfl/chinese-macbert-base 选择"files and versions"选项卡 点击需要下载的bin/json等文件 快速加载 通过🤗Transformers可以快速加载MacBERT模型。 tokenizer = BertTokenizer.from_pretrained("MODEL_NAME") model = ...
模型简称Google下载百度网盘下载压缩包大小 ELECTRA-large, ChineseTensorFlowTensorFlow(密码1e14)1G ELECTRA-base, ChineseTensorFlowTensorFlow(密码f32j)383M ELECTRA-small-ex, ChineseTensorFlowTensorFlow(密码gfb1)92M ELECTRA-small, ChineseTensorFlowTensorFlow(密码1r4r)46M ...
BERT-base模型:12-layer, 768-hidden, 12-heads, 110M parameters 注意:开源版本不包含MLM任务的权重;如需做MLM任务,请使用额外数据进行二次预训练(和其他下游任务一样)。 模型简称语料Google下载百度网盘下载 RBT6, ChineseEXT数据[1]-TensorFlow(密码hniy) ...
本项目提供了面向中文的XLNet预训练模型,旨在丰富中文自然语言处理资源,提供多元化的中文预训练模型选择。 我们欢迎各位专家学者下载使用,并共同促进和发展中文资源建设。 本项目基于CMU/谷歌官方的XLNet:https://github.com/zihangdai/xlnet 中文LERT|中英文PERT|中文MacBERT|中文ELECTRA|中文XLNet|中文BERT|知识蒸馏工具...
macbert4csc-base-chinese模型结构MacBERT是一种针对中文语言特性进行优化的预训练语言模型,其结构基于原始的BERT(Bidirectional Encoder Representations from Transformers)模型进行了改进。具体来说: 1. 架构基础:MacBERT保留了BERT的基本架构,即使用Transformer的编码器部分进行双向上下文的表征学习。 2. 预训练任务:MacBERT...
我们在这个实验中比较了BERT-wwm-ext、RoBERTa-wwm-ext、ELECTRA-base和MacBERT-base,因为它们共享相同的...