中英文机器翻译数据集 喜爱 1 中英文翻译 2 2749734292@qq. CC0 自然语言处理 2 7 2022-12-20 详情 相关项目 评论(0) 创建项目 文件列表 cmn1.txt cmn1.txt (3.99M) 下载 Hi. 嗨。 CC-BY 2.0 (France) Attribution: tatoeba.org #538123 (CM) & #891077 (Martha) Hi. 你好。 CC-BY 2.0 (...
中英平行语料是指将中英文文本对照存储的一种语料库。这种语料库通常由一系列句子或段落构成,其中每个句子或段落都以中文和英文两种语言对应存储。中英平行语料可以用于多种应用,例如机器翻译、语言对比、主题提取等。对于机器翻译而言,中英平行语料是训练翻译模型的重要数据来源。通过使用这些语料库,可以训练出能够实现准确...
Chinese, English NER, English-Chinese machine translation dataset. 中英文实体识别数据集,中英文机器翻译数据集, 中文分词数据集 - quincyliang/nlp-public-dataset
本文讲解的机器翻译实践使用http://www.manythings.org/anki/提供的中英文句子对作为训练数据集。对于英文,先将其全部变成小写,然后仅保留英文单词及句子末尾标点符号。对于中文,直接按字进行切分,不采用分词操作。同时设定MAX_LEN = 20,得到一个包含29077个中英句子对的训练数据集。 对数据集进行进一步处理,生成中英...