OSCAR 是一个庞大的多语种语料库,它是通过对 Web 上爬取的文本进行语言分类和过滤而获得的。 数据集的世界语部分只有 299M,因此我们将与 Leipzig 语料库集合(https://wortschatz.uni-leipzig.de/en/download)中的世界语子语料库相连接,该语料库由来自新闻、文学和维基百科等不同来源的文本组成。 最终的训练语料...
OSCAR 是一个庞大的多语种语料库,它是通过对 Web 上爬取的文本进行语言分类和过滤而获得的。 数据集的世界语部分只有 299M,因此我们将与 Leipzig 语料库集合(https://wortschatz.uni-leipzig.de/en/download)中的世界语子语料库相连接,该语料库由来自新闻、文学和维基百科等不同来源的文本组成。 最终的训练语料...