WikiText英语词库数据(The WikiText Long Term Dependency Language Modeling Dataset)是一个包含1亿个词汇的英文词库数据,这些词汇是从Wikipedia的优质文章和标杆文章中提取得到,包括WikiText-2和WikiText-103两个版本。相比于著名的Penn Treebank (PTB)词库中的词汇数量,前者是其2倍,后者是其110倍。每个词汇还同时保...
WikiText language modeling dataset是从维基百科上一组经过验证的好文章和特色文章中提取的超过1亿个令牌的集合。数据集可在Creative Commons Attributation-ShareAlike许可证下使用。 与Penn Treebank(PTB)的预处理版本相比,WikiText-2大了2倍以上,WikiText-103大了110倍以上。WikiText ...
目前,下列代码试图导入PyTorch数据集 WikiText2 时,由于PyTorch的数据网盘问题,会报错:requests.exceptions.HTTPError: 403 Client Error: Forbidden for url:https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-v1.zip代码:from torchtext.datasets import WikiText2 # 导入WikiText2 from torchtex...