DeepMind随后将压缩Transformer与TransformerXL在最新的PG-19书籍数据集上进行了基准测试,具体设置可以参看论文原文。结果如下图所示:可以看到,压缩Transformer的测试困惑度为33.6,TransformerXL的为36.3。尽管数据集很大,但显然这仍然是一个具有挑战性的领域,而这个测试结果可以作为这个长程语言建模基准的第一个基线。