(1)[Ring attention with blockwise transformers for near-infinite context] Ring attention在多个gpu上分配注意力计算来扩展到非常长的序列。 (2)[Longnet: Scaling transformers to 1,000,000,000 tokens] LongNet具有计算多个注意的能力,每个注意具有不同的扩展稀疏模式。这些计算独立运行,可以分布在多个设备上,...