我们介绍了LongVILA,一种用于长上下文视觉语言模型的全策略解决方案,包括系统、模型训练和数据集开发。在系统方面,我们介绍了第一个多模式序列并行(MM-SP)系统,该系统能够实现长上下文训练和推断,在256个GPU上实现2M上下文长度的训练。MM-SP也很高效,在纯文本设置中比环形序列并行快2.1倍-5.7倍,比威震天LM快1.1倍-...