祝海林:在构建大型语言模型时,我们不能仅基于纯中文数据进行训练,而需要将西方或欧美的数据纳入其中。对人类来说,多语言可能是困难的问题,但在大型语言模型中这并不是难题。目前我们可能面临的困难是,我们对英语的掌握能力还有所欠缺,虽然这些数据是公开的,但我们需要对其进行有效的清洗和加工。在这方面,我们与欧美...
不过上述功能已是大模型的标配,文心译真正的亮点在于其中文理解能力和多模态生成能力。 虽然升级到GPT4之后能力进一步提升,但这个世界级的大模型在研发和应用上仍然主要针对英文,在中文理解上还有不少不足,尤其是隐藏在文字背后的中国思维和东方文化。虽然百度的文心易言目前还不够完善,还有很大的进步空间,但它在中文领...
祝海林:在构建大型语言模型时,我们不能仅基于纯中文数据进行训练,而需要将西方或欧美的数据纳入其中。对人类来说,多语言可能是困难的问题,但在大型语言模型中这并不是难题。目前我们可能面临的困难是,我们对英语的掌握能力还有所欠缺,虽然这些数据是公开的,但我们需要对其进行有效的清洗和加工。在这方面,我们与欧美...