1. 初级数据生成:根据 Stanford_alpaca 和 self-instruct 方式生成对话问答数据2. 知识引导的数据生成:通过 Knowledge-based Self-Instruct 方式基于中文法律结构化知识生成数据。3. 引入 ChatGPT 清洗数据,辅助构造高质量数据集。部署好了之后,可以直接问诸如「酒驾撞人怎么判刑?」
祝海林:在构建大型语言模型时,我们不能仅基于纯中文数据进行训练,而需要将西方或欧美的数据纳入其中。对人类来说,多语言可能是困难的问题,但在大型语言模型中这并不是难题。目前我们可能面临的困难是,我们对英语的掌握能力还有所欠缺,虽然这些数据是公开的,但我们需要对其进行有效的清洗和加工。在这方面,我们与欧美...