近期,美国AI可观察性平台Arize AI采访了OpenAI的两位研究科学家欧阳龙 (Long Ouyang) 和Ryan Lowe,他们是InstructGPT(采用人类反馈的强化学习 (RLHF) 训练大型语言模型的首批主要应用之一)的创造者,在RLHF模型的演变和为GPT-4奠基方面发挥了重要作用。以下是对话中的一些要点。图源:AI PUB, ARIZE AI 开发Instr...