我们计算了超过 1000 个事实陈述的平均间接效应 (AIE)(详细信息参见附录 B.1),在句子中的不同位置和不同的模型组件(包括单个状态、MLP 层和注意层)上改变中介变量。图 2 绘制了 GPT-2 XL 内部组件的 AIE(1.5B 参数)。该实验的 ATE 为 18.6%,我们注意到很大一部分效应是由最后一个主题标记处的强因果个体...
在本文中,我们报告了证据表明,GPT 中的事实关联对应于可以直接编辑的本地化计算。 大型语言模型可以预测有关世界的事实陈述(Petroni 等人,2019 年;Jiang 等人,2020 年;Roberts 等人,2020 年)。例如,给定前缀“The Space Needle is located in the city of”,GPT 将可靠地预测真实答案:“Seattle”(图 1a)。
Say you have a new methodXand want to benchmark it on CounterFact. To integrateXwith our runner: SubclassHyperParamsintoXHyperParamsand specify all hyperparameter fields. SeeROMEHyperParametersfor an example implementation. Create a hyperparameters file athparams/X/gpt2-xl.jsonand specify some de...
3.3 评估 ROME:我们的 COUNTERFACT 数据集 3.4 通过因果追踪确认决定性状态的重要性 3.5 比较生成结果 3.6 人类评估 3.7 局限性 四、相关工作 五、结论 原文:Locating and Editing Factual Associations in GPT 作者:Kevin Meng∗ David Bau∗ Alex Andonian Yonatan Belinkov† 代码: github.com/kmeng01/ro...