在本文中,我们报告了证据表明,GPT 中的事实关联对应于可以直接编辑的本地化计算。 大型语言模型可以预测有关世界的事实陈述(Petroni 等人,2019 年;Jiang 等人,2020 年;Roberts 等人,2020 年)。例如,给定前缀“The Space Needle is located in the city of”,GPT 将可靠地预测真实答案:“Seattle”(图 1a)。
例如,给定前缀“太空针塔位于城市”,GPT 将可靠地预测真实答案:“西雅图”(图 1a)。据观察,自回归 GPT 模型(Radford 等人,2019;Brown 等人,2020)和masked BERT模型(Devlin 等人,2019)中都出现了事实知识。 在本文中,我们研究了如何将此类事实关联存储在类似 GPT 的autoregressive model模型中。尽管当今使用的许多最...
We analyze the storage and recall of factual associations in autoregressive transformer language models, finding evidence that these associations correspond to localized, directly-editable computations. We first develop a causal intervention for identifying neuron activations that are decisive in a model's ...
Say you have a new methodXand want to benchmark it on CounterFact. To integrateXwith our runner: SubclassHyperParamsintoXHyperParamsand specify all hyperparameter fields. SeeROMEHyperParametersfor an example implementation. Create a hyperparameters file athparams/X/gpt2-xl.jsonand specify some de...
3.3 评估 ROME:我们的 COUNTERFACT 数据集 3.4 通过因果追踪确认决定性状态的重要性 3.5 比较生成结果 3.6 人类评估 3.7 局限性 四、相关工作 五、结论 原文:Locating and Editing Factual Associations in GPT 作者:Kevin Meng∗ David Bau∗ Alex Andonian Yonatan Belinkov† 代码: github.com/kmeng01/ro...