例如,给定前缀“太空针塔位于城市”,GPT 将可靠地预测真实答案:“西雅图”(图 1a)。据观察,自回归 GPT 模型(Radford 等人,2019;Brown 等人,2020)和masked BERT 模型(Devlin 等人,2019)中都出现了事实知识。 在本文中,我们研究了如何将此类事实关联存储在类似 GPT 的autoregressive model模型中。尽管当今使用的许多...
在本文中,我们报告了证据表明,GPT 中的事实关联对应于可以直接编辑的本地化计算。 大型语言模型可以预测有关世界的事实陈述(Petroni 等人,2019 年;Jiang 等人,2020 年;Roberts 等人,2020 年)。例如,给定前缀“The Space Needle is located in the city of”,GPT 将可靠地预测真实答案:“Seattle”(图 1a)。
We analyze the storage and recall of factual associations in autoregressive transformer language models, finding evidence that these associations correspond to localized, directly-editable computations. We first develop a causal intervention for identifying neuron activations that are decisive in a model's ...
Say you have a new methodXand want to benchmark it on CounterFact. To integrateXwith our runner: SubclassHyperParamsintoXHyperParamsand specify all hyperparameter fields. SeeROMEHyperParametersfor an example implementation. Create a hyperparameters file athparams/X/gpt2-xl.jsonand specify some de...
3.3 评估 ROME:我们的 COUNTERFACT 数据集 3.4 通过因果追踪确认决定性状态的重要性 3.5 比较生成结果 3.6 人类评估 3.7 局限性 四、相关工作 五、结论 原文:Locating and Editing Factual Associations in GPT 作者:Kevin Meng∗ David Bau∗ Alex Andonian Yonatan Belinkov† 代码: github.com/kmeng01/ro...