我是2023年10月开始关注到可以用 Sparse Autoencoder (SAE)来解释LLM的,到25年3月这一年半的时间里:(1) 训出了一系列基于Mistral-7b-inst的SAE模型;(2) 探索如何利用SAE的解释来提升LLM在生成任务的安全性和分类任务(e.g., Reward Modeling)的泛化性;(3) 参与了一篇SAE+LLM的survey。有人或许会问我为啥...
还存在另一层不匹配,即我们的主观可解释性评估是我们真正目标“这个模型是如何工作的”的代理。有可能LLMs中的一些重要概念不容易解释,如果我们盲目地优化可解释性,可能会忽略这些概念。 有关SAE 评估方法的更详细讨论以及使用棋盘游戏模型 SAE 的评估方法,请参阅我的博客文章《Evaluating Sparse Autoencoders with B...
10:59 [动手写神经网络] pytorch 高维张量 Tensor 维度操作与处理,einops 23:03 [动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio) 14:43 [动手写神经网络] kSparse AutoEncoder 稀疏性激活的显示实现(SAE on LLM) 16:22 [...
To address this issue, we employ a method known as dictionary learning by using sparse autoencoders (SAEs) to transform LLM activations into more interpretable spaces spanned by neurons corresponding to individual features. After matching feature neurons across models via activation correlation, we ...
Paper tables with annotated results for Sparse Autoencoder Features for Classifications and Transferability
Implements the Tsetlin Machine, Coalesced Tsetlin Machine, Convolutional Tsetlin Machine, Regression Tsetlin Machine, and Weighted Tsetlin Machine, with support for continuous features, drop clause, Type III Feedback, focused negative sampling, multi-task classifier, autoencoder, literal budget, and one-...
Sparse AutoEncode (SAE) TLDR 就是一个宽度很大的linear proj + 激活函数 + linear proj(有可能再加一个threshold i.e. JumpReLU),通过loss设计让激活稀疏化。根据transformer-circuits.pub 的说法,LLM本身的latent space是高度多义性的 e.g. 一个高维vector表达多种人类语义下的信息 ...
理解稀疏自编码器Sparse Autoencoders 文章分享:towardsdatascience.com/ 文章主要探讨了人工智能领域中的 Anthropic 公司如何通过手动操作来构建和理解稀疏自编码器,以提高大型语言模型的解释性。 文章通过一个关于 Zephyra 保护真理宝典的寓言故事开始,象征性地描述了 Anthropic AI 在提取模型中有意义特征的旅程。作者...
Paper tables with annotated results for Are Sparse Autoencoders Useful? A Case Study in Sparse Probing
Sparse Autoencoders Trained on the Same Data Learn Different Features Sparse autoencoders (SAEs) are a useful tool for uncovering human-interpretable features in the activations of large language models (LLMs). While some expect SAEs to find the true underlying features used by a model, our ...