OpenAI的研究表明,TopK作为激活函数的重建性能是最好的。 TopK和其余激活函数的比较 和其他Auto Encoder的性质对比 VQ-VAE原理图 普通的Auto Encoder得到的latent representation一般是连续,低维的表征;而VAE得到的是具有高斯分布先验的连续表征;VQ-VAE得到的是离散化的表征。区别于前面几类,SAE得到的通常是稀疏连续的...
图2:Sparse Autoencoder的解释效果。 SAE可以被Scaling Up SAE受到LLM解释性圈子关注的核心原因在于OpenAI和Anthropic分别在他们最先进的模型上训练了千万级特征的SAE (ref:GPT-4 SAE和Claude 3 SAE)。在图3中我们可以观察到,SAE从仅有两层的玩具模型,发展到GPT-2这种十几层且包含几百M参数的早期LLM,再到Claude...
Sparse autoencoders This repository hosts: sparse autoencoders trained on the GPT2-small model's activations. a visualizer for the autoencoders' features Install pip install git+https://github.com/openai/sparse_autoencoder.git Code structure See sae-viewer to see the visualizer code, hosted pub...
Files main sae-viewer public src .gitignore README.md package-lock.json package.json tailwind.config.js tsconfig.json sparse_autoencoder .gitignore .pre-commit-config.yaml LICENSE README.md SECURITY.md pyproject.tomlBreadcrumbs sparse_autoencoder / sae-viewer/ Directory actions More options...
总的来说,OpenAI发布的Sparse Autoencoder是一项具有重大意义的技术。它不仅推动了深度学习技术在无监督...
BreadcrumbsHistory for sparse_autoencoder sparse_autoencoder onmain User selector All users DatepickerAll time Commit History Commits on Jun 27, 2024 n2g impl WuTheFWasThatcommittedJun 28, 2024 0b47601 Commits on Jun 17, 2024 add training code leogao2committedJun 17, 2024 4a32f5e Commi...
(Reading for inspiration(十))SPARSE AUTOENCODERS FIND HIGHLY INTER PRETABLE FEATURES IN LANGUAGE MODELS Abstract 1 简介 主题 核心创新点 可解释性与单语义性: 核心假设 解决了什么问题 结论 (Reading for inspiration(十))SPARSE AUTOENCODERS FIND HIGHLY INTER PRETABLE FEATURES IN LANGUAGE MODELS Hoagy ...
Cancel Submit feedback Saved searches Use saved searches to filter your results more quickly Cancel Create saved search Sign in Sign up Reseting focus {{ message }} openai / sparse_autoencoder Public Notifications You must be signed in to change notification settings Fork 46 ...
An Intuitive Explanation of Sparse Autoencoders for LLM Interpretability 稀疏自编码器的直观解释以提高可解释性 稀疏自动编码器(SAE)最近因其在机器学习模型的可解释性方面而变得流行(尽管稀疏字典学习自 1997 年以来就已存在)。机器学习模型和LLMs正变得越来越强大和有用,但它们仍然是黑箱,我们并不理解它们是...
Scaling and evaluating sparse autoencoders 扩展和评估稀疏自动编码器 原论文 https://arxiv.org/abs/2406.0409 摘要 稀疏自编码器通过重建来自稀疏瓶颈层的激活,提供了一种从语言模型中提取可解释特征的有前途的无监督方法。由于语言模型学习了许多概念,自编码器需要非常大才能恢复所有相关特征。然而,由于需要平衡重建...