CircuitLasso：把昂贵的 circuit discovery 变成一次稀疏回归

节目导览

这期精读 2026 年 6 月 15 日提交到 arXiv、并被 ICML 2026 Mechanistic Interpretability Workshop 接收的论文「Scalable Circuit Learning for Interpreting Large Language Models」。论文提出 CircuitLasso：用观测到的激活数据和稀疏线性回归，先学出一张低成本的 circuit dependency skeleton，再把验证资源集中到关键边和关键 feature 上。

本期重点讲四件事：

为什么 SAE feature 比原始 neuron 更适合解释，但又让干预式 circuit discovery 的成本变得很高。
CircuitLasso 如何用 transformer 的计算顺序，把一般 DAG 约束简化成块上三角的稀疏回归问题。
论文在 InterpBench、CoLA 和 Bias-in-Bios 上分别验证了什么：结构恢复精度接近 EAP-ig，runtime 约降到三分之一；在 SAE feature 空间中能看到 persistence、merging、dropping 等跨层语义路径；在去偏任务上以更低成本达到接近强基线的效果。
这篇论文的边界：线性系数不是精确因果效应，残差流与 SAE 重建误差会留下未建模部分，图里的边有时也会捕捉数据中的虚假相关。

CircuitLasso：不用反复干预，也能学出 SAE feature circuit？

CircuitLasso：把昂贵的 circuit discovery 变成一次稀疏回归

节目导览

来源