【人工知能・深層学習】論文紹介：Interpreting vision transformers via residual replacement model

>100 Views

March 05, 26

#deeplearning #論文紹介 #深層学習 #人工知能 #vision transformer #interpretability #sparse autoencoder

スライド概要

【学生の情報】：M2 杉山豪

【対象論文】：
Interpreting vision transformers via residual replacement model

【注意書き】：研究室内で発表に利用したものです。自分用のメモも兼ねていますので、情報が混みあっています。解釈に誤りがある可能性がありますので、ご参考いただく際はご注意ください。**資料の転用は禁止しております。**

Taki lab.

@8328889256

スライド一覧

立教大学大学院人工知能科学研究科における瀧雅人准教授が主催する研究室で2020年度からスタートしているまだ若い組織です。最先端の深層学習について、高度化・説明性向上などをテーマに深く幅広く研究しています。また医療や神経科学・物理学におけるデータ分析や、産業への社会実装にも携わっています。研究室内のPaper Reading活動の記録として、研究室学生の発表資料を公開しています。ご興味をお持ちの方は、HPをご確認ください。

またはPlayer版

埋め込む »CMSなどでJSが使えない場合

ダウンロード

関連スライド

【人工知能・深層学習】レビュー：モダリティギャップの研究紹介

論文紹介 deeplearning 深層学習人工知能マルチモーダルモダリティギャップ

Taki lab. 7.1K

【人工知能・深層学習】論文紹介：Vision-Language Models Create Cross-Modal Task Representations

deeplearning 論文紹介深層学習人工知能 llm in-context learning task vector vlm

Taki lab. 6.3K

【人工知能・深層学習】論文紹介：Towards Modular LLMs by Building and Reusing a Library of LoRAs

論文紹介 deeplearning 人工知能深層学習 lora

Taki lab. 2.2K

【人工知能・深層学習】論文紹介：DecomCAM: Advancing Beyond Saliency Maps through Decomposition and Integration

論文紹介 deeplearning 人工知能深層学習 vlm

Taki lab. 2.1K

【人工知能・深層学習】論文紹介：Nested Learning: The Illusion of Deep Learning Architectures

deeplearning 論文紹介深層学習人工知能 optimizer llm in-context learning

Taki lab. 2.1K

【人工知能・深層学習】論文紹介：You Only Need Less Attention at Each Stage in Vision Transformers

論文紹介 deeplearning 人工知能深層学習 vision transformer

Taki lab. 1.9K

各ページのテキスト

Interpreting vision transformers via residual replacement model Kim et al., NeurIPS 2025 260228 JC 杉山

概要 ViTは世界をどう表現し、処理しているのか？・Residual Streamを解釈可能な特徴で置き換えるResidual Replacement Modelを提案・獲得している特徴量の進化、曲線や空間位置を符号化する仕組みを明らかに：”Circuit”

Introduction

1. Introduction ・視覚モデルの内部メカニズムを理解することは長年の課題・２つの問い：・視覚モデルは世界をどのように表現するのか？・予測をするためにこれらの表現をどのように処理しているのか？・CNNでは進展が見られたが（下図：2020年, OpenAI）、ViTではまだ示唆が少ない CNNモデルの曲線検出器の例[1] [1]https://distill.pub/2020/circuits/zoom-in/

1. Introduction ・ViTの内部表現は多義的：単一のニューロン内に複数の概念を符号化・SAEなどの辞書学習手法：多義的→単義的に分解可能・Residual Streamに焦点を当てたResidual Replacement Modelを提案 →attention modulesの複雑さを回避しつつ、層間における情報の流れを分析

Systematic Feature Analysis

2. Systematic Feature Analysis SAEによる解析は言語モデルで広く用いられてきたが、ViTへの応用も注目を集めている →先行研究の大半は後段の層に焦点を当て、定性的な評価に依存 →モデル全体の特徴量の体系的な分析は行われていない 2.1 Preliminaries：SAE TopK SAE：をスパースな特徴 SAEの学習では、再構成誤差各要素：i番目の特徴の活性に写像し、 originalの表現を下記のように再構築：学習可能なパラメータを最小化するように学習し、をTopKで選択

2. Systematic Feature Analysis SAEによる解析は言語モデルで広く用いられてきたが、ViTへの応用も注目を集めている →先行研究の大半は後段の層に焦点を当て、定性的な評価に依存 →モデル全体の特徴量の体系的な分析は行われていない 2.1 Preliminaries：Training ・ViT、CLIP、DINOv2の各層のResidual StreamでTopK SAEを訓練・TopK SAEには主に2つのハイパラ：特徴量の数とスパース性のレベル・ハイパラの適切な値は確立されていないため、様々な設定を網羅的に検証 →Gaoら（2024）[2]のスケーリング則をViTに拡張・各層において、説明不可能な分散の割合が0.15未満のSAEを選択 SAEのスケーリング則[2] ①特徴量がRAWのニューロンよりも解釈可能であることを検証 ②すべての層とモデルにわたって特徴量を注釈付け・分類 ③主要な知見のまとめ [2]Scaling and evaluating sparse autoencoders - Gao et al., 2024

https://arxiv.org/pdf/2406.04093

2. Systematic Feature Analysis ①特徴量がRAWのニューロンよりも解釈可能であることを検証・SAEの特徴量とRAW（生）のニューロンの解釈可能性をブラインドの設定で評価・具体的には、各層から特徴量とニューロンの両方から無作為に選択した640の可視化サンプルを抽出 →先行研究のプロトコルに従って「はい（1）」、「おそらく（0.5）」、「いいえ（0）」で評価・MIに詳しい著者による潜在的なバイアスを低減するため、専門家ではない16人の調査も実施・下図に示す通り、両グループとも全層においてRAWニューロンよりも有意に解釈可能であると判断 →SAEの有効性を確認

10.

2. Systematic Feature Analysis ②すべての層とモデルにわたって特徴量を注釈付け・分類・3つのモデルの全層において各層ごとに200の特徴をアノテーション・下図：ViTの結果の概要 →初期層：低次視覚属性（Color、Line）→後期層：高次意味概念（Object）への進展が観察できる・この層ごとの進展はCNNで見られる一般的な傾向と一致 →アーキテクチャを超えた特徴の普遍性を強調

11.

2. Systematic Feature Analysis ③主要な知見のまとめ・各レイヤーに対応するパッチの可視化

12.

2. Systematic Feature Analysis ③主要な知見のまとめ・ViTの初期層では局所的なパッチレベルのパターンを検出 →L字型のコーナー（L0#5）は、コーナーがパッチグリッドと正確に一致した場合にのみ活性同じコーナーが複数のパッチに分割されると反応しない

13.

2. Systematic Feature Analysis ③主要な知見のまとめ・層が深くなるにつれ、ViTは複雑な意味概念をとらえる →L5#156は、外観の差異があるにもかかわらず動物の額を一貫して検出汎用的のある抽象的な意味表現を学習していることを示唆

14.

2. Systematic Feature Analysis ③主要な知見のまとめ・CNNと同様に、ViTはエッジ、曲線、低周波テクスチャといった特徴を学習する・一方、ViTは位置依存的な特徴も示す→言語モデルと類似・この類似性を更に検証するため、曲線検出器と位置検出器についても調査

15.

2. Systematic Feature Analysis Curve Detectors：・CNNにおける視覚特性を追跡する特徴の代表例・下図に示す放射状の曲線を再現→曲線の角度に対する特徴の活性化を可視化・ViTの第2層にあるそれぞれの曲線検出器は、特定角度に対して一貫して活性化することが判明 8

16.

2. Systematic Feature Analysis Position Detectors：・ViT内の位置検出器を自動識別 →各特徴量の平均活性化（下図の左）初期層の特徴量は特定の行・列・パッチで活性化する傾向がある一方、深層の特徴量は拡散パターン →attentionによる位置情報の混合に起因すると考えられる・特定された位置検出器を活性化を統合すると、画像パッチ空間全体を完全にカバー（下図の右）・これは、ViTがモデル全体を通じて位置情報の完全な表現を維持していることを示唆

17.

Residual Replacement Model

18.

3. Residual Replacement Model 各ノードは特徴量（または誤差項）に対応、各エッジは隣接層間における特徴量間の接続 →ネットワーク全体での情報の流れを反映 Estimating Causal Effects ・RRMの各エッジにおける重要度を推定するために、attribution patchingを使う・エッジ（）でのその重要度は以下のように近似：：目的関数 →対象クラスのロジットから全クラス平均を引いたもの → がを通じてのみ媒介されるモデルの出力への影響を推定：データセット全体におけるの活性の中央値

19.

3. Residual Replacement Model Discovering Circuits ・サブグラフにおいて、下記の流れでcircuitを同定 1. 最終層において、ターゲットクラスに最も重要なノード 2. 前の層の各ノードにおいても重要なノード Edge-based Discovery をTop-Kで選択するを選択し寄与度の集約スコア（下記）を計算 3. 再帰的に繰り返し、入力側まで遡っていく・ターゲットの予測に因果的に影響を与える下記のノードの集合を得る

20.

3. Residual Replacement Model Other Technical Challenges RRMにおいて、２つの技術的な課題 ①エッジ重要度推定のスケーラビリティ・言語モデルに対する研究では扱うトークンがごく少数だが、ViTは画像毎に数百のトークンを処理・エッジ重要度推定のための単純なヤコビアンの計算：層ごとにのバックワードパスが必要（：トークン数、：特徴量数） →これはエッジ重要度推定は計算上非現実的ここだけ重要・トークン全体の集約された重要度のみが必要 →ヤコビアン-ベクトル積のトリックを用いて計算コストを →200倍の高速化、画像ごとの計算時間を数秒に短縮に削減できる

21.

3. Residual Replacement Model Other Technical Challenges gradient correction RRMにおいて、２つの技術的な課題 ②ノイジーな勾配・ViTはノイズの多い勾配に悩まされることが知られており、勾配ベース推定の信頼度を著しく損なう・この問題を緩和するため、LibraGradを中間表現とSAEに拡張 →バックワードパスをプルーニング・スケーリングすることで勾配を補正する手法・これにより通常の勾配と比較してcircuitのfaithfulnessが最大で1.6倍に向上

22.

3. Residual Replacement Model Metrics ・circuit に対して3つの尺度で評価 Faithfulness：がモデルの挙動をどの程度説明できるかを定量化：full model graph ：empty circuit Completeness：circuitの必要性。からを除去した際に失われる性能の度合い →選択された特徴を削除し、データセット全体の活性化の中央値で置き換える →1-completenessを報告：低い値はがより多くの必須な特徴を捉えていることを示すため Causality：内の接続が真の因果的影響を反映しているかを評価 →layer のノードをablateし、下流ノードの活性の変化を観察 →活性の変化を計算。はablation後の下流ノードの活性化の減少を示す

23.

3. Residual Replacement Model Results ・Random Circuit：ノードをランダムに選択して構築した結果（比較のため） ①Contributions of Edge-based Discovery and Gradient Correction ・ノードベースかつ標準の勾配を用いて探索したcircuitをナイーブcircuitと定義・それに対する改善度（improvements）を測定・Table1の6-8行目に示す通り、両方の手法はfaithfulnessとcausalityを一貫して向上 Table1. circuitの評価結果 ImageNet valから1,500枚ランダムサンプルして評価

24.

3. Residual Replacement Model Results ・Random Circuit：ノードをランダムに選択して構築した結果（比較のため） ②Neuron Circuit vs. Feature Circuit ・特徴回路では特徴量ではなく多義的ニューロンを単位ノードとして用いている・4-8行目に示す通り、特徴回路は全評価指標においてニューロン回路を上回り、解釈性も高い・SAEが効果的に分解し、より簡潔な回路を生成することを示している Table1. circuitの評価結果 ImageNet valから1,500枚ランダムサンプルして評価

25.

3. Residual Replacement Model Qualitative Analysis：Granny Smith Circuit ・緑色、丸い形状（丸い果実）、Granny Smithという特定の概念の特徴回路に分解・0~5層では低次の視覚情報である緑色の特徴に注目

26.

3. Residual Replacement Model Qualitative Analysis：Granny Smith Circuit ・6層に至ると丸い形状検出器が出現、8層では丸い果実といった特異的な特徴へと進化

27.

3. Residual Replacement Model Qualitative Analysis：Granny Smith Circuit ・6層に至ると丸い形状検出器が出現、8層では丸い果実といった特異的な特徴へと進化

28.

3. Residual Replacement Model Qualitative Analysis：Granny Smith Circuit ・最終的に9層では色と形状情報を統合したGranny Smith専用に活性化する高度な特徴が現れる →この特徴は最終層まで維持され、モデルの分類決定に支配的な役割を果たす

29.

30.

3. Residual Replacement Model Quantitative Analysis ・特徴回路の類似性が層間でどのように進化するかを分析 →トップ100の特徴回路の各層におけるノード間のダイススコアを同一クラス画像ペアに対して計算・後段の層になるほど同一クラス画像間の特徴類似性が増加 →一方、異クラス間の類似性は低いまま維持されることが観察された →類似した画像が深い層において共有された内部表現に収束されることを示唆 8

31.

3. Residual Replacement Model Curve Circuit ・L3#801の曲線検出器 →アーキテクチャが大幅に異なるInceptionV1と類似・L0では色・コントラスト特徴が組み合わさってL1#299を形成・さらにL2#579を形成し、先行研究に見られた線→曲線の回路と一致・最終的に、L3#801のような複雑な曲線検出器を形成・ViTは線検出器から曲線検出器を構築し、それらの合成でより複雑な曲線検出器を構築

32.

3. Residual Replacement Model Position Circuit ・物体の左側で活性化するL3#509の回路・L1#239のような広域の位置検出器は、低次レベルの位置検出器（L0#80, L0169）から出現・誤差項L2#Eなどの追加ノードと連携し、物体の左側を検出するモデルの能力に寄与・位置検出器が他の特徴に空間情報を提供し、物体の配置や配列に関する理解を促進

33.

Application：Debiasing Spurious Correlations

34.

35.

4. Application：Debiasing Spurious Correlations Discovering Circuits with Spurious Features ・ImageNetでは「freight car」（貨物車）は落書きとともに出現することが多い →モデルは誤って貨物車の存在と落書きを関連付け →偽（落書き）にかなりの重み付けをしている落書き：L9#2371 RRMを活用してこのような偽相関を特定、介入この偽の特徴（落書き：L9#2371）を除去 → 介入後のモデルの依存度を評価（1）介入後のモデル精度（2）”落書き”と”貨物車”を区別するAUC （どれだけうまく区別できたか）コンテナ：L9#2729 車輪：L9#553 貨物車：L10#1534

36.

4. Application：Debiasing Spurious Correlations Debiasing Spurious Feature Circuits ・下表の通り、介入は全体的な精度を最小限の損失で維持、偽相関への依存を効果的に低減・単一画像から単一特徴量を削除した場合の性能がSpuFix（先行研究）に近似している・RRMモデルは偽の特徴量を特定するだけでなく、モデル内部メカニズムの効果的なdebiasingを可能

37.

Conclusion

38.

Conclusion ・ViTの全層に渡る特徴の初の包括的解釈 →ViT内で解釈可能な特徴回路を構築するResidual Replacement Modelを導入・層を跨いで低次元の視覚的手がかりから高次元の意味概念への進展を示すことを明らかに

39.

Conclusion ・ViTの全層に渡る特徴の初の包括的解釈 →ViT内で解釈可能な特徴回路を構築するResidual Replacement Modelを導入・層を跨いで低次元の視覚的手がかりから高次元の意味概念への進展を示すことを明らかに・RRMは、ViTが曲線や位置といった中間表現を形成し、予測に至る過程に関する知見を提供・ViT内の偽相関を特定、軽減することが可能

40.

Appendix ・

41.

42.

補足 SAE ・https://transformer-circuits.pub/2023/monosemantic-features →Pre encoder bias ‒ this boosted performance in toy model →we subtract the decoder bias from the inputs, and call this a pre-encoder bias. →encoderのバイアスを、decoderのバイアスの負の値に等しく制約 →データセットの幾何学的中央値で初期化することとしている

https://transformer-circuits.pub/2023/monosemantic-features

43.

補足 SAE ・Scaling and evaluating sparse autoencoders

https://arxiv.org/pdf/2406.04093

44.

補足 Residual Replacement Model の活性が、を経由して出力にどれだけ影響するか？・・・・：上流層の特徴（SAEユニット）：下流層の特徴：目的関数（対象クラスのロジットから全クラスの平均を減算して正規化）：データセット全体の中央値（baseline）・u-uʼ：入力画像特有の活性の差分 →その結果、dがどれだけ変化し、出力mがどれだけ変化するかを表している SPARSE FEATURE CIRCUITS: DISCOVERING AND EDITING INTERPRETABLE CAUSAL GRAPHS IN LANGUAGE MODELS - Marks et al., ICLR 2025

https://arxiv.org/pdf/2403.19647

45.

補足 SPARSE FEATURE CIRCUITS: DISCOVERING AND EDITING INTERPRETABLE CAUSAL GRAPHS IN LANGUAGE MODELS - Marks et al., ICLR 2025

https://arxiv.org/pdf/2403.19647

46.

補足 Jacobian-vector products SPARSE FEATURE CIRCUITS: DISCOVERING AND EDITING INTERPRETABLE CAUSAL GRAPHS IN LANGUAGE MODELS - Marks et al., ICLR 2025

https://arxiv.org/pdf/2403.19647

47.

補足 Faithfulness： Faithfulness：がモデルの挙動をどの程度説明できるかを定量化：full model graph ：empty circuit ・G：SAEによって抽出された全ての特徴量（ノード）と全ての接続（エッジ）を含む、モデル全体の計算プロセスを網羅した巨大なグラフ・m(G)：元のViTと同等の出力を表現する状態・C：Gの部分集合であり、主要な役割を果たしている計算メカニズムを抽出した、小規模なサブグラフクラスごとに重要なもの・m(C)：Cに含まれる特徴量だけを有効にしたときの出力・m(ϕ)：SAEの特徴量の中央値

48.

補足 Completeness： Completeness：circuitの必要性。からを除去した際に失われる性能の度合い →選択された特徴を削除し、データセット全体の活性化の中央値で置き換える →1-completenessを報告：低い値はがより多くの必須な特徴を捉えていることを示すため・回路Cが不可欠かどうか？・C自体を中央値に置き換え違い： Faithfulness（十分かどうか）：回路Cだけで説明がつくか？ Completeness（必要かどうか）：回路Cがなくなると予測ができなくなるか？例：色＋Shapeでほとんど説明できているが、実は＋Texture情報も残っているケース →Faithfulness：高い、（1-Completeness）：低い

49.

補足 Completeness： Causality：内の接続が真の因果的影響を反映しているかを評価 →layer のノードをablateし、下流ノードの活性の変化を観察 →活性の変化を計算。はablation後の下流ノードの活性化の減少を示す・

50.