『The Matrix Cookbook』Page 15完全解読：構造化行列の微分公式と連鎖律

2542 words

13 minutes

『The Matrix Cookbook』Page 15完全解読：構造化行列の微分公式と連鎖律

2026-01-10

Mathematical Science

Matrix Calculus

Structured Matrices

Chain Rule

Symmetric Matrix

Diagonal Matrix

last_modified: 2026-01-10

生成AIによる自動生成記事に関する免責事項: 本記事は、Petersen & Pedersen著 The Matrix Cookbook (Nov 15, 2012 edition) のPage 15の内容（公式134〜142）を骨子とし、数理的な証明と応用例を大幅に加筆して再構成した解説記事です。筆者の学習目的で生成したものです。正確な内容は必ず一次情報で確認してください。

1. 序論：構造が生む「微分の歪み」を補正する#

Page 14 の最後で触れた「構造化行列の微分」について、Page 15 では具体的な計算手法と公式が提示されます。

行列の成分同士に拘束条件（対称性 $X_{ij}=X_{ji}$ や対角性 $X_{ij}=0 (i \neq j)$ など）がある場合、単純な全微分は通用しません。本ページでは、連鎖律（Chain Rule） を用いてこの問題を一般化し、特に実用性の高い 対称行列 と 対角行列 の微分公式を導出します。これらは、正規分布の最尤推定やニューラルネットワークのパラメータ最適化において必須の知識です。

2. 構造行列と連鎖律 (Eq. 134–137)#

まずは、あらゆる構造化行列に対応できる汎用的なフレームワークを定義します。

2.1 構造行列 $S^{ij}$ の定義 (Eq. 134)#

行列 $A$ の成分 $A_{ij}$ を微小変化させたとき、行列全体がどう変化するかを表す行列を定義します。

【公式】

\frac{\partial A}{\partial A_{ij}} = S^{ij} \tag{134}

【解説】

構造なし（一般行列）: $A_{ij}$ だけが 1 で他は 0。つまり $S^{ij} = J^{ij}$ （シングルエントリ行列）。
対称行列: $A_{ij}$ を動かすと $A_{ji}$ も動く。つまり $S^{ij} = J^{ij} + J^{ji}$ （ただし $i=j$ の時は重複しないよう調整が必要）。

2.2 行列関数の連鎖律 (Eq. 135–137)#

関数 $g(U)$ （ただし $U=f(X)$ ）を $X$ で微分するための一般公式です。

【公式】

\frac{\partial g(U)}{\partial X_{ij}} = \text{Tr} \left[ \left( \frac{\partial g(U)}{\partial U} \right)^T \frac{\partial U}{\partial X_{ij}} \right] \tag{137}

【解説】 これは Page 14 Eq. 133 の再掲・詳細化です。「求めたい勾配」は、「構造を無視した勾配 $\frac{\partial g}{\partial U}$ 」と「構造を表す微分 $\frac{\partial U}{\partial X_{ij}}$ 」の内積（トレース）として計算されます。これがすべての構造化行列微分の基礎となります。

3. 対称行列の微分 (Symmetric Matrix)#

機械学習で最も頻出する構造化行列です。分散共分散行列、距離行列、カーネル行列などはすべて対称行列です。

3.1 対称化の一般公式 (Eq. 138)#

【公式】

\frac{df}{dA} = \left[ \frac{\partial f}{\partial A} \right] + \left[ \frac{\partial f}{\partial A} \right]^T - \text{diag} \left[ \frac{\partial f}{\partial A} \right] \tag{138}

ここで $\left[ \frac{\partial f}{\partial A} \right]$ は、対称性を無視して計算した「仮の勾配（Naive Gradient）」です。

【導出のロジック】 対称行列の構造行列は $S^{ij} = J^{ij} + J^{ji} - J^{ij}J^{ij}$ です（対角成分のダブルカウントを防ぐため）。これを連鎖律に代入すると、

$J^{ij}$ の寄与 $\to$ そのままの勾配 $G$
$J^{ji}$ の寄与 $\to$ 転置された勾配 $G^T$
$-J^{ij}J^{ij}$ の寄与 $\to$ 対角成分の引き算 $-\text{diag}(G)$ となり、Eq. 138 が導かれます。

3.2 具体的な適用例 (Eq. 139–141)#

【例1: トレースの微分】

\frac{\partial \text{Tr}(AX)}{\partial X} = A + A^T - (A \circ I) \tag{139}

Naive: $\text{Tr}(AX)$ の $X$ 微分は $A^T$ です（Page 12 Eq. 100）。
Symmetric Correction: 公式 Eq. 138 に $G=A^T$ を代入します。 $A^T + (A^T)^T - \text{diag}(A^T) = A^T + A - \text{diag}(A)$ 原典の $(A \circ I)$ は $\text{diag}(A)$ と同じ意味（アダマール積で対角成分を残す）です。

【例2: 行列式の微分】

\frac{\partial \det(X)}{\partial X} = \det(X) (2X^{-1} - (X^{-1} \circ I)) \tag{140}

Naive: $\det(X)$ の微分は $\det(X) X^{-T}$ です（Page 8 Eq. 49）。 $X$ は対称なので $X^{-1}$ と書けます。
Correction: $G = \det(X) X^{-1}$ とすると、 $G + G^T - \text{diag}(G) = \det(X) (X^{-1} + X^{-1} - \text{diag}(X^{-1}))$ よって $2X^{-1} - (X^{-1} \circ I)$ となります。

【例3: 対数行列式の微分】

\frac{\partial \ln \det(X)}{\partial X} = 2X^{-1} - (X^{-1} \circ I) \tag{141}

ガウス分布の対数尤度関数などで頻出する式です。Eq. 140 を $\det(X)$ で割るだけで得られます。

4. 対角行列の微分 (Diagonal Matrix)#

ニューラルネットワークのScaling層や、独立成分分析などで現れます。

4.1 対角化の公式 (Eq. 142)#

【公式】

\frac{\partial \text{Tr}(AX)}{\partial X} = A \circ I \tag{142}

【解説】 行列 $X$ が対角行列である場合、非対角成分 $X_{ij} (i \neq j)$ は定数 0 であり、変数ではありません。したがって、微分（感度）を持つのは対角成分 $X_{ii}$ だけです。

Naive: $\text{Tr}(AX)$ の微分は $A^T$ 。
Diagonal Correction: 変数に対応する成分（対角成分）だけを残し、他を 0 にします（マスク処理）。 $A^T \circ I = \text{diag}(A)$ （ $A$ の対角成分は $A^T$ の対角成分と同じなので、単に $A$ の対角成分を取り出す操作になります）。

5. 結論#

Page 15 は、理論と実装の乖離を埋めるための重要なページです。

「対称行列の勾配は $A+A^T$ 」ではない: しばしば $2A$ や $A+A^T$ と略されますが、厳密には対角成分の重複を引く必要があります（ $A+A^T - \text{diag}(A)$ ）。
連鎖律の威力: Eq. 137 の考え方さえあれば、どんな特殊な構造を持つ行列（三角行列、ブロック行列など）でも、自分で微分公式を導くことができます。

次の最終ページ（Page 16）に向けて、行列微分の主要なトピックはここでほぼ完結します。

参考文献#

Petersen, K. B., & Pedersen, M. S. (2012). The Matrix Cookbook. Technical University of Denmark. (Page 15, Eqs 134-142)
Magnus, J. R., & Neudecker, H. (2019). Matrix Differential Calculus. (Symmetric matrix derivatives)

補足：Eq. 138 の直感的理解（スイッチの配線図）#

対称行列の微分公式がなぜ「対角成分を引く」のか、スイッチと電球のアナロジーで復習しましょう。

\frac{df}{dA} = \underbrace{G}_{\text{自分}} + \underbrace{G^T}_{\text{ペア}} - \underbrace{\text{diag}(G)}_{\text{重複補正}}

非対角成分 ( $i \neq j$ ):
- スイッチ $A_{ij}$ を押すと、自分 ( $ij$ ) とペア ( $ji$ ) の2つの電球が点灯します。
- 感度 = $G_{ij} + G_{ji}$
- これは公式の $G + G^T$ の部分で正しく計算されます。
対角成分 ( $i = j$ ):
- スイッチ $A_{ii}$ を押すと、自分 ( $ii$ ) の電球しか点灯しません（ペアは自分自身）。
- 単純に $G + G^T$ を計算すると、 $G_{ii} + G_{ii} = 2 G_{ii}$ となり、感度を2倍に過大評価してしまいます。
- そこで、 $-\text{diag}(G)$ を引くことで、重複カウントを解消 します ( $2G_{ii} - G_{ii} = G_{ii}$ )。

この「引き算」こそが、対称行列の微分を正しく実装するための鍵なのです。

補足：連鎖律 (Eq. 137) の具体的な使い方ガイド#

Eq. 137 は、行列の合成関数 $g(f(X))$ を微分するための「万能接着剤」です。抽象的に見えますが、以下の3ステップのアルゴリズムとして捉えると、機械的に計算できるようになります。

【連鎖律の3ステップ・レシピ】

外側の微分 ( $\partial g / \partial U$ ): $U$ をただの変数だと思って $g(U)$ を微分する。
内側の微分 ( $\partial U / \partial X_{ij}$ ): $X$ の成分 $X_{ij}$ が変化したとき、 $U$ がどう変化するか（構造行列）を求める。
トレースで接着: 上記2つを掛け合わせてトレースを取る。

実践例1：基本公式の再導出 ( $\text{Tr}(AX)$ の微分)#

あえて Eq. 137 を使って、基本公式 $\frac{\partial \text{Tr}(AX)}{\partial X} = A^T$ を導いてみましょう。この式が正しく機能することの確認です。

設定:

関数: $g(U) = \text{Tr}(U)$
中身: $U = AX$

Step 1: 外側の微分 $g(U) = \text{Tr}(U)$ なので、微分は単位行列です。

A_{\text{outer}} = \frac{\partial g}{\partial U} = I

Step 2: 内側の微分 ( $X_{ij}$ による $U$ の変化) $U = AX$ の成分 $X_{ij}$ だけを 1 増やしたとき、 $U$ はどう変化するか？ $X_{ij}$ に掛かっている係数は、行列 $A$ の第 $i$ 列目です。

\frac{\partial U}{\partial X_{ij}} = A J^{ij}

（ここで $J^{ij}$ は $(i, j)$ 成分だけが 1 の行列。 $A J^{ij}$ は「 $A$ の第 $i$ 列を第 $j$ 列に置いた行列」のような疎行列になります）

Step 3: トレースで接着 Eq. 137 に代入します。

\begin{aligned} \frac{\partial g}{\partial X_{ij}} &= \text{Tr} \left[ (A_{\text{outer}})^T \cdot (A J^{ij}) \right] \\ &= \text{Tr} \left[ I \cdot A J^{ij} \right] \\ &= \text{Tr} (A J^{ij}) \end{aligned}

$\text{Tr}(A J^{ij})$ は、行列 $A J^{ij}$ の対角成分の和です。 $A J^{ij}$ の対角成分 $(k, k)$ は $\sum_m A_{km} (J^{ij})_{mk}$ 。 $J^{ij}$ は $(i, j)$ のみ 1 なので、 $m=i, k=j$ のときだけ値が残ります。つまり、対角和は $A_{ji}$ になります。