計量経済学メモ:行列表記を用いた決定係数

・本稿の内容
前回は行列を用いて最少二乗推定量を導出しました。今回は回帰直線の当てはまりの尺度である決定係数を行列を用いて導出します。前回と同じく、回帰モデルの説明変数の数は定数項を含めて $k$ 個、データのサイズは $n$ 個( $n\ge k$ )として話を進めます。

Ⅰ:準備
Ⅱ:決定係数の導出
Ⅲ:参考文献

Ⅰ:準備

定数項を含めて $k$ 個の説明変数を持つ以下の重回帰モデルを考える。

$y_i= \beta_1+\beta_2x_{i2}++\cdot\cdot\cdot+\beta_kx_{ik}+e_i$

前回導出した最少二乗推定量を用いて表した

$\hat{y_i}= \hat{\beta_1}+\hat{\beta_2}x_{i2}++\cdot\cdot\cdot+\hat{\beta_k}x_{ik}$

を回帰直線と呼ぶ。回帰直線の左辺 $\hat{y_i}$ を理論値と呼ぶ。回帰直線で考えた場合の残差 $\hat{e_i}$ と表すことにすれば、実現値 $y_i$ と理論値 $\hat{y_i}$ の差として、

$\hat{e_i}=y_i-\hat{y_i}$

と書くことができる。上式を更に変形すると、

$y_i=\hat{y_i}+\hat{e_i}$

のように実績値を理論値と残差の和として表すことができる。この式の両辺から $y_i$ の平均値 $\bar{y}$ を引いて、両辺を二乗してすべてのデータについて和をとると、

$\begin{eqnarray} \sum\limits_{i=1}^{n}(y_i-\bar{y})^2&=&\sum\limits_{i=1}^{n}\{(\hat{y_i}-\bar{y})+\hat{e_i}\}^2\\ &=&\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2+2\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})\hat{e_i}+\sum\limits_{i=1}^{n}\hat{e_i}^2 \end{eqnarray}$

と書ける。右辺の $2\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})\hat{e_i}$ は前回導出した正規方程式より、 $0$ となる。*1

Ⅱ:決定係数の導出

決定係数 $R^2$ は以下のように定義される。

$R^2=\dfrac{\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}$

Ⅰ:準備の結果を用いると、

$\begin{eqnarray} R^2&=&\dfrac{\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}\\ &=&1-\dfrac{\sum\limits_{i=1}^{n}\hat{e}^2}{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}・・・① \end{eqnarray}$

と書ける。①式の右辺の分数の分子は $\boldsymbol{\hat{e}}=(\hat{e}_1,\hat{e}_2・・・\hat{e}_n)'$ として、

$\sum\limits_{i=1}^{n}\hat{e}^2=\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}$

と書ける。次に①式の右辺の分数の分母 $\sum\limits_{i=1}^{n}(y_i-\bar{y})^2$ を見ていく。ここで簡単化のためにデータのサイズ $n$ を $3$ として考えていく。

$\sum\limits_{i=1}^{3}(y_i-\bar{y})^2=(y_{1}-\bar{y})^2+(y_{2}-\bar{y})^2+(y_{3}-\bar{y})^2・・・②$

②式の右辺の行列表記を考える。 $\boldsymbol{y}=(y_{1},y_{2},y_{3})'$ 、 $\boldsymbol{1}=(1,1,1)'$ とする。 $\bar{y}$ は

$\begin{eqnarray} \bar{y}&=&\dfrac{1}{3}\boldsymbol{1}'\boldsymbol{y}\\ &=& \dfrac{1}{3} \begin{pmatrix} 1&1&1 \end{pmatrix} \begin{pmatrix} y_{1}\\ y_{2}\\ y_{3} \end{pmatrix}\\ &=&\dfrac{y_{1}+y_{2}+y_{3}}{3}\\ &=&\bar{y} \end{eqnarray}$

と書ける。これを用いて、②式の右辺を行列表記していく。

$\begin{eqnarray} \sum\limits_{i=1}^{3}(y_i-\bar{y})^2&=&(y_{1}-\bar{y})^2+(y_{2}-\bar{y})^2+(y_{3}-\bar{y})^2・・・②\\ &=& \begin{pmatrix} y_{1}-\bar{y}&y_{2}-\bar{y}&y_{3}-\bar{y} \end{pmatrix} \begin{pmatrix} y_{1}-\bar{y}\\ y_{2}-\bar{y}\\ y_{3}-\bar{y} \end{pmatrix}\\ &=& \left(\boldsymbol{y}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{y}\right)'\left(\boldsymbol{y}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{y}\right)\\ &=& \left(\boldsymbol{y}'-\dfrac{1}{3}\boldsymbol{y}'\boldsymbol{1}\boldsymbol{1}'\right)\left(\boldsymbol{y}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{y}\right)\\ &=& \boldsymbol{y}'\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}・・・③ \end{eqnarray}$

と書ける。(※ $\boldsymbol{I}$ は $3×3$ の単位行列。)③式の $\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)$ の部分を先に計算していく。

$\begin{eqnarray} \left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right) &=& \boldsymbol{I}\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{I}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{I}+\dfrac{1}{9}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{1}\boldsymbol{1}'\\ &=& \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{9} \begin{pmatrix} 1&1&1\\ 1&1&1\\ 1&1&1 \end{pmatrix} \begin{pmatrix} 1&1&1\\ 1&1&1\\ 1&1&1 \end{pmatrix}\\ &=& \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{9} \begin{pmatrix} 3&3&3\\ 3&3&3\\ 3&3&3 \end{pmatrix}\\ &=& \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{9}×3 \begin{pmatrix} 1&1&1\\ 1&1&1\\ 1&1&1 \end{pmatrix}\\ &=& \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\\ &=& \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}' \end{eqnarray}$

と書ける。*2よって、③式は $\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}$ となるから、①式はデータのサイズ $n$ が $3$ のとき、

$R^2=1-\dfrac{\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}}{\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}}$

と書ける。データのサイズが $n$ のときは、

$R^2=1-\dfrac{\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}}{\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{n}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}}・・・④$

と書ける。④式の右辺の分数の部分について、分子を $n-k$ (データのサイズ-定数項を含む説明変数の数)、分母を $n-1$ (データのサイズ- $1$ )で割った値、

$\bar{R}^2=1-\dfrac{\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}/(n-k)}{\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{n}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}/(n-1)}・・・④$

を自由度修正済み決定係数と呼ぶ。

Ⅲ:参考文献

藤山英樹 (2007) 『統計学からの計量経済学入門』昭和堂
 山本拓(2022)『計量経済学第2版』新世社

*1:ここの証明はさぼりました・・・山本[2022]のp22～や、藤山[2007]のp119～を参照してください。

*2:計算結果から分かるように、 $\left(\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)$ は冪等行列です。ちなみに対称行列でもあります。

お勉強メモ

経済学・計量経済学・統計学などのお勉強メモです。

計量経済学メモ:行列表記を用いた決定係数

Ⅰ:準備

Ⅱ:決定係数の導出

Ⅲ:参考文献