お勉強メモ

経済学・計量経済学・統計学などのお勉強メモです。

計量経済学メモ:行列表記を用いた決定係数

・本稿の内容
前回は行列を用いて最少二乗推定量を導出しました。今回は回帰直線の当てはまりの尺度である決定係数を行列を用いて導出します。前回と同じく、回帰モデルの説明変数の数は定数項を含めてk個、データのサイズはn個(n\ge k)として話を進めます。

Ⅰ:準備

定数項を含めてk個の説明変数を持つ以下の重回帰モデルを考える。



y_i= \beta_1+\beta_2x_{i2}++\cdot\cdot\cdot+\beta_kx_{ik}+e_i

前回導出した最少二乗推定量を用いて表した



\hat{y_i}= \hat{\beta_1}+\hat{\beta_2}x_{i2}++\cdot\cdot\cdot+\hat{\beta_k}x_{ik}

を回帰直線と呼ぶ。回帰直線の左辺\hat{y_i}を理論値と呼ぶ。回帰直線で考えた場合の残差\hat{e_i}と表すことにすれば、実現値y_iと理論値\hat{y_i}の差として、



\hat{e_i}=y_i-\hat{y_i}

と書くことができる。上式を更に変形すると、



y_i=\hat{y_i}+\hat{e_i}

のように実績値を理論値と残差の和として表すことができる。この式の両辺からy_iの平均値\bar{y}を引いて、両辺を二乗してすべてのデータについて和をとると、



\begin{eqnarray}
\sum\limits_{i=1}^{n}(y_i-\bar{y})^2&=&\sum\limits_{i=1}^{n}\{(\hat{y_i}-\bar{y})+\hat{e_i}\}^2\\
&=&\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2+2\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})\hat{e_i}+\sum\limits_{i=1}^{n}\hat{e_i}^2
\end{eqnarray}

と書ける。右辺の2\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})\hat{e_i}前回導出した正規方程式より、0となる。*1

Ⅱ:決定係数の導出

決定係数R^2は以下のように定義される。



R^2=\dfrac{\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}

Ⅰ:準備の結果を用いると、



\begin{eqnarray}
R^2&=&\dfrac{\sum\limits_{i=1}^{n}(\hat{y_i}-\bar{y})^2}{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}\\
&=&1-\dfrac{\sum\limits_{i=1}^{n}\hat{e}^2}{\sum\limits_{i=1}^{n}(y_i-\bar{y})^2}・・・①
\end{eqnarray}
と書ける。①式の右辺の分数の分子は\boldsymbol{\hat{e}}=(\hat{e}_1,\hat{e}_2・・・\hat{e}_n)'として、


\sum\limits_{i=1}^{n}\hat{e}^2=\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}
と書ける。次に①式の右辺の分数の分母\sum\limits_{i=1}^{n}(y_i-\bar{y})^2を見ていく。ここで簡単化のためにデータのサイズn3として考えていく。



\sum\limits_{i=1}^{3}(y_i-\bar{y})^2=(y_{1}-\bar{y})^2+(y_{2}-\bar{y})^2+(y_{3}-\bar{y})^2・・・②

②式の右辺の行列表記を考える。\boldsymbol{y}=(y_{1},y_{2},y_{3})'\boldsymbol{1}=(1,1,1)'とする。\bar{y}



\begin{eqnarray}
\bar{y}&=&\dfrac{1}{3}\boldsymbol{1}'\boldsymbol{y}\\
&=&
\dfrac{1}{3}
\begin{pmatrix}
1&1&1
\end{pmatrix}
\begin{pmatrix}
y_{1}\\
y_{2}\\
y_{3}
\end{pmatrix}\\
&=&\dfrac{y_{1}+y_{2}+y_{3}}{3}\\
&=&\bar{y}
\end{eqnarray}

と書ける。これを用いて、②式の右辺を行列表記していく。



\begin{eqnarray}

\sum\limits_{i=1}^{3}(y_i-\bar{y})^2&=&(y_{1}-\bar{y})^2+(y_{2}-\bar{y})^2+(y_{3}-\bar{y})^2・・・②\\
&=&
\begin{pmatrix}
y_{1}-\bar{y}&y_{2}-\bar{y}&y_{3}-\bar{y}
\end{pmatrix}
\begin{pmatrix}
y_{1}-\bar{y}\\
y_{2}-\bar{y}\\
y_{3}-\bar{y}
\end{pmatrix}\\
&=&
\left(\boldsymbol{y}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{y}\right)'\left(\boldsymbol{y}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{y}\right)\\
&=&
\left(\boldsymbol{y}'-\dfrac{1}{3}\boldsymbol{y}'\boldsymbol{1}\boldsymbol{1}'\right)\left(\boldsymbol{y}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{y}\right)\\
&=&
\boldsymbol{y}'\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}・・・③

\end{eqnarray}

と書ける。(※\boldsymbol{I}3×3単位行列。)③式の\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)の部分を先に計算していく。



\begin{eqnarray}
\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\left( \boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)
&=&
\boldsymbol{I}\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{I}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{I}+\dfrac{1}{9}\boldsymbol{1}\boldsymbol{1}'\boldsymbol{1}\boldsymbol{1}'\\
&=&
\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{9}
\begin{pmatrix}
1&1&1\\
1&1&1\\
1&1&1
\end{pmatrix}
\begin{pmatrix}
1&1&1\\
1&1&1\\
1&1&1
\end{pmatrix}\\
&=&
\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{9}
\begin{pmatrix}
3&3&3\\
3&3&3\\
3&3&3
\end{pmatrix}\\
&=&
\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{9}×3
\begin{pmatrix}
1&1&1\\
1&1&1\\
1&1&1
\end{pmatrix}\\
&=&
\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'+\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\\
&=&
\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'

\end{eqnarray}

と書ける。*2よって、③式は\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}となるから、①式はデータのサイズn3のとき、



R^2=1-\dfrac{\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}}{\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}}

と書ける。データのサイズがnのときは、



R^2=1-\dfrac{\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}}{\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{n}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}}・・・④

と書ける。④式の右辺の分数の部分について、分子をn-k(データのサイズ-定数項を含む説明変数の数)、分母をn-1(データのサイズ-1)で割った値、



\bar{R}^2=1-\dfrac{\boldsymbol{\hat{e}}' \boldsymbol{\hat{e}}/(n-k)}{\boldsymbol{y}'\left(\boldsymbol{I}-\dfrac{1}{n}\boldsymbol{1}\boldsymbol{1}'\right)\boldsymbol{y}/(n-1)}・・・④

を自由度修正済み決定係数と呼ぶ。

*1:ここの証明はさぼりました・・・山本[2022]のp22~や、藤山[2007]のp119~を参照してください。

*2:計算結果から分かるように、\left(\boldsymbol{I}-\dfrac{1}{3}\boldsymbol{1}\boldsymbol{1}'\right)は冪等行列です。ちなみに対称行列でもあります。