【2016年】統計検定準1級 論述問題 解説

Pocket

2016年 統計検定準1級 論述 解説

問1 適合度検定

[1]

(1)

ポアソン分布において、

$$E[X]=V[X]=\lambda$$

$$1.67^2=2.7889$$

となり、平均≒分散となっていることと、発生頻度が低い事象となっているため。

(2)

実際に計算すると、

上陸回数観測度数確率期待度数カイ二乗値
040.0583.710.022
170.16610.621.236
2170.23615.100.238
3180.22314.270.974
4100.15810.140.002
550.0905.760.100
620.0432.720.193
700.0171.111.106
800.0060.390.392
900.0020.120.124
1010.0010.0426.466
6416430.853

(3)この表の自由度は9なので、臨界値は

$$\chi^2_0.05(9)=16.92<\chi^2=24.28$$

であり、この事象はポアソン分布に従うといえない。

検定統計量の値を大きくしているのは上陸回数10回の値である。

実際に計算するとカイ二乗値は24.28ではない。問題の解答には影響しないが気持ち悪さはある。

(4)

6回以上をまとめれば、

上陸回数観測度数確率期待度数カイ二乗値
040.0583.7390.018
170.16610.6191.234
2170.23615.0800.245
3180.22314.2750.972
4100.15810.1360.002
550.0905.7570.100
6回以上30.0694.3940.442
641643.012

表の様な値が得られ、

$$\chi^2=3.012<\chi^2_0.05(5)=11.07$$

であり、帰無仮説が受容され、ポアソン分布に従わないとは言えないことがわかる。

これに加えて、7,8,9回が0であることを考えると6回以上でまとめたほうが妥当といえる。

[2]

Aさんの主張通りに6回以上の上陸率は3/64≒0.047であること、

Bさんのポアソン分布に従うという主張の妥当性も確かめられ、それに基づくと5回以上の上陸率は7%ほどになっている。

総合すると5回以上の上陸率は5~7%程度と考えられ、有意水準を5%にするならぎりぎり棄却できない値といえる。

10回以上の上陸はポアソン分布から導出すると0.1%である。

1000年に1回起こるかどうかの事象である。

今回の問題は台風の対策ということだが、1000年に1回の事象のために対策を講じることは採算上難しいと考えられる。

数百年に1度程度の大地震の備えでさえ困難なのだから。

外れ値とみなして除外するか6回以上としてまとめるかにすべきだと考える。

問2 回帰分析

行列による回帰分析をさらっていたかどうかで難易度が激変する問題。

行列の扱いに慣れていない場合は「線形代数が苦手な人のための行列表記の正規方程式 (重回帰分析)」で詳しく書いている。多変量解析でも重要になるので行列の扱いに慣れていると理解が早い。

[1]

(1)
線形代数が苦手な人のための行列表記の正規方程式 (重回帰分析)」より定数項及び回帰係数の推定量行列は、
$$\boldsymbol{\hat{\beta}}=(\boldsymbol{X’}\boldsymbol{X})^{-1}\boldsymbol{X’}\boldsymbol{y}\tag{1}$$
で求められる。
計算ミスに注意しながら実際に計算していくと、
$$(\boldsymbol{X’}\boldsymbol{X})^{-1}=\begin{pmatrix} 5 & 0 \\ 0 & 10 \end{pmatrix}^{-1}=\begin{pmatrix} 0.2 & 0 \\ 0 & 0.1 \end{pmatrix}$$
$$\boldsymbol{X’}\boldsymbol{y}=\begin{pmatrix} 36.5 \\ 1.2\end{pmatrix}$$
なので、(1)に代入して計算すれば、
$$\Leftrightarrow \boldsymbol{\hat{\beta}}=\begin{pmatrix}7.3\\0.12\end{pmatrix}$$
であり、
$$y=7.3+0.12z$$
を得る。
これを、z=0.2x-4を用いてxに関する式に戻してやると、
$$y=6.82+0.024x\tag{2}$$
となる。
(2)
(2)式にxの値を放り込むと、
$$\hat{\boldsymbol{y}}=\begin{pmatrix}7.06\\7.18\\7.30\\7.42\\7.54\end{pmatrix}$$
となる。
残差平方和は、
$$\|\boldsymbol{y}-\hat{\boldsymbol{y}}\|^2=(\boldsymbol{y}-\hat{\boldsymbol{y}})'(\boldsymbol{y}-\hat{\boldsymbol{y}})=1.10$$

[2]

(1)

[1]における説明変数行列のZの2列目は各xを標準化した値となっている。

$$z^2は標準化した値の2乗値であるので、$$

$$\tilde{\boldsymbol{Z}}=\begin{pmatrix}1&-2&4\\1&-1&1\\1&0&0\\1&1&1\\1&2&4\end{pmatrix}$$

切片及び回帰係数の推定量は、

$$\boldsymbol{\tilde{\beta}}=(\boldsymbol{tilde{X’}}\boldsymbol{\tilde{X}})^{-1}\boldsymbol{\tilde{X’}}\boldsymbol{y}\tag{3}$$

[1]と同様に計算していくと、

$$(\boldsymbol{tilde{X’}}\boldsymbol{\tilde{X}})^{-1}=\begin{pmatrix}5&0&10\\0&10&0\\10&0&34\end{pmatrix}=\begin{pmatrix}\frac{17}{35}&0&-\frac{1}{7}\\0&\frac{1}{10}&0\\-\frac{1}{7}&0&\frac{1}{14}\end{pmatrix}$$

$$\boldsymbol{\tilde{X’}}\boldsymbol{y}=\begin{pmatrix}36.5\\1.2\\76.6\end{pmatrix}

[1]の計算結果を使うとちょっぴり楽できる。
(3)式に代入して計算すると、
$$\boldsymbol{\tilde{\beta}}=\begin{pmatrix}6.79\\0.12\\0.26\end{pmatrix}$$
が得られる。
また、
$$y=6.79+0.12z+0.26z^2$$
という重回帰式になる。
z=0.2x-4を代入してxの式に戻すと、
$$y=10.47-0.392+0.0104x^2\tag{4}$$
である。
(2)
(4)式にxの値を代入していくと、以下の予測値ベクトルが得られる。
$$\tilde{\boldsymbol{y}}=\begin{pmatrix}7.57\\6.92\\6.97\\7.16\\8.05\end{pmatrix}$$
残差平方和は、
$$\|\boldsymbol{y}-\tilde{\boldsymbol{y}}\|^2=(\boldsymbol{y}-\tilde{\boldsymbol{y}}'(\boldsymbol{y}-\tilde{\boldsymbol{y}})=0.17$$

[3]

単回帰のAIC,重回帰のAICをそれぞれ、

$$AIC_1,AIC_2$$

とする。

AICは小さいほど当てはまりが良いので大小を比較してみる。

$$AIC_1-AIC_2=5\begin{pmatrix}\log 1.1-\log 0.17\end{pmatrix}-2=5\begin{pmatrix}\log \frac{1.1}{0.17}\end{pmatrix}-2$$

$$\log \frac{1.1}{0.17}=\log 6.47\geq 1なので、(cf. e\simeq 2.7)$$

$$AIC_1-AIC_2\geq 0$$

で、重回帰のAICのほうが小さな値とわかったので、AICの観点からは重回帰がより良いモデルといえる。

コメント