【2015年】統計検定準1級 解答 短答問題

統計検定
Pocket

概観

難易度は2級と変わらないが、多変量解析、時系列解析、ベイズ統計の範囲が加わり、軽い積分などの計算を要するようになった感じがする。

問8[3]の多変量正規分布の条件付き期待値だけは厳しいように感じた。

その他は問13のベイズ統計や、問4の区間推定、条件付き期待値、問16の主成分分析の様に多岐にわたる分野で勉強になる問題が多い。

2017年の試験範囲変更からの機械学習等を意識した出題はないが、オーソドックスで2015年以降もたびたび出題されるテーマが目白押しなので全問解けるようにしておきたい。

問1 ベイズの定理

[1]

$$P(合格)=0.4\times 0.3+0.6\times 0.4=0.36$$

[2]

$$P(女|合格)=\frac{P(女\cap 合格)}{P(合格)}=\frac{0.6\times 0.4}{0.36}=\frac{2}{3}$$

問2 場合の数

[1]

$$_5C_2\left( \frac{2}{5}\right )^2\left(\frac{3}{5}\right )^3\simeq 0.35$$

[2]

p=0.2の時の生産者危険とは、P(r>3|p=0.2)であり、

p=0.5の時の消費者危険とは、P(r≦1|p=0.5)なので、

表より、

P(r>3|p=0.2)=0.20+0.05+0.01+0.00=0.26

P(r≦1|p=0.5)=0.03+0.16=0.19

となる。

問3 区間推定(二項分布)

2級範囲の母比率の区間推定の問題である。

[1]

$$-1.96\leq \frac{p-0.54}{\sqrt{\frac{0.54\times 0.46}{978}}}\simeq \frac{p-0.54}{0.031}\leq 1.96$$

$$\Leftrightarrow (信頼区間)=0.54\pm0.31=(0.509,0.571)$$

[2]

$$\hat{p}=0.5という仮定である。$$

信頼区間は

$$-1.96\leq \frac{p-0.5}{\sqrt{\frac{{0.5}^2}{n}}}\leq 1.96$$

$$\Leftrightarrow (信頼区間)=0.5\pm 1.96\sqrt{\frac{{0.5}^2}{n}}$$

なので、信頼区間幅は、

$$2\times 1.96\sqrt{\frac{{0.5}^2}{n}}=0.02$$

$$\Leftrightarrow n=9604$$

である。

問4 確率分布

[1]

標準化得点をZとすると、

(偏差値)=50+10Z である。

$$ここで、Z=\frac{\bar{X}-\mu}{\sigma}

$$A君:50+10\frac{80-60}{20}=60$$

$$B君:50+10\frac{50-60}{20}=45$$

となる。

答えは④

[2]

A君、B君の標準化得点をそれぞれ、

$$Z_A,Z_Bとすると、$$

$$Z_A=\frac{80-60}{20}=1$$

$$Z_B=\frac{50-60}{20}=-0.5$$

であるので、A君とB君の得点の間に入る受験者の割合は、

$$\int_{Z_B}^{Z_A} \phi(x) dx=\Phi(Z_A)-\Phi(Z_B)$$

分布表を用いて計算すると、

$$\int_{-0.5}^1 \phi(x)dx=1-0.1587-0.3085=0.5328$$

受験者の53.28%がA君とB君の間の得点を取っている。

実際の受験者が500人なので具体的な人数を算出してみると、およそ266人となる。

つまり答えは④

[3]

標準正規分布の分布表より、下位25%、上位25%の標準化得点がそれぞれ

-0.67,0.67になる得点が、第一四分位、第三四分位の得点なので、

$$-0.67=\frac{\tilde{X_1}-60}{20}\Leftrightarrow \tilde{X_1}=46.6$$

$$0.67=\frac{\tilde{X_3}-60}{20}\Leftrightarrow \tilde{X_3}=73.4$$

である。よって、四分位範囲は、

$$73.4-46.6\simeq 26.8$$

答えは②

[4]

X~N(60,400)として、求めるのは、

$$E[X|X>60]=E[Z|Z>0]=\frac{E[Z\cap Z>0]}{E[Z>0]}$$

$$\Leftrightarrow \frac{\int_0^\infty \frac{1}{\sqrt{2\pi}}z\exp(-\frac{z^2}{2}) dz}{\frac{1}{2}}=\sqrt{\frac{2}{\pi}}\simeq 0.798$$

標準化得点が0.798ということなので、実際の得点に戻すと、

$$60+20\times 0.798=75.96$$

となるので、答えは④

問5 標本調査法

①:単純無作為抽出法

②:クラスター抽出法(集落抽出法)

③:層化抽出法

④:有意抽出法

⑤:二段抽出法

答えは②

問6 分布の特性値

[1]

1回目で点の悪い生徒は2回目の受験をしないということなので、Aさんの方法で母平均を推定すると、真の値よりも大きな値になってしまう。

また、散布図を考えると原点に近いほうの値が抉れたものになるので相関係数は低く推定しがちになる。

答えは⑤

[2]

回帰直線上に乗っかるデータが増えるということは、相関係数が大きくなるということ。

最小二乗法を想定したが、回帰直線を引く場合は残差を最小にした予測値が得られているので、母平均の推定値は真の値に対して妥当なものになっていると考えられる。

答えは②

問7 区間推定、検定

[1]

検定統計量tを計算してみると、

$$t=\frac{132-135}{\sqrt{\frac{8^2}{10}}}=-1.186$$

$$t_{0.1}(9)=1.383$$

より、片側10%だとしても、有意な値とは言えない。

つまり、「帰無仮説は棄却されず、ポテトの平均重量が135g未満とは言えない」

答えは⑤

[2]

Xをポテトの重量とすると目標は、

P(X≦135)≦0.05 となる。

これを標準化して、標準化した値をZとして計算すると、

$$\Leftrightarrow \frac{135-\mu}{4} \leq -1.645$$

$$\Leftrightarrow \mu\geq 141.58$$

よって答えは③

問8 分散の性質

[1]

Listeningの得点をX、Readingの得点をY、Totalの得点をZとすると、

V[X+Y]=V[X]+V[Y]+2Cov[X,Y]
を利用して計算すると、(覚えてなくても定義式から導出可能)
$$170^2=85^2+95^2+2Cov(X,Y)$$
より、Cov(X,Y)=6325が得られるので、
$$\rho_{XY}=\frac{6325}{85\times 95}\simeq 0.783$$
答えは⑤
[2]
求めたいのは、
$$\sqrt{V[X-Y]}=\sqrt{V[X]+V[Y]-2Cov[X,Y]}=60$$
答えは⑤
[3]
覚えてなかったらぶっちゃけ諦めていい問題だと思っています。
$$E[Y|X=x]=E[Y]+\frac{Cov[X,Y]}{V[X]}(x-E[X])$$
が2変量正規分布において成り立つので、それぞれ値を放り込むと、
$$E[Y|X=x]\simeq 295$$
答えは⑤

問9 条件付き期待値

[1]

$$\log Y=\alpha+\beta x+\epsilon \Leftrightarrow Y=e^{\alpha+\beta x+\epsilon}$$

より、指数関数のグラフの形状は①

答えは①

[2]

条件付き期待値のカタチこそ取っているが、

$$e^{\alpha+\beta x+\epsilon}$$

の中で確率変数はεのみなので、

$$E[Y|x]=E[e^{\alpha+\beta x+\epsilon}]=e^{\alpha+\beta x}E[e^{\epsilon}]$$

めんどくさいが計算してみる。

$$■=\frac{1}{\sqrt{2\pi}\sigma}とする$$

$$E[e^{\epsilon}]=\int_{-\infty}^{\infty}■・e^{\frac{(\epsilon)^2}{2\sigma^2}+\epsilon}d\epsilon$$

平方完成をして、確率密度の総和が1であることを利用すると、

$$e^{\frac{\sigma^2}{2}}\int_{-\infty}^{\infty}■・e^{\frac{(\epsilon-\sigma^2)^2}{2\sigma^2}}d\epsilon=e^{\frac{\sigma^2}{2}}$$

問10 時系列分析

[1]

α=0の場合はただのホワイトノイズなので(C)か(D)が考えられる。

ここで、(D)をよく見ると、傾きの正負がほぼ交互に入れ替わっているので、α<0が考えられる。

よって、(C)がα=0

α=1の時は、

$$\xi_{t+1}=\xi_{t}+\epsilon$$

となって、ホワイトノイズの累積和(ランダムウォーク)となる。

(A)ではランダムウォークが考えられる。

よって、(B)がα=0.7と考えられる。

答えは③

[2]

DW=2-2ρ
より、DW比が0に近いときに1次の自己相関が考えられるがOLSによる推定量は不偏。
答えは②

問11 実験計画

[1]

直交計画では全部のパターンが並ぶようにするので、

答えは①

[2]

直交計画においては基本的に各主作用は独立と考えるのでⅠは誤り。

とはいえ、交互作用があったということもあり得るので、交互作用があった時にはじっくり検討する必要があるのでⅡは正しい。

複雑すぎるので、一般には4因子交互作用はないということになっているのでⅢは正しい。

問12 分割表

[1]

分割表の自由度は(2-1)(2-1)=1であり、

$$\chi^2_0.05(1)=3.84>\chi^2=2.73$$

より、5%有意とは言えない。

$$また、\log OR~N(\mu,\frac{1}{32}+\frac{1}{8}+\frac{1}{12}+\frac{1}{8})であり、$$

$$\sqrt{\frac{1}{32}+\frac{1}{8}+\frac{1}{12}+\frac{1}{8}}=0.604,\log OR=0.981より、$$

logORの信頼区間は、

$$\mu\pm 1.96\times 0.604=(-0.203,2.165)$$

より、オッズ比の信頼区間は、

(0.816,8.715)

となるので信頼区間は1を含んでいる。

かつては関数電卓の持ち込みが許可されていたが現在はないのでこんな計算はしなくていいはず……
[2]
愚直に計算してみると、
$$\chiは分子が1.5^5、分母が1.5^4になっており、トータルで1.5^1倍。$$
$$\hat{\chi^2}=2.73\times 1.5\simeq 4.091$$
$$ORは分子分母共に1.5^2倍となっており、トータルでは1倍。$$

問13 ベイズ統計

[1]

事前情報なしの場合は二項分布の最尤推定値がモードになる。

答えは①

事前分布はU(0,1)=Beta(1,1)として計算してもいいがめんどくさい
[2]
事前分布f(θ)がBeta(5,5)であるので、
$$\pi(\theta|x)\propto\pi(\theta)f(\theta)\propto\theta^{8-1}(1-\theta)^{14-1}=Beta(8,14)$$
モードはこれの最尤推定値なので、極値を求めると、(計算がめんどいので対数尤度を取ってから計算してもGood)
$$\Leftrightarrow \theta=0.35$$
答えは③

問14 期待値・分散の性質

[1]

求めたいのは、

$$\sqrt{V[\hat{\pi}]}=\frac{4}{N}\sqrt{V[M]}\tag{1}$$

$$M~Bin(N,\frac{\pi}{4})なので、$$

$$V[M]=N\frac{\pi}{4}(1-\frac{\pi}{4})=\frac{N}{16}\pi(4-\pi)$$

これを(1)に代入して、0.01以下になるような不等式を考えると、

$$\sqrt{V[\hat{\pi}]}=\frac{1}{\sqrt{N}}\sqrt{\pi(4-\pi)}\leq 0.01$$

$$\Leftrightarrow N\geq 27004$$

より、答えは④

[2]

[1]と同様にして、

$$\sqrt{V[\tilde{\pi}}=\frac{4}{n}\sqrt{n\sqrt{V[1-U^2]}}$$

$$\Leftrightarrow \frac{4}{\sqrt{n}}[E[1-U^2]-(E[\sqrt{1-U^2}]]\tag{2}$$

$$\int_0^1 1-u^2 du=\frac{2}{3}$$
を計算して、条件である、
$$E[\sqrt{1-U^2}]=\frac{\pi}{4}$$
を(2)式に代入して、0.01以下になるようにすると、
$$\sqrt{V[\tilde{\pi}]}=\frac{4}{\sqrt{n}}\sqrt{ \frac{2}{3}-\frac{\pi^2}{16}}\leq 0.01$$
$$\Leftrightarrow N\geq 8071$$
答えは③

問15 回帰分析

[1]

$$変数が多いがモデル3の\bar{R^2}が最大である。$$

また、モデル3のp-valueも0.05より十分に小さいのでモデル3が最適といえる。

答えは④

[2]

モデル3によれば、

$$y=15.406875-3.380727x+0.578985x^2-0.019017x^3$$

なので、x=20, 23を代入してみると、

yはそれぞれ、27.3, 12.6をとる。

答えは②

問16 主成分分析

[1]

表3について、

第一主成分の寄与率が55.5%と大きく、データの特性の半分以上を第一主成分が占めている。

主成分分析においては累積寄与率は80%が目安となるので、第三主成分までを採用するのが妥当。

表4について、

第一主成分は主成分負荷量が全て大きな値をとっているので、総合的な満足度と考えられる。

第二主成分の主成分負荷量は「見やすさ」「サービス」など感性的な満足度を表すと考えられる。

第三主成分の主成分負荷量は「味」「見やすさ」と正の相関を持つから商品への満足度と考えられられる。

[2]

$$x_i,y_iをそれぞれ,No.iの第一主成分、第二主成分とする。$$

NO.1について、

$$x_1=0.5\times (-1.7)+0.4\times(-1.9)+0.4\times(-2.2)+0.4\times(-1.9)+0.5\times(-1.6)=-4.05$$

$$y_1=-0.1\times(-1.7)+0.5\times(-1.9)+0.5\times(-2.2)-0.5\times(-1.9)-0.4\times(-1.6)=-0.29$$

同様に計算していくと、

$$\begin{pmatrix} x_1 & y_1 \\ x_2 & y_2\\x_3&y_3\\x_4&y_4 \end{pmatrix}=\begin{pmatrix} -4.05 & -0.29 \\ 0.65 & -0.04\\-1.69&2.66\\5.31&0.19 \end{pmatrix}$$

参考書籍

 

コメント