文系だけど、データ解析に興味を持ってしまった。
『確率思考の戦略論』を読んで面白いなと思ってしまった。
これまで数学なんてやってこなかったけど、データサイエンスとかそういった単語に興味を持ってしまい、統計学を学んで統計検定1級をとってみようと思った文系や数弱理系の方にぜひ見ていただきたい。
スタートライン
まず私は私大の経済学部所属。
これだけで、少なくとも理系的分野に全然明るくない事は察してもらえるのではないでしょうか(笑)
部分積分って何だっけ?
そのレベルからのスタートです。
大学3年生の時にデータ解析に興味を持って、夏休みに統計学をがっつり勉強してみようと思ってネットで様々な記事や合格体験記を参考に勉強を始めましたが、数学や統計学の理系的な下地がなかったのですごく詰まりました。
そんな経緯を踏まえて、後から振り返ってみてこうすればよかったな。
という最適な勉強の進め方を残した。
Strategy
統計検定1級は範囲が広いです。
全範囲を勉強しきることは不可能です。(やったとしても費用対効果が低い)
ある程度数理の知識があれば応用もいくらか解けるので、数理に集中するのが吉。
統計数理は大別して3分野です。
- 確率
- 推測(推定、検定)
- データ解析
この中で確率分野は最もとっつきやすい上に他分野の礎ですから絶対に落とさないように時間をかけて学習。
次いで、推定と回帰分析、分散分析に集中していくといいと思う。
推定は割とカンタンな部類なので落としたくない。
検定は厳密な理解をしようとするとキツい。でも、尤度比検定、スコア検定、ワルド検定とネイマン-ピアソンの補題くらいは抑えておくといいと思う。ただ、深入りするとキビシイ。
確率
条件付き確率などから始まり、様々な確率分布を扱う分野。
過去問でも特に確率分布はめっちゃ出る上に大体カンタンです。
ここ落としたら終わりってくらい重要だと思う。
この分野ではこのマセマの『演習 統計学』をマスターすれば後は計算力次第になる。
あと、各分布の密度関数、積率母関数は自分で導出してみて覚えておくべき。
本試験では時間との勝負になることも往往にしてある。
覚えているだけでかなり時間を短縮できる上に計算ミスのリスクも落とせる。
マジで覚えよう。
確率分布の計算について
ここに出てくる問題の65番目までを解けるまで何度も練習すれば、モーメント母関数や確率密度関数、変数変換ができるようになるので、年度によっては統計数理の問題が1問くらい解けるようになると思います。
実際の統計数理では変数変換やモーメント母関数を使って確率分布をいじくりまわした後に点推定系の問題があると思いますが、『マセマ 演習 統計学』では扱いきれないのでもうひと踏ん張り必要です。
『マセマ 演習 統計学』を解説読みながら進められるなら最低限の数学はOKです。
ここで詰まってしまう人は少し頑張って数学をやるといいです。
数学(微積分)
統計学を学んでいくには、微積分と行列の理解が必要だといわれます。
上にあげた『マセマ 演習 統計学』の解説を読んで
「ふ~んそんなもんか~」
と思えたなら改めて微積分の勉強をし直す必要はないと思います。
実際に統計学の問題を解きながら統計学らしい微積分の使い方に習熟すべきです。
逆に『マセマ 演習 統計学』がきついと感じたら微積分をしっかりやり直すべきです。
じゃないと、計算力が足枷になって問題が解けない事態に陥ります。
一番のおすすめはこれです。
微積分を学ぶだけならこれ以外にも書籍はたくさんありますが、統計学を学ぶ上ではムダが多くなります。
一般的な微積分の参考書だと三角関数の微積分がやたらと出てきますが、統計学を学ぶにあたって、三角関数を微分したり積分することはほぼないといっていいでしょう。
逆に、一般的な参考書や問題集であまり出ないe(ネイピア数)の微積分は頻出です。
また、高校数学でよくある体積計算なども使わないといっていいレベルです。
と、いうわけで効率的に学ぶために『統計学のための数学』を勧めます。
タイトルにあるように統計学の学習を念頭に置いているのでムダがないです。
数学Ⅱくらいの微積分の理解があれば、読み進められます。
あとは
そもそもの微積分などの理屈ってどんなだっけ?
とか、
そもそもビブンやセキブンなんて勉強してこなかった!!!
という人は、これを読んでみるといいと思います。
小学生の算数から始まって行列や微積分まで丁寧に解説されています。
学校や予備校で教えてもらうような公式よりも、面倒くさいけど素朴で直観的な解説が多くて個人的にはすごくおすすめです。
もちろん、線形代数も載っているので併せて見ておくに越したことはありません。
行列の知識を要するのは基本的に多変量解析などを扱う統計応用の分野なので後回しでも全く問題ありません。
推定(統計数理の仕上げ)
下記に紹介するテキストの問題を解いて解いて解きまくるとおそらく数理は苦も無く合格圏に入ると思います。
極端なことをいうとこれ一冊やり切れば十分なのですが、いきなりおすすめしなかったのにも理由があります。
大学の教養レベルの数学はもちろんわかっているよね?
という前提ですし、定義、定理、証明を延々と続けていくだけの数学のテキストらしい構成です。
さらに、表記の仕方などもあって非常にとっつきにくいのです。
ある程度数学とか統計学の輪郭がつかめていないと意味がないので敢えてこのタイミングで出しました。
統計検定1級とマッチした点推定とか順序統計量みたいなものを扱っていてさらに解答付きの問題があるのはこれくらいしかないというのも事情の一つです。
このテキストの練習問題を通して、
不変推定量、最尤推定量、モーメント推定量、クラメール・ラオの下限
といったことに慣れていけば統計検定1級の数理は2問くらい解けると思います。
ぶっちゃけ、合格ラインです。
数理と名がつくだけあって、自分で手を動かして計算できるかが大事です。
正直、ただ計算できれば何とかなったりするのが統計数理ですが、「意義やなんやもしっかり理解しておきたい」という場合は、
これをぜひ通読しておくべきです。
よくわからないけど問題は解けるという状態から、出題者はこういう意図があってこんな〇〇推定量や△△推定量を計算させて比較させたり一致することを確かめろとか言ってるのかぁ。
と、”納得”につながると思います。
その後の統計知識の活用まで見据えるなら読んでおくべき。
応用について(数学)
何を選択するかにもよるけれど、社会科学や自然科学なら数理の内容+多変量解析という認識で構わないと思う。
多変量解析をやっていくうえで、先に触れた行列の理解が必要になってくる。
行列も
「正直、計算の仕方はわかったけど、固有値って結局どういうことなの?定数倍になる行列を見つけて何の役に立っているの?」
というような気持ち悪さは残るかもしれない。
試験に受かるのみならず線形代数というものの理解を考えるならぜひこちらを読んでほしい。
行列の内積の幾何的な理解とか固有値の意義といったものがわかってくれば主成分分析や因子分析といった多変量の統計学の理解が段違いになると思う。
重回帰分析の正規方程式が行列で解けるようになったら一丁前といっていいでしょう。
多変量解析
応用は「各種解析法の数理的側面の理解と活用」が論点になってくる。
内容としては、
- 主成分分析
- 因子分析
- 重回帰分析
- クラスター分析
くらいの導出と、導出結果の解釈を押さえておけばいいと思う。
その際にはこちらがおすすめ。
書き方や数式の変形や展開がすごく丁寧でわかっている人にはくどいかもしれないが、初めて学ぶなら絶対におすすめする。
ちなみに著者は『統計学のための数学』とおなじ永田先生。
練習問題もついていてありがたいです。
『現代数理統計学の基礎』には多変量解析は取り扱いがないので…..
時系列分析
出題頻度は低いけれど、実際にデータ分析する際には使うし学んでいても損はないと思います。
ただ、これは!というような書籍がないのですが、一番わかりやすいのは、やはり定番の沖本先生の本。
社会科学だとそこそこ出題歴はあって、理工系でも1度あったはず。
そこまで踏み込んだ出題はないと思うのでARIMAモデルの理解を目標にかじってみることをすすめます。
統計検定1級を受ける意義
ここまでやり切っているならば、正直言って合格できると思います。
もしやるとしたら、全確率分布の密度関数、平均、分散の暗記くらいしておくと、当日の計算ミスが防げてめちゃめちゃおすすめです。
学校や仕事が忙しいなら、数理→応用の順に1回ずつ受けて2か年計画でも全然いいと思います。
ちなみに、僕は就活時に数理だけ受かってたのですが、データサイエンス系の採用の時はどこでも非常に好印象を持たれました。
別に採用のために必須とかいうことは全くないのですが、ちゃんと統計学の数理も抑えているという点を評価されました。
数学や統計学といった基礎は習得に時間がかかるうえに、他人からいくら教えてもらっても自分で理解していなければならないです。
また、自分で手を動かしてみて何となくわかってくるプログラミングとも違ってより高度に理論の理解を要するので学習コストが高いのです。
正直、プログラミングができれば何らかのアウトプットは出せますが、その先のステージまで見据えるなら数学や統計学の理論の理解はマストです。
文系だから不利ということはあまりありません。
逆に”文系なのに”出来たら大きなアドバンテージです。
その一歩として統計検定1級というのは非常にいい勉強の指針となるはずです。