統計学 のバックアップ(No.11)
- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- 統計学 へ行く。
- 1 (2022-06-05 (日) 05:10:03)
- 2 (2022-06-05 (日) 05:55:35)
- 3 (2022-06-09 (木) 04:29:57)
- 4 (2022-06-09 (木) 10:04:30)
- 5 (2022-06-11 (土) 04:39:13)
- 6 (2022-06-11 (土) 05:20:13)
- 7 (2022-06-12 (日) 05:21:21)
- 8 (2022-06-13 (月) 04:14:55)
- 9 (2022-06-13 (月) 05:53:13)
- 10 (2022-06-14 (火) 05:26:20)
- 11 (2022-06-15 (水) 03:17:55)
- 12 (2022-06-16 (木) 06:03:12)
- 13 (2022-06-18 (土) 05:31:33)
このページについて †
テキスト科目統計学の解説を目的としたページです。
秋山先生の統計学テキストは、非常によく練られている素晴らしいテキストです。ただし、一定の数学的知識(高校の数IIB相当)が前提とされており、例えば\(\sum, \int, \infty \)などの解説が全くなく、これらの知識の使い方が分からなければとたんに理解が難しくなります。このページでは数学さっぱりの人向けの補足説明をメインにしていこうと考えています。
統計学の重要性 †
経済学部、一部の文学部の人にとって統計学は基本的で必須の知識です。ぜひテキスト統計学で基本的な統計手法を学ぶことをお勧めします。
数学的なことは実は現代ではexcelが勝手にやってくれるのですが、背景となる考え方を学んでおかないと「なんでこの手法使ってるんだっけ?」となり分析の意味がないです。手を動かすことと理論は両輪です。どちらが欠けてもダメですので両方学んでください。
基本的な考え方 †
手を動かす †
各章の内容をある程度理解したら、練習問題を必ず解いてください。理数系科目は手を動かすことが基本です。数理的なことというのは知識というよりも技術的側面が強いです。作業を通じて理解が深まります。
発展事項は飛ばす †
統計学テキスト第3版(2022年以降)は、第2版と違って高度な数学的事項を各章末に押し込んであるという便利な特徴があります。数学得意な人(数III履修済み~大学教養までやった人)は読む価値がありますが、そうでない人は飛ばしましょう。飛ばした方が賢明です。「なんか数学を使うと証明できて本文の公式・結論が得られるらしい!」ということが分かっていれば十分です。高名な物理学者ファインマン先生も、証明自体はあまり意味がなく、証明できることが分かっていれば十分とおっしゃっています。
第1章 †
第1章では平均、中央値など基本的な概念を学びます。
で、P2にいきなり\(\sum\)記号が出てきます。全高校生が涙したこの記号、解説しないわけにはいきません。
\(\sum\)記号 †
\(\sum\)とは「要素を全部足す」という意味です。足し算が\(\sum\)記号の本質です。
$$ \sum_{i=1}^n x_i $$
というのは、テキストにもある通り
$$ x_1 + x_2 + x_3 + ... + x_n $$
と同じことを表します。iを変数といいます。変数というのは「値が変わる数」のことで、プログラム言語にもよく登場します。変数自体がどの文字かということにはあまり意味はなく、iでもkでもjでもなんでもよいのです。この記号は総合的に「iに1~nを順番に入れていって全部足す」という意味になります。
\(\sum\)記号を使うと何がうれしいのか? †
私は数学において「この記号を使うと何がうれしいのか」という観点からよく考えます。ここで\(\sum\)記号を使うと何がうれしいかというと
- 「記述が省略できる」
- 「全部の和であることが明確になる」
という2点だと思います。「あっこれは全部足すんだな!」ということが直感的にわかるので、いろんなことが見えてくるというわけです。数学は物事を抽象化してとらえやすくするための道具です。異論はあるでしょうけど、私はそう考えています。科学におけるタームと一緒です。
バー、チルダ、ハット †
同じ場所に \(\bar{x}\) という記法が出てきます。これは「エックスバー」と読みます。なんでわざわざバーをつけるのか?これは「平均であること」を明確にするためです。統計学の世界ではバーが出てきたら平均を表します。見ただけで「あっこれは平均だな!」と分かるようにするためです。
似たような記号としてチルダ、ハットがあります。 \(\tilde{x}, \hat{x}\) はそれぞれ「エックスチルダ」「エックスハット」と読みます。チルダは「これは中央値である」、ハットは「これは推定値である」という意味を明確にするための表現です。このように数学の世界では、記号に意味を持たせて直感的に意味を分かりやすくする工夫がされていますが、初見だと「なにこのにょろにょろしたやつ」という感想しか抱けないと思います。慣れの問題ですので慣れましょう。
分散、標準偏差はなぜ n-1 で割るのか? †
みなさんは高校の数IAでは分散、標準偏差を求めるとき、2乗の和を n で割ったと記憶しているはず*1です。ところが P3 では突然 n-1 で割っています。これは混乱を招きます。数字が変わってしまうではないかと。n で割るか n-1 で割るかについては、P5 でも述べられているように「母集団」か「標本」かによって変わります。母集団とは要素を全部把握できているということで、標本は要素の一部を取り出したもののこと。高校では必ず母集団を考えていました。しかし統計学では母集団を把握することは困難です。例えば日本国民を全数調査するのはコストがかかりすぎて無理です。なので無作為抽出を行ったりするわけですね。したがって標本から平均、標準、標準偏差を計算する必要が出てきます。
それでは「n-1 で割ったら値が変わるではないか。そもそもなぜ n-1 なのか」ということですが、P6 では「標本の平均を使うと散らばりが小さめになるから」という説明がされています。納得できるような、できないような感じです。実際の理由はテキストの最後の最後 P356 でやっと出てきます。「標本から母集団の分散を推定するとき、不偏性という性質が必要になる。ここで n で割った場合は不偏性を満たさないが、 n-1 だと不偏性を満たす」ということが書いてあります。初学では何が書いてあるかわからないですが要約すると「標本は n-1 で割った方が母集団の分散・標準偏差に近くなる」ということです。これは数学的に証明可能らしいですがとりあえずはこの説明で納得するしかなさそうです。
偏差平方和? †
P12にでてくる
$$ \sum_{i=1}^n(x_i - \bar{x}) $$
では「偏差平方和」といういかつい名前がまごつかせてきます。「偏差」と聞くと偏差値を思い浮かべることでしょう。「偏差」は偏差値とは関連しているのですが、実際のところ正確には「平均との差」という意味です。したがって「偏差平方和」というのは「平均との差を二乗(平方)して、全部足したやつ」という意味です。
平成生まれで数IAのデータを学習した人は「分散 = 2乗の平均 - 平均の2乗」という公式を学んだはずです。この公式はあれと同じことを言っています。なお章末で公式の証明をやってくれていますが、これは数学大好き人間向けの解説なので、基本的に無視してください。
第2章 †
度数分布表とヒストグラムの話。
Eスク統計学ではここをかなり詳細にやりますが、テキストではあっさりしています。excelでのヒストグラムを書く操作がメインですので、練習問題でひたすら手を動かしてください。
第3章 †
度数分布表から平均、標準偏差、中央値を求めます。中央値の求め方が意味わからないと思います。
度数分布表は正確な値が分からない †
度数分布表は各要素の数が分かりません。「収入100万円~200万円の人が??人」のような情報しかないです。したがって平均や標準偏差、中央値も正確にはわかりません。しかし「それっぽいところ」の値を求めることはできます。それっぽいところの値を求めるだけでも価値があるのです。だいたい、標本調査でも正確な値はわからず、こちらもそれっぽい値しか求められないです。
度数分布表の性質から、文字だけ見ると意味の分からない公式が頻発します。なお、公式を覚える必要はないと思います。Excelで計算できれば良いです。
度数分布表から中央値を求める †
P50には度数分布表から中央値 \(\tilde{x}\) を求める公式が書いてあります。
$$ \tilde{x} = k_{*L} + \frac{c_*}{f_*}(\frac{n}{2} - F_{*-1}) $$
\(k_{*L}\) : 中央値が含まれる階級の下限
\(c_* = k_{*H} - k_{*L}\) : 中央値が含まれる階級の階級幅
\(f_*\) : 中央値が含まれる階級の度数
\(F_{*-1}\) : 中央値が含まれる階級の階級の1つ前の階級の累積度数
全然意味わからないですね*2。落ち着いて意味を解釈していきましょう。テキストとは違う見方で感覚的に解説します。
まず「* ってなんだよ!」という疑問が出ると思いますが、* には特に意味がありません。ただの文字です。別にaとかbとかでもよかったのですが、見づらいから * にしただけと思われます。
この公式は中央値が含まれる階級が分かっていることが前提です。なのでまず\(k_{*L}\)からスタートします。これと次の階級の間のどこかが中央値になります。ですから第1項は\(k_{*L}\)です。これに第2項の補正値を足して中央値にするというわけです。
第2項は難しいですが、階級幅をいい感じに何倍かすれば、中央値にたどり着くと考えればよいと思います。\(\frac{n}{2} - F_{*-1}\)は、中央と一つ前の度数の差。例えば500人いて、中央値の直前の階級までに200人いれば、残り50人分を足せばいいってわけですね。
最後に、人数を横軸に変換するために\(\frac{c_*}{f_*}\)を掛け算して、仕上げにすると考えれば納得できるのではないかと思います。上の例なら、50人→30万円に変換して、第1項と足し算したら中央値が求まるよね、という感覚でよいです。
この説明でも、意味が分かりにくいと思います。実感するためにはexcelで手を動かしてください。
度数分布表からの百分位数、四分位数 †
中央値と式を比べてみましょう。\(\frac{n}{2}\) のところが \(\frac{j}{100}n\) や \(\frac{j}{4}n\) に置き換わっただけです。考え方は中央値と全く同じです。「直前の階級の端っこから、いい感じにx軸の幅を足す」ということが分かっていればそれで十分。あとは練習問題!
第4章 †
大半が高校数Aの確率の復習です。我々が高校までに学んだ確率は古典的確率といいます。古典的確率は「同様に確からしい」という概念を使って、試行なしで確率を計算します。一方で統計学で扱うのは主に実際の試行を基にした経験的確率です。他にも主観的確率も紹介されていますがあまり深く考えなくてもよいと思います。
テキストはわかりやすすぎてあまり補足することがないです。特にP67-69の条件つき確率・加法定理のベン図を使った説明は「あなたが神か?」と思えるほどよくできているので、私は高校生にこれ使って教えたいです。熟読してください。
独立 †
本テキストを通じて確率論的に最も大事な概念は「独立」です。P71にさらっと書いてありますが、独立が成り立つかどうかで分析手法が全く変わってきます。
独立とは、ある事象とある事象がお互いに全く影響を及ぼさないことで、ベン図で書いた時に2つの事象が全く重なっていないことをいいます。重なっていなければ中心極限定理→仮説検定が可能ですが、重なっていればもう駄目です。相関係数や回帰分析の問題になります。
第5章 †
数学的には、第1章の\(\sum\)に続いて、空間、関数の概念と\(\int, \infty \)が登場します。つまづきポイントその2です。ここから、各章ごとに大きなつまづきポイントが待っています。
標本「空間」? †
P76に「標本空間」という言葉が出てきます。「空間」といわれるとまるで宇宙に放り出されたような気になりますが、これは数学用語で「今から考えるのはこの範囲にしておくよ」くらいの意味です。世界を限定するのですね。 $$ 標本空間 S={e_1, e_2, ..., e_k} があり... $$ というのは、「今から考える世界は \( e_1, e_2, ..., e_k \) だけにしておくよ」という意味です。およそ頭の中で考えられる世界を限定しておくという意味では、セカイ系みたいなもんですね。大学の数学ではこの「空間」という言葉が多用されます。しかし空間怖れるに足らず、世界を単純化するための定義づけなんだなと思っていただければそれでよいです。
関数とは †
本書で全く解説されないのは「関数」の概念です。確率分布は確率を関数で表すものですが、「関数」が分かっていないと意味わからんになりますですのでここで解説します*3。
関数は数と数との関係 †
関数とは「何か数字を入れると、何か数字が出てくる」というものです。数学の言葉では \(f(x)\) と書くことが多いです。この \(f(x)\) を見るだけで拒否反応が出る方も多いでしょう。例えば $$ f(x) = 2x $$
というのは、「xを2倍せよ」という関数です。
xに1を入れると2が出てくる。
xに3を入れると6が出てくる。
という関係が直感的にわかるかと思います。関数って実はこれだけです。「何か数字を入れると、何か数字が出てくる」というのは、言い換えれば「ある数とある数の関係を記述したもの」ともいえます。上の例なら「2倍」という関係を記述したもの、これが \(f(x)\) というわけです。
確率分布とは? †
確率分布とは、確率を関数で表したものです。\(f(x)\) を使って確率を表現すると、確率分布になります。例えば、P76のサイコロの例なら、標本空間を「表は1、裏は0」と表現すると、 $$ f(0) = (裏が出る確率) = 0.5 $$ $$ f(1) = (表が出る確率) = 0.5 $$ と書けます。これが確率分布です。なお、ここで「表=1、裏=0」と表現しましたが、この0, 1を確率変数と呼びます。 上の例を見ればわかる通り、確率分布の値を全部足すと必ず1になります。これは非常に重要な性質で、ずーっと後まで使います。
確率分布を使うとなにがうれしいのか? †
サイコロのような離散型、すなわち飛び飛びの値を取る、デジタルで表現できる数値に関しては、確率分布を考えることによる利点は「見た目が簡潔になること」。これに尽きると思います。っていうか数学的な発想は全部これです。見た目が簡潔になると、簡潔なものを組み合わせてもっと高度な発想ができるようになります。逆に、見た目が簡潔すぎて、数学が苦手な人が敬遠する理由もここにあります。
さらに連続型、例えば気温・身長体重のような中間の値をいくらでも考えることができるものに対しては、後述する積分という強力な計算方法が使えるようになります。
期待値、期待値の分散・標準偏差 †
期待値は重要な概念です。期待値の定義は、確率変数を \(x_1, x_2, ..., x_k\) とすると $$\mu = E(X) = \sum_{i=1}^k x_i f(x_i)$$
です。ぱっと見意味が分かりませんが、日本語で書けば「確率変数と確率を掛け算したものを、全部足す」ということを指します。これならわかるのではないでしょうか。
今ではごく少数になったパチプロ(パチンコ・パチスロで生計を立てる人)は期待値で動きます。投入金額と確率を掛け算して全部足した期待値が投入金額より高ければ、そのパチンコ・パチスロは金を払う価値があるというわけです。なお、宝くじは期待値が投入金額の0.4-0.5倍程度になることが知られています。金を払うだけアホみたいですね。
期待値の分散の定義式 $$ \sigma^2 =var(X) = \sum_{i=1}^k (x_i - \mu) f(x_i)$$ についても、ここまでが分かっていれば「偏差平方和と確率を掛けたやつを全部足す」ということが見て取れるはずです。標準偏差は、単にこれのルートを取ったもの。
積分とは †
連続型確率分布に入る前に、積分の説明をします。積分とは実は足し算です。\(\sum\)と\(\int\)って、実はほとんど同じ意味なのです。積分は正規分布を考える際にも大事な概念なので、ここで解説します。
積分=足し算 †
高校の数IIで習ったように、積分とは f(x) より下の部分にある面積を求める演算です。
これがどう統計と関係あるの?と疑問だと思うでしょうから、ここでヒストグラムを限りなく細かくしていくことを考えてみます。
はじめのヒストグラムでは、短冊形の面積を全部足していくと全体の面積(=全体の度数)になっていました。これを、短冊を細かく切りまくっていって、精度を上げていきます。横幅を限りなく小さくすると(これを「極限を取る」と言います)角が取れて滑らかな図形になります。結局、限りなく小さい短冊を足しまくっていけば全体の面積になることが分かります。これが積分です。ですから積分は足し算なのです。
実際は積分は微分の逆演算を行うことで不思議と計算できてしまうのですが、証明はめっちゃ大変ですので、ここでは「ふーんそうなんだ」と納得するだけでよいです。
積分すると何がうれしいのか †
連続型確率分布の計算ができます。これはめっちゃうれしいです。連続型の分布は、単なる足し算では太刀打ちできません。というのも、例えば「身長の期待値を求めよ」って言われても、身長 * 確率を足すってことができないからです。ところが、確率を関数化すれば、積分を使って面積を求められるから、確率や期待値を無事に計算することができます。後にでてくる正規分布も連続してる関数ですから、95%信頼区間の計算などをする場合に積分がないと全く計算できません*5。
離散型・連続型確率分布の累積分布関数 †
特に連続型確率分布の累積分布関数は第5章で一番意味わからないと思います。前述のように、連続型関数なので積分が出てきます。
累積分布関数 †
「累積分布関数」は「変数xのところまでの確率を全部足したもの」と定義できます。例えば直前のサイコロの例なら、x=1未満なら累積分布関数は0.5、x=1以上なら累積分布関数は1ということになります。
累積分布関数を使うとうれしいことは、「??以下になる確率」「??以上になる確率」を一瞬で計算できることです。これは統計学上とっても重要です。例えば後に学ぶ正規分布の累積分布関数を使うと「偏差値70以上になる確率→2.5%」とすぐ計算ができるのです。
離散型と連続型の累積分布関数 †
離散型の累積分布関数と、連続型の累積分布関数の公式をそれぞれ書きます。 $$離散型:F(x) = P(X\le x) = \sum_{i\le x}f(t)$$ $$連続型:F(x) = P(X\le x) = \int_{-\infty}^x f(t)dt$$
前述のように、この2つはほぼ同じ意味です。離散型が「xのとこまで全部足す」となっている一方で、連続型も「xのとこまで全部積分する=足す」という意味になるからです。
\(-\infty\) ??? †
積分の所に \(-\infty\) という記号が現れました。数IIIをやってないと何これという感じですね。これは「マイナス無限大」と読みます。無限大とは、数学には珍しい観念的な存在です。「どこまでも終わりがない」ということです。これにマイナスをつけるわけですから「どこまでも終わりのないマイナス」という意味です。どこぞの歌詞みたいですね。
積分記号の下限に \(-\infty\) がついているということは、「およそ考えられる限りマイナスの所からのとこからの面積を考える」という意味になります。数学的には、マイナスはどこまでもとれますのでこのような表現を使います。実際統計学では、例えば身長がマイナスになることはありませんので、 \(-\infty\) というのは少々大げさで、実際は0からの面積を求めることになります。
理想の関数と現実の関数はこのような図示をすることができます。
連続型確率分布の確率・期待値・分散・標準偏差の計算 †
一定の区間の積分をすれば確率になります。例えば身長150-160になる確率を求めたければ $$\int_{150}^{160} f(t)dt$$
を計算すればいいってわけです。
期待値、分散も同じ。和の代わりに積分を使うだけです。見た目はびっくりしますが、単に和を積分に変えただけ。意味が分かってしまえばどうということはないです(計算は面倒)。
第6章 †
「確率変数の関数」というわかるようなわからんようなタイトルがついています。要するに「確率変数を変換する」ということです。例えば偏差値を求めたりするとき、50を中心にして標準偏差が10になるように変えないといけないですが、その変換のことを「関数」と呼んでいるのです。
一次関数による変換 †
本書の変換は一次関数のみが扱われています。次のような式で表されます。 $$ g(x) = a + bx $$
つまり「b倍してからa足す」という操作をするということです。二次関数や対数関数を扱うこともできるのですが、難しすぎるので省略されています。
標準化:b倍してからa足すと何がうれしい? †
一次関数による変換ができると「標準化」という手法が使えます。標準化とは、「期待値を0、分散と標準偏差を1にする」ことです。では標準化すると何がうれしいのか。それは「異なる確率分布を比較できる」ということが挙げられます。
偏差値を例にしましょう。偏差値は標準化とほぼ同じで「期待値を50、標準偏差を10にする」という変換です。偏差値を考えることで、例えば数学と英語のどっちが得意なのかとか、どの教科がどのくらい弱いのか、この大学を受ける人はどのくらいの点数を取ってくるのか、ということが「異なる教科間で」比較できるようになります。これが標準化の威力なのです。
変換と期待値・分散・標準偏差の変動 †
テキストにはごちゃごちゃと数式による導出が書かれていますが、次のことだけ覚えれば十分です。離散型も連続型も同じ式です。
$$期待値:\mu_Y = a + b\mu_X $$ $$分散:{\sigma_Y}^2 = {b^2}{\sigma_X}^2 $$ $$標準偏差: \sigma_Y = b\sigma_X $$
つまり「期待値は関数と同じ形、分散はbの2乗倍、標準偏差はb倍になる」ということがわかります。だいぶ計算が簡単ですね。変換について覚えることはこれだけです。
標準化の式 †
$$Z = \frac{X-\mu}{\sigma} $$ $$ X:変換前の確率変数、\mu:変換前の期待値$$ $$\sigma:変換前の標準偏差 $$
これも覚えましょう。「期待値を引いた後標準偏差で割る」、です。これでなぜ標準化できるか言葉で説明すると次のようになります。
- 期待値:変換前の期待値を引き算するから、0になる
- 分散:標準偏差で割ると、変換前の標準偏差の2乗=変換前の分散で割った値になる。つまり1になる。
- 標準偏差:分散と同じで、変換前の標準偏差で割った値になる。つまり1になる。
\( g^{-1}(Y) ?? \frac{dx}{dy} ??? \) †
P103、連続型確率分布の変換の所に\( g^{-1}(Y) \) や \(\frac{dx}{dy}\) という見慣れない記号が出てきます。びっくりすることに全く説明がありません。これはつまづきますね。
逆関数 †
\( g^{-1}(Y) \) は逆関数といいます。逆関数とは、簡単に言えば「xとyの対応を逆にした関数」です*6。逆関数をグラフにすると、y=xに線対称なグラフになります。逆関数は、yについての式を、逆にxについて解くことで求まります。 $$y = a+bx → x=-\frac{a}{b}+\frac{1}{b}y $$*7
微分 †
\(\frac{dx}{dy}\) は微分です。「xをyで微分する」という意味になります。微分の定義は「変化率」です。本当は極限を使って定義したいところですが、統計学においてはあまり重要ではないのでスキップします。変化率は、一次関数なら「傾き」と等しいです。上の $$ x=-\frac{a}{b}+\frac{1}{b}y $$ における傾きは、\(\frac{1}{b}\)ですから、これが\(\frac{dx}{dy}\)の値ということになります。
第7章 †
いよいよ正規分布です。ここからようやく本格的な統計学の世界になってきます。ここまで解説した数学的知識があれば必ず理解できます。
正規分布の式 †
$$f(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}$$ $$\sigma:標準偏差、\mu:期待値、e:自然対数の底$$
この式をそのまま覚える必要はありません。グラフを書くと「期待値を中心とした釣り鐘状をしていて、標準偏差が大きいと広がる」ということだけ分かっていれば十分です。「自然対数の底e」についても深く考えないでください。πと同じ定数です。実際の値は2.71828...です。「なんか便利な数字らしい」ということで十分!
標準正規分布…何がお得なのか †
5章で学んだ標準化を施した正規分布が標準正規分布です。標準化すると何がお得なのかというと、標準正規分布表が使えます。標準正規分布表には、4章で学んだ累積分布が書かれています。正規分布は連続型関数なので、-∞から求めたいところまでを積分した値 $$P(Z\le z) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt$$ が書いてあるということです。この式、見ただけでは意味わかりませんね。テキストとほぼ同じ図になりますが、図で見ればわかります。
要するに「指定のzの所までの面積」です。なぜ-∞から積分しているのかというと、先に出てきた正規分布の式はプラスもマイナスも終わりがないからです。で、標準化してあるから、最大値が1、最小値は0。だいたいは0.9とか0.4とかいう値になります。このように数字が直感的に分かりやすいことが標準化の最大のメリットであることが、お判りいただけるかと思います。
偏差値による正規分布の類推 †
日本人は偏差値が大好きです。したがって正規分布は、偏差値による類推をするととってもイメージしやすくなります。
正規分布では標準偏差σを使った「σいっこぶん」の値が重要です。偏差値の「σいっこぶん」は10です。この「σいっこぶん」のことを「+σ」と表現することがあります*8。P110の表を私なりに解釈するとこうです。
- 偏差値40-60の間には68%の人がいる
- 正規分布においては、-σ~+σの間に68%の人がいる
- 偏差値60とは、上位16%である
- 正規分布において、+σより大きい値は16%しかない。
- 偏差値70とは、上位2%である
- 正規分布において、+2σより大きい値は2%しかない。
標準正規分布表から累積分布を求める †
さてテキストP113の例題1を見てみましょう。
$$P(Z\le 1.96) を求めます。$$
なんのことだかわかりませんね。一応、問題を解くだけなら、標準正規分布表の1.96の所の値を見て、.9750と書いてあるから、.9750が答えということはわかります。でもこれがなんなのか。テキストには残念ながら、.9750が何の値なのかが書いてないように見えます。
まず1.96というのは、「σ1.96個ぶん」すなわち「+1.96σ」という意味です。標準偏差1.96個分というと、だいたい偏差値69.5です。そして.9750というのは、「偏差値69.5以下の人間は全体の97.5%いる」ということに相当します。これは累積分布の考え方ですね。そう、標準正規分布表に書いてある値は累積分布です。以下では標準正規分布表の値を「偏差値?以下の人間が?%いる」と読み替えていけば、理解が容易になるはずです。
なおここで出てくる.9750という値は後述の「有意水準5%」に相当します。つまり有意水準5%というのは偏差値69.5なわけです。
例題5を例に †
さて同様にして例題5の意味を次のように変換することができます。
$$P(Z> 1.96) を求めます。$$
- σ1.96個よりも大きいデータはどのくらいあるか
- 偏差値69.5より大きい人はどのくらいいるか
→0.025(2.5%)
$$P(Z\le -1.96) を求めます。$$
- σ-1.96個よりも小さいデータはどのくらいあるか
- 偏差値30.5より小さい人はどのくらいいるか
→0.025(2.5%)
$$P( -1.96 \le Z \le 1.96) を求めます。$$
- σ-1.96個~1.96個の間にあるデータはどのくらいあるか
- 偏差値30.5~69.5の間にどのくらい人がいるか
→0.95(95%)
少しはイメージしやすくなるのではないでしょうか。
第8章 †
中心極限定理は、私が最も意味わからなかった理論でした。テキスト前半の数学的準備は数学苦手な人にとっては苦しくて混乱のもとです。結論を先に説明して、数学的なことはあとで軽く触れます。
中心極限定理とは †
中心極限定理は次の3つのお題目に分解できます。母集団からいくつかの標本を持ってきたときに、
- 標本の平均値は、正規分布に従う
- 標本の平均値の期待値は、母集団の平均値の期待値と等しい
- 標本の平均値の標準偏差は、標本の数が大きいほど小さくなる(\(\sqrt{n}\)に反比例する)
が成り立つことをいいます。はい意味わかりませんね。意味わからなくても、このお題目をとりあえず暗記するだけで、ある程度のありがたみがあります。特にありがたみがあるのは3の「標本の数を増やすと正規分布の標準偏差が小さくなること」のところです。
中心極限定理が分かると何がうれしいのか? †
標本数を増やすほど、統計に信憑性が増すことが分かります。
例えば、あるテストの点数の全国平均を推定したいとします。でも手元には全国全員の母集団のデータはなく、何人かの標本しかない。でもここから全国平均の推定をしたい。じゃあこの標本はどのくらい信頼できるのか?ここで重要になってくるのが標本数nです。nが大きければ大きいほど標準偏差が小さくなるということは、ばらつきが小さい、すなわち誤差が小さくなるということ。誤差が小さいということは、その統計が信頼できるものであるということです。ですから数は正義。標本数は多ければ多いほどいいのです 。2.3.をあわせると、標本数が多ければ多いほど平均値からの乖離も少なくなっていくことが期待できるとわかります。
中心極限定理の前提…独立 †
でも東京都のテストの平均って全国より高くない?東京って人数が全国で一番多いのに平均点役に立ってないじゃん?という疑問があると思われます。そう、中心極限定理にはある重要な仮定があります。第4章で出てきた「独立」です。テスト受験者の間に相関関係があると、中心極限定理は成り立ちません。ですから標本を東京都で固めてしまうと相関関係の程度が大きくなり、標本の信頼性が低下してしまうというわけです。標本の選び方には注意しましょうという一般論がここから導かれます。
確率分布の和 †
ここでテキストを少し戻って、確率分布の和についての公式を少し確認します。
(独立な)確率分布XとYの和を取ると、次の関係が成り立ちます。 $$ 期待値:\mu = \mu_X + \mu_Y$$ $$ 分散:\sigma^2 ={\sigma_X}^2 + {\sigma_Y}^2 $$ $$ 標準偏差:\sigma = \sqrt{{\sigma_X}^2 + {\sigma_Y}^2} $$
大事なことは「期待値はそのまんま和になる」「標準偏差は平方和のルートを取ったものになる」ということです。特に後半が重要で、平方和のルートを取ると、単純に足した値よりも必ず小さくなります。これはa + b の2乗の公式を展開すると、真ん中に 2ab が出てくることを思い出していただければ理解できると思います(この行は読み飛ばしていいです)。
なおこの式から中心極限定理の公式が導けるのですが(P135)、計算過程の詳細は追いたい人だけ追っていただければいいです。
標準偏差が小さくなると何がうれしいか †
P141の例題にもあるように、リスクを分散することの意義が見いだせます。株式投資の例ですが、投資銘柄を分散しておくことで、標準偏差が下がる=運用益のばらつきが小さくなり、期待値に近づくということです。標準偏差が大きいということは、マイナスの値も大きいということで、株式投資から退場せざるを得ない確率も高まりますが、分散することで退場する確率は減っていきます。これを一般的に敷衍すれば、「多様性はリスクを減らす」ということでもあります。さらに日常生活に応用すると「相談する相手は多い方がいい、ばらつきが減るから」という結論にもつながりますね(?)。
第9章 †
信頼区間の推定。見た目の式の複雑さに嫌気がさすと思いますが、式そのものよりも意味を理解することが重要です。
特に、母集団平均の区間推定とt分布による区間推定の違い、なぜt分布を使うのか、がわかれば理解がしやすいのではないかと思います。
信頼区間とは何か? †
標本の平均が一定の確率で含まれる範囲のことです。例えば「身長の95%信頼区間は身長160-180cm」と言われたら、「何人かの標本を取ってきたとき、平均が160-180cmになる確率が95%である」ということです。
信頼「区間」というからには範囲が必要です。身長の例では「160-180cm」というのが「区間」を表します。
信頼区間の考え方を使うとうれしいこと †
統計の誤差を含んだ評価が可能になります。統計は標本を相手にする以上、誤差を含むことが避けられません。しかしその誤差とはどのくらいなのか。あまりにも誤差の大きいデータは統計上使い物にならないかもしれません。例えば上の身長の例では誤差が生じる可能性は5%と少ないですが、その代わりに区間である「160-180cm」というのはあまりにもばらつきが大きすぎるのではないか、と評価することができます。これが「95%信頼区間は178-180cm」と評価できれば、ああ結構な確率で身長高いんですね、ということがすぐにわかります。
母集団平均の区間推定 †
平均 μ を推定する式、すなわち信頼区間を求める式は次の通りです。 $$ P(\bar{x}-z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}} \le \mu \le \bar{x}+z_\frac{\alpha}{2} \frac{\sigma}{\sqrt{n}}) = 1 - \alpha $$ $$ 1-\alpha:信頼係数 $$ $$ z_\frac{\alpha}{2} : 信頼係数\,1 - \alpha\,に対する正規分布 $$ $$ \sigma: 母集団の標準偏差 $$ $$ n : 標本数 $$
これ初見で意味わかったらすごいです。とりあえずわかることは「正規分布や標準偏差の値が大きければ、範囲が広くなるらしい」「逆に、標本数が大きければ、範囲は狭くなるらしい」ということだけ押さえていれば十分です。
信頼係数 : なぜ \(1-\alpha\) なのか †
信頼係数とは、標本の平均が指定した区間に含まれる確率のことです。これは逆に、指定した区間に標本平均が含まれない確率を「誤差」と定義することを可能にします。なぜ信頼区間を \(\alpha\) ではなく \(1-\alpha\) というまどろっこしい定義の方法をしているかというと、誤差の方を \(\alpha\) と定義したいから、です。こっちの方が後々色々便利(特に、標準正規分布の式が見やすくなる)というメリットがあります。
\(z_{\frac{\alpha}{2}}\) って何よ †
誤差に対応する標準正規分布の値です。よくわかりませんね。そもそもこのような書き方が登場するのは初めてです。「Zほにゃらら = 標準正規分布 = 何かの値(数字)」ということがつかめればよいです。
\(z_{\frac{\alpha}{2}}\) の実際の値は、第7章の書き方を使えば $$ P(Z \le z_{\frac{\alpha}{2}}) = 1 - \frac{\alpha}{2}$$ で求めることができます。標準正規分布表から、累積分布が\(1 - \frac{\alpha}{2}\)となるようなzを読み取ればよいということです。
??なぜ右辺は\(1 - \frac{\alpha}{2}\) なの?という疑問が当然沸いてきます。これはテキストP150の表を見ていただければわかります。少し加筆すると次のようになります。
誤差はプラスとマイナスに両方半分ずつありますので、それぞれ \(\frac{\alpha}{2}\)。そうすると赤い部分の面積が \(1 - \frac{\alpha}{2}\) となることがおわかりいただけるかと思います。誤差がなるべく少なくなるように、つまり \(\alpha\)の値を小さくすると、この面積はどんどんと広がりますので、\(z_{\frac{\alpha}{2}}\) の値も大きくなります。すると、信頼区間も大きくなっていくというわけです。
t分布を使う意味 †
本章の後半にはt分布が出てきます。これ使う意味あんの?と思われるかもしれませんが、実際のところt分布しか使いません。なぜなら、前掲の信頼空間の式は中心極限定理が成り立つと仮定しており、さらに中心極限定理には次の2つの重要な仮定が置かれているからです。。
- 母集団の標準偏差が分かっている
- nがすっげー大きい
この両方が成り立っていないと、信頼区間の式は使えません。特に前者が致命的で、母集団の標準偏差が分かってるなら、母集団の統計量が完全に取れてるってことだから標本取る意味ないですよね?なめてんの?という話です。
そこで登場するのがt分布です。t分布は''標本でも使える標準正規分布みたいなやつ'です。t分布には「自由度」という概念が登場しますが、だいたい標本数と同じだと思ってください*9。自由度が低いと標準正規分布よりも散らばりが高く、自由度Maxだと標準正規分布と同じ値を取ります。
なおt分布の定義式には「ガンマ関数」というわけわからん関数が登場しますが、無視しましょう。意味わかんなくて当然です。「t分布はガンマ関数使ってるらしいで」ぐらいの把握で十分です。
t分布を使った信頼区間の推定 †
$$ P(\bar{x}-t_\frac{\alpha}{2} \frac{s}{\sqrt{n}} \le \mu \le \bar{x}+t_\frac{\alpha}{2} \frac{s}{\sqrt{n}}) = 1 - \alpha $$ $$ 1-\alpha:信頼係数 $$ $$ t_\frac{\alpha}{2} : 信頼係数\,1 - \alpha\,、自由\, n-1\,に対する正規分布 $$ $$ s: 標本の標準偏差 $$ $$ n : 標本数 $$
母集団平均の区間推定の式と全く同じ形ですね。これで本章の議論が全部使えます。実際の統計ではt分布を使っていくことが多いです。練習問題を通じて、信頼区間の求め方に慣れていってください。
第10章 †
中盤の山場、仮説検定です。これができればかなりの統計的調査ができるようになるはずです。絶対マスターしましょう。今までの範囲全部、特に標準化、正規分布、信頼区間の知識が前提になるので、テキスト前半でわからないところがあれば要復習です。
帰無仮説と対立仮説:なぜ帰無仮説を棄却するのか †
統計学では「帰無仮説を棄却→対立仮説を採用」「帰無仮説を棄却できない→帰無仮説を採用」という考え方をします。これはなぜか。ほぼP169-P170に書いてあるのですが、私なりの言葉で書き直すと次のようになります。
統計は「差異があるかどうか」を調べるための手段 †
統計で何を調べたいかというと、だいたいは「ある統計量に顕著な特徴がある」かどうかを調べたいですよね。例えば「足立区は荒れている」ということを証明したければ「足立区に犯罪が多い」つまり「足立区の犯罪発生率は、他の地域よりも顕著に多い」ことを統計で証明すればよいことになります*10。
誤差の方に注目する †
信頼区間のグラフを再掲します。信頼区間というのは95%あたりに設定することが多いです。
この図を見ると、信頼区間の範囲に統計量が入っていることよりも、誤差の方に統計量が入っていること、つまり「なんかすごく大きい」「なんかすごく小さい」ことを調べる方が楽なのではないか、ということが直感できるのではないかと思います。また、先ほどの足立区の例でいえば「犯罪発生率が顕著に多い」ということは「なんかすごく大きい」の方に統計量が入っていればよい、ということになりますよね。ちなみに足立区の犯罪発生率は別にすごく大きくないです。歌舞伎町とか渋谷とか、人の集まるところほど犯罪発生率が高くなります。
帰無仮説を棄却すること †
これを帰無仮説・対立仮説の話に応用します。帰無仮説はふつう「特徴がないこと」で設定定します。対立仮説は「特徴があること」で設定します。統計量を調査して、それが誤差の方に含まれていること、つまり上のフラグの赤い部分に含まれていることが分かれば帰無仮説を棄却、対立仮説を採用できることができるわけです。赤い部分に含まれるかどうかは、標準正規分布・t分布の値(後述する「検定統計量」)の大小で比較することができます。仮説検定はこのように行われます。
統計学的には赤い部分を「棄却域」、赤い部分の全体に対する割合を「有意水準」といいます。有意水準にはたいてい5%が用いられます。この値は経験的なもので、仮説検定を厳しくしたければ値を小さくすればよいでしょう。
くどいですが足立区の例に戻ると、「足立区の犯罪発生率はほかの地域と変わらない」という帰無仮説を設定し、実際に標本から求めた犯罪発生率は棄却域(赤い部分)に入らないから、帰無仮説を採択することになります。
検定統計量 †
検定統計量とは、仮説検定で使う標準正規分布、またはt分布の値です。具体的には標本の平均値 \(\bar{x}\) を次のように変形したものです。 $$標準正規分布:Z=\frac{\bar{x} - \mu}{\sigma / \sqrt{n}}$$ $$t分布:t=\frac{\bar{x} - \mu}{s / \sqrt{n}} $$ *11
テキストをここまで追ってくると、いったいこの式が何の値だったかわからなくなってくるところだと思われます。これは「標本の平均値を標準化したもの」です。標準化すると何がうれしいかというと、平均が0になったり、標準偏差が1になったりするんでしたね!つまり検定統計量って、感覚的には「標準偏差?こぶん」ということになります。例えば検定統計量が1.0なら標準偏差1こぶん右にある、だいたい偏差値60くらいの珍しい量であるということです。
検定統計量が棄却域に入れば(=上の図で赤い範囲に入れば)帰無仮説を棄却、入らなければ帰無仮説を採択するということになります。
ちなみに有効水準5%で両側検定(棄却域を小さい・大きい値両方に取ること)であれば棄却域 \(t<-2.093、t>2.093\) ですので、偏差値72越え(または28未満)のかなり強い値がでないと帰無仮説は棄却できないことが分かります。
なお、本テキストの例題はほとんどが片側検定(棄却域を小さい・大きい値のどちらかに取ること)で出題されていますので注意してください。棄却域が片方になった分、幅が両側検定よりも広くなります。具体的には有効水準5%なら \(t>1.833\)、偏差値67くらいですね。
第Ⅰ種の過誤、第Ⅱ種の過誤 †
定義は次の通りです。
第Ⅰ種の過誤:帰無仮説が正しいにもかかわらず、間違って対立仮説を採択してしまうこと
第Ⅱ種の過誤:対立仮説が正しいにもかかわらず、間違って帰無仮説を採択してしまうこと
第Ⅰ種の過誤は「帰無仮説を採用した場合の検定統計量が棄却域に入るのが正しいのに、棄却域に入っていない」と言い換えることが可能ですので、計算も簡単です(有意水準と同じ)。第Ⅱ種の過誤は対立仮説をあらわす分布の期待値が確定できないと計算できません。とてもくどいですが足立区の例を取ると「足立区の犯罪率が顕著に高い」という対立仮説は、どこに期待値をおけばいいんだ?という話になるわけです。したがって対立仮説の取り方によって、第Ⅱ種の過誤の大きさが変わってきます。実際の計算方法はP179のグラフの通りなのですが、分からなくても結構です。「第Ⅱ種の過誤は大きさが確定できない」という知識が重要です。
P値 †
これはテキストのまずい所だと思いますが、P値がなんなのか定義がわかりにくいです。P値は検定統計量より特異な値が発生する確率です。つまり確率分布において、検定統計量より右側の面積(両側検定なら、左側も)です。検定統計量は標準化してあるから、P値は必ず0~1の値を取ります。そして、面積を計算できさえすればそれを有効水準と比較して、棄却域に入っているかどうかが分かるわけです。そして棄却域の面積は、たいてい0.05(両側検定なら0.025)ですから、これと比較すればいいわけです。
第11章 †
高校の数Iで学習した共分散、相関係数の復習です。共分散は2変数の偏差(平均との差)を掛けて全部足したもの、相関係数は共分散 / 2変数の標準偏差の積。標本の場合は n-1 で割ることだけ注意していただければよいでしょう。
細かい数学的な証明は飛ばしていただいて結構です。
第12章 †
いよいよ本テキストの主目的、回帰分析に入ります。
第15~16章 †
読めばわかると思うので略す予定です
*1 昭和生まれの人は統計自体やってないですが
*2 私はわかりませんでした
*3 私は高校の時に関数概念が全く分かっておらず、1年ほど無駄にしました
*4 https://mathlandscape.com/integration/ より
*5 といっても、積分が計算できなくても本テキストでは積分の代わりに表の値の読み取りで済ませますし、excel上でも求められるので実際上の不便はありません
*6 もっと厳密な定義もできますが無駄に難解になるので省略します
*7 本当はこのあとxとyを入れ替えるのですが、やはり無駄に複雑になるので略しました
*8 慶應テキストではこのような表現は出てきません
*9 正確にはn-1の数を取ります
*10 足立区に恨みがあるわけではありません。居住者の方ごめんなさい
*11 実用上はt分布の値を使います