統計学 のバックアップ(No.4)
- バックアップ一覧
- 差分 を表示
- 現在との差分 を表示
- ソース を表示
- 統計学 へ行く。
- 1 (2022-06-05 (日) 05:10:03)
- 2 (2022-06-05 (日) 05:55:35)
- 3 (2022-06-09 (木) 04:29:57)
- 4 (2022-06-09 (木) 10:04:30)
- 5 (2022-06-11 (土) 04:39:13)
- 6 (2022-06-11 (土) 05:20:13)
- 7 (2022-06-12 (日) 05:21:21)
- 8 (2022-06-13 (月) 04:14:55)
- 9 (2022-06-13 (月) 05:53:13)
- 10 (2022-06-14 (火) 05:26:20)
- 11 (2022-06-15 (水) 03:17:55)
- 12 (2022-06-16 (木) 06:03:12)
- 13 (2022-06-18 (土) 05:31:33)
このページについて †
テキスト科目統計学の解説を目的としたページです。
秋山先生の統計学テキストは、非常によく練られている素晴らしいテキストです。ただし、一定の数学的知識(高校の数IIB相当)が前提とされており、例えば\(\sum, \int, \infty \)などの解説が全くなく、これらの知識の使い方が分からなければとたんに理解が難しくなります。このページでは数学さっぱりの人向けの補足説明をメインにしていこうと考えています。
統計学の重要性 †
経済学部、一部の文学部の人にとって統計学は基本的で必須の知識です。ぜひテキスト統計学で基本的な統計手法を学ぶことをお勧めします。
数学的なことは実は現代ではexcelが勝手にやってくれるのですが、背景となる考え方を学んでおかないと「なんでこの手法使ってるんだっけ?」となり分析の意味がないです。手を動かすことと理論は両輪です。どちらが欠けてもダメですので両方学んでください。
基本的な考え方 †
手を動かす †
各章の内容をある程度理解したら、練習問題を必ず解いてください。理数系科目は手を動かすことが基本です。数理的なことというのは知識というよりも技術的側面が強いです。作業を通じて理解が深まります。
発展事項は飛ばす †
統計学テキスト第3版(2022年以降)は、第2版と違って高度な数学的事項を各章末に押し込んであるという便利な特徴があります。数学得意な人(数III履修済み~大学教養までやった人)は読む価値がありますが、そうでない人は飛ばしましょう。飛ばした方が賢明です。「なんか数学を使うと証明できて本文の公式・結論が得られるらしい!」ということが分かっていれば十分です。高名な物理学者ファインマン先生も、証明自体はあまり意味がなく、証明できることが分かっていれば十分とおっしゃっています。
第1章 †
第1章では平均、中央値など基本的な概念を学びます。
で、P2にいきなり\(\sum\)記号が出てきます。全高校生が涙したこの記号、解説しないわけにはいきません。
\(\sum\)記号 †
\(\sum\)とは「要素を全部足す」という意味です。足し算が\(\sum\)記号の本質です。
$$ \sum_{i=1}^n x_i $$
というのは、テキストにもある通り
$$ x_1 + x_2 + x_3 + ... + x_n $$
と同じことを表します。iを変数といいます。変数というのは「値が変わる数」のことで、プログラム言語にもよく登場します。変数自体がどの文字かということにはあまり意味はなく、iでもkでもjでもなんでもよいのです。この記号は総合的に「iに1~nを順番に入れていって全部足す」という意味になります。
\(\sum\)記号を使うと何がうれしいのか? †
私は数学において「この記号を使うと何がうれしいのか」という観点からよく考えます。ここで\(\sum\)記号を使うと何がうれしいかというと
- 「記述が省略できる」
- 「全部の和であることが明確になる」
という2点だと思います。「あっこれは全部足すんだな!」ということが直感的にわかるので、いろんなことが見えてくるというわけです。数学は物事を抽象化してとらえやすくするための道具です。異論はあるでしょうけど、私はそう考えています。科学におけるタームと一緒です。
バー、チルダ、ハット †
同じ場所に \(\bar{x}\) という記法が出てきます。これは「エックスバー」と読みます。なんでわざわざバーをつけるのか?これは「平均であること」を明確にするためです。統計学の世界ではバーが出てきたら平均を表します。見ただけで「あっこれは平均だな!」と分かるようにするためです。
似たような記号としてチルダ、ハットがあります。 \(\tilde{x}, \hat{x}\) はそれぞれ「エックスチルダ」「エックスハット」と読みます。チルダは「これは中央値である」、ハットは(あとで調べる)という意味を明確にするための表現です。このように数学の世界では、記号に意味を持たせて直感的に意味を分かりやすくする工夫がされていますが、初見だと「なにこのにょろにょろしたやつ」という感想しか抱けないと思います。慣れの問題ですので慣れましょう。
分散、標準偏差はなぜ n-1 で割るのか? †
みなさんは高校の数IAでは分散、標準偏差を求めるとき、2乗の和を n で割ったと記憶しているはず*1です。ところが P3 では突然 n-1 で割っています。これは混乱を招きます。数字が変わってしまうではないかと。n で割るか n-1 で割るかについては、P5 でも述べられているように「母集団」か「標本」かによって変わります。母集団とは要素を全部把握できているということで、標本は要素の一部を取り出したもののこと。高校では必ず母集団を考えていました。しかし統計学では母集団を把握することは困難です。例えば日本国民を全数調査するのはコストがかかりすぎて無理です。なので無作為抽出を行ったりするわけですね。したがって標本から平均、標準、標準偏差を計算する必要が出てきます。
それでは「n-1 で割ったら値が変わるではないか。そもそもなぜ n-1 なのか」ということですが、P6 では「標本の平均を使うと散らばりが小さめになるから」という説明がされています。納得できるような、できないような感じです。実際の理由はテキストの最後の最後 P356 でやっと出てきます。「標本から母集団の分散を推定するとき、不偏性という性質が必要になる。ここで n で割った場合は不偏性を満たさないが、 n-1 だと不偏性を満たす」ということが書いてあります。初学では何が書いてあるかわからないですが要約すると「標本は n-1 で割った方が母集団の分散・標準偏差に近くなる」ということです。これは数学的に証明可能らしいですがとりあえずはこの説明で納得するしかなさそうです。
偏差平方和? †
P12にでてくる
$$ \sum_{i=1}^n(x_i - \bar{x}) $$
では「偏差平方和」といういかつい名前がまごつかせてきます。「偏差」と聞くと偏差値を思い浮かべることでしょう。「偏差」は偏差値とは関連しているのですが、実際のところ正確には「平均との差」という意味です。したがって「偏差平方和」というのは「平均との差を二乗(平方)して、全部足したやつ」という意味です。
平成生まれで数IAのデータを学習した人は「分散 = 2乗の平均 - 平均の2乗」という公式を学んだはずです。この公式はあれと同じことを言っています。なお章末で公式の証明をやってくれていますが、これは数学大好き人間向けの解説なので、基本的に無視してください。
第2章 †
度数分布表とヒストグラムの話。
Eスク統計学ではここをかなり詳細にやりますが、テキストではあっさりしています。excelでのヒストグラムを書く操作がメインですので、練習問題でひたすら手を動かしてください。
第3章 †
度数分布表から平均、標準偏差、中央値を求めます。中央値の求め方が意味わからないと思います。
度数分布表は正確な値が分からない †
度数分布表は各要素の数が分かりません。「収入100万円~200万円の人が??人」のような情報しかないです。したがって平均や標準偏差、中央値も正確にはわかりません。しかし「それっぽいところ」の値を求めることはできます。それっぽいところの値を求めるだけでも価値があるのです。だいたい、標本調査でも正確な値はわからず、こちらもそれっぽい値しか求められないです。
度数分布表の性質から、文字だけ見ると意味の分からない公式が頻発します。なお、公式を覚える必要はないと思います。Excelで計算できれば良いです。
度数分布表から中央値を求める †
P50には度数分布表から中央値 \(\tilde{x}\) を求める公式が書いてあります。
$$ \tilde{x} = k_{*L} + \frac{c_*}{f_*}(\frac{n}{2} - F_{*-1}) $$
\(k_{*L}\) : 中央値が含まれる階級の下限
\(c_* = k_{*H} - k_{*L}\) : 中央値が含まれる階級の階級幅
\(f_*\) : 中央値が含まれる階級の度数
\(F_{*-1}\) : 中央値が含まれる階級の階級の1つ前の階級の累積度数
全然意味わからないですね*2。落ち着いて意味を解釈していきましょう。テキストとは違う見方で感覚的に解説します。
まず「* ってなんだよ!」という疑問が出ると思いますが、* には特に意味がありません。ただの文字です。別にaとかbとかでもよかったのですが、見づらいから * にしただけと思われます。
この公式は中央値が含まれる階級が分かっていることが前提です。なのでまず\(k_{*L}\)からスタートします。これと次の階級の間のどこかが中央値になります。ですから第1項は\(k_{*L}\)です。これに第2項の補正値を足して中央値にするというわけです。
第2項は難しいですが、階級幅をいい感じに何倍かすれば、中央値にたどり着くと考えればよいと思います。\(\frac{n}{2} - F_{*-1}\)は、中央と一つ前の度数の差。例えば500人いて、中央値の直前の階級までに200人いれば、残り50人分を足せばいいってわけですね。
最後に、人数を横軸に変換するために\(\frac{c_*}{f_*}\)を掛け算して、仕上げにすると考えれば納得できるのではないかと思います。上の例なら、50人→30万円に変換して、第1項と足し算したら中央値が求まるよね、という感覚でよいです。
この説明でも、意味が分かりにくいと思います。実感するためにはexcelで手を動かしてください。