統計学 のバックアップ(No.6)


このページについて

テキスト科目統計学の解説を目的としたページです。

秋山先生の統計学テキストは、非常によく練られている素晴らしいテキストです。ただし、一定の数学的知識(高校の数IIB相当)が前提とされており、例えば\(\sum, \int, \infty \)などの解説が全くなく、これらの知識の使い方が分からなければとたんに理解が難しくなります。このページでは数学さっぱりの人向けの補足説明をメインにしていこうと考えています。

統計学の重要性

経済学部、一部の文学部の人にとって統計学は基本的で必須の知識です。ぜひテキスト統計学で基本的な統計手法を学ぶことをお勧めします。

数学的なことは実は現代ではexcelが勝手にやってくれるのですが、背景となる考え方を学んでおかないと「なんでこの手法使ってるんだっけ?」となり分析の意味がないです。手を動かすことと理論は両輪です。どちらが欠けてもダメですので両方学んでください。

基本的な考え方

手を動かす

各章の内容をある程度理解したら、練習問題を必ず解いてください。理数系科目は手を動かすことが基本です。数理的なことというのは知識というよりも技術的側面が強いです。作業を通じて理解が深まります。

発展事項は飛ばす

統計学テキスト第3版(2022年以降)は、第2版と違って高度な数学的事項を各章末に押し込んであるという便利な特徴があります。数学得意な人(数III履修済み~大学教養までやった人)は読む価値がありますが、そうでない人は飛ばしましょう。飛ばした方が賢明です。「なんか数学を使うと証明できて本文の公式・結論が得られるらしい!」ということが分かっていれば十分です。高名な物理学者ファインマン先生も、証明自体はあまり意味がなく、証明できることが分かっていれば十分とおっしゃっています。

第1章

第1章では平均、中央値など基本的な概念を学びます。

で、P2にいきなり\(\sum\)記号が出てきます。全高校生が涙したこの記号、解説しないわけにはいきません。

\(\sum\)記号

\(\sum\)とは「要素を全部足す」という意味です。足し算が\(\sum\)記号の本質です。

$$ \sum_{i=1}^n x_i $$

というのは、テキストにもある通り

$$ x_1 + x_2 + x_3 + ... + x_n $$

と同じことを表します。iを変数といいます。変数というのは「値が変わる数」のことで、プログラム言語にもよく登場します。変数自体がどの文字かということにはあまり意味はなく、iでもkでもjでもなんでもよいのです。この記号は総合的に「iに1~nを順番に入れていって全部足す」という意味になります。

\(\sum\)記号を使うと何がうれしいのか?

私は数学において「この記号を使うと何がうれしいのか」という観点からよく考えます。ここで\(\sum\)記号を使うと何がうれしいかというと

  • 「記述が省略できる」
  • 「全部の和であることが明確になる」

という2点だと思います。「あっこれは全部足すんだな!」ということが直感的にわかるので、いろんなことが見えてくるというわけです。数学は物事を抽象化してとらえやすくするための道具です。異論はあるでしょうけど、私はそう考えています。科学におけるタームと一緒です。

バー、チルダ、ハット

同じ場所に \(\bar{x}\) という記法が出てきます。これは「エックスバー」と読みます。なんでわざわざバーをつけるのか?これは「平均であること」を明確にするためです。統計学の世界ではバーが出てきたら平均を表します。見ただけで「あっこれは平均だな!」と分かるようにするためです。

似たような記号としてチルダ、ハットがあります。 \(\tilde{x}, \hat{x}\) はそれぞれ「エックスチルダ」「エックスハット」と読みます。チルダは「これは中央値である」、ハットは「これは推定値である」という意味を明確にするための表現です。このように数学の世界では、記号に意味を持たせて直感的に意味を分かりやすくする工夫がされていますが、初見だと「なにこのにょろにょろしたやつ」という感想しか抱けないと思います。慣れの問題ですので慣れましょう。

分散、標準偏差はなぜ n-1 で割るのか?

みなさんは高校の数IAでは分散、標準偏差を求めるとき、2乗の和を n で割ったと記憶しているはず*1です。ところが P3 では突然 n-1 で割っています。これは混乱を招きます。数字が変わってしまうではないかと。n で割るか n-1 で割るかについては、P5 でも述べられているように「母集団」か「標本」かによって変わります。母集団とは要素を全部把握できているということで、標本は要素の一部を取り出したもののこと。高校では必ず母集団を考えていました。しかし統計学では母集団を把握することは困難です。例えば日本国民を全数調査するのはコストがかかりすぎて無理です。なので無作為抽出を行ったりするわけですね。したがって標本から平均、標準、標準偏差を計算する必要が出てきます。

それでは「n-1 で割ったら値が変わるではないか。そもそもなぜ n-1 なのか」ということですが、P6 では「標本の平均を使うと散らばりが小さめになるから」という説明がされています。納得できるような、できないような感じです。実際の理由はテキストの最後の最後 P356 でやっと出てきます。「標本から母集団の分散を推定するとき、不偏性という性質が必要になる。ここで n で割った場合は不偏性を満たさないが、 n-1 だと不偏性を満たす」ということが書いてあります。初学では何が書いてあるかわからないですが要約すると「標本は n-1 で割った方が母集団の分散・標準偏差に近くなる」ということです。これは数学的に証明可能らしいですがとりあえずはこの説明で納得するしかなさそうです。

偏差平方和?

P12にでてくる

$$ \sum_{i=1}^n(x_i - \bar{x}) $$

では「偏差平方和」といういかつい名前がまごつかせてきます。「偏差」と聞くと偏差値を思い浮かべることでしょう。「偏差」は偏差値とは関連しているのですが、実際のところ正確には「平均との差」という意味です。したがって「偏差平方和」というのは「平均との差を二乗(平方)して、全部足したやつ」という意味です。

平成生まれで数IAのデータを学習した人は「分散 = 2乗の平均 - 平均の2乗」という公式を学んだはずです。この公式はあれと同じことを言っています。なお章末で公式の証明をやってくれていますが、これは数学大好き人間向けの解説なので、基本的に無視してください。

第2章

度数分布表とヒストグラムの話。

Eスク統計学ではここをかなり詳細にやりますが、テキストではあっさりしています。excelでのヒストグラムを書く操作がメインですので、練習問題でひたすら手を動かしてください。

第3章

度数分布表から平均、標準偏差、中央値を求めます。中央値の求め方が意味わからないと思います。

度数分布表は正確な値が分からない

度数分布表は各要素の数が分かりません。「収入100万円~200万円の人が??人」のような情報しかないです。したがって平均や標準偏差、中央値も正確にはわかりません。しかし「それっぽいところ」の値を求めることはできます。それっぽいところの値を求めるだけでも価値があるのです。だいたい、標本調査でも正確な値はわからず、こちらもそれっぽい値しか求められないです。

度数分布表の性質から、文字だけ見ると意味の分からない公式が頻発します。なお、公式を覚える必要はないと思います。Excelで計算できれば良いです。

度数分布表から中央値を求める

P50には度数分布表から中央値 \(\tilde{x}\) を求める公式が書いてあります。

$$ \tilde{x} = k_{*L} + \frac{c_*}{f_*}(\frac{n}{2} - F_{*-1}) $$

\(k_{*L}\) : 中央値が含まれる階級の下限

\(c_* = k_{*H} - k_{*L}\) : 中央値が含まれる階級の階級幅

\(f_*\) : 中央値が含まれる階級の度数

\(F_{*-1}\) : 中央値が含まれる階級の階級の1つ前の階級の累積度数

全然意味わからないですね*2。落ち着いて意味を解釈していきましょう。テキストとは違う見方で感覚的に解説します。

まず「* ってなんだよ!」という疑問が出ると思いますが、* には特に意味がありません。ただの文字です。別にaとかbとかでもよかったのですが、見づらいから * にしただけと思われます。

この公式は中央値が含まれる階級が分かっていることが前提です。なのでまず\(k_{*L}\)からスタートします。これと次の階級の間のどこかが中央値になります。ですから第1項は\(k_{*L}\)です。これに第2項の補正値を足して中央値にするというわけです。

第2項は難しいですが、階級幅をいい感じに何倍かすれば、中央値にたどり着くと考えればよいと思います。\(\frac{n}{2} - F_{*-1}\)は、中央と一つ前の度数の差。例えば500人いて、中央値の直前の階級までに200人いれば、残り50人分を足せばいいってわけですね。

最後に、人数を横軸に変換するために\(\frac{c_*}{f_*}\)を掛け算して、仕上げにすると考えれば納得できるのではないかと思います。上の例なら、50人→30万円に変換して、第1項と足し算したら中央値が求まるよね、という感覚でよいです。

この説明でも、意味が分かりにくいと思います。実感するためにはexcelで手を動かしてください。

度数分布表からの百分位数、四分位数

中央値と式を比べてみましょう。\(\frac{n}{2}\) のところが \(\frac{j}{100}n\) や \(\frac{j}{4}n\) に置き換わっただけです。考え方は中央値と全く同じです。「直前の階級の端っこから、いい感じにx軸の幅を足す」ということが分かっていればそれで十分。あとは練習問題!

第4章

大半が高校数Aの確率の復習です。我々が高校までに学んだ確率は古典的確率といいます。古典的確率は「同様に確からしい」という概念を使って、試行なしで確率を計算します。一方で統計学で扱うのは主に実際の試行を基にした経験的確率です。他にも主観的確率も紹介されていますがあまり深く考えなくてもよいと思います。

テキストはわかりやすすぎてあまり補足することがないです。特にP67-69の条件つき確率・加法定理のベン図を使った説明は「あなたが神か?」と思えるほどよくできているので、私は高校生にこれ使って教えたいです。熟読してください。

独立

本テキストを通じて確率論的に最も大事な概念は「独立」です。P71にさらっと書いてありますが、独立が成り立つかどうかで分析手法が全く変わってきます。

独立とは、ある事象とある事象がお互いに全く影響を及ぼさないことで、ベン図で書いた時に2つの事象が全く重なっていないことをいいます。重なっていなければ中心極限定理→仮説検定が可能ですが、重なっていればもう駄目です。相関係数や回帰分析の問題になります。

第5章

数学的には、第1章の\(\sum\)に続いて、空間、関数の概念と\(\int, \infty \)が登場します。つまづきポイントその2です。ここから、各章ごとに大きなつまづきポイントが待っています。

標本「空間」?

P76に「標本空間」という言葉が出てきます。「空間」といわれるとまるで宇宙に放り出されたような気になりますが、これは数学用語で「今から考えるのはこの範囲にしておくよ」くらいの意味です。世界を限定するのですね。 $$ 標本空間 S={e_1, e_2, ..., e_k} があり... $$ というのは、「今から考える世界は \( e_1, e_2, ..., e_k \) だけにしておくよ」という意味です。およそ頭の中で考えられる世界を限定しておくという意味では、セカイ系みたいなもんですね。大学の数学ではこの「空間」という言葉が多用されます。しかし空間怖れるに足らず、世界を単純化するための定義づけなんだなと思っていただければそれでよいです。

関数とは

本書で全く解説されないのは「関数」の概念です。確率分布は確率を関数で表すものですが、「関数」が分かっていないと意味わからんになりますですのでここで解説します*3

関数は数と数との関係

関数とは「何か数字を入れると、何か数字が出てくる」というものです。数学の言葉では \(f(x)\) と書くことが多いです。この \(f(x)\) を見るだけで拒否反応が出る方も多いでしょう。例えば $$ f(x) = 2x $$

というのは、「xを2倍せよ」という関数です。

xに1を入れると2が出てくる。

xに3を入れると6が出てくる。

という関係が直感的にわかるかと思います。関数って実はこれだけです。「何か数字を入れると、何か数字が出てくる」というのは、言い換えれば「ある数とある数の関係を記述したもの」ともいえます。上の例なら「2倍」という関係を記述したもの、これが \(f(x)\) というわけです。

確率分布とは?

確率分布とは、確率を関数で表したものです。\(f(x)\) を使って確率を表現すると、確率分布になります。例えば、P76のサイコロの例なら、標本空間を「表は1、裏は0」と表現すると、 $$ f(0) = (裏が出る確率) = 0.5 $$ $$ f(1) = (表が出る確率) = 0.5 $$ と書けます。これが確率分布です。なお、ここで「表=1、裏=0」と表現しましたが、この0, 1を確率変数と呼びます。 上の例を見ればわかる通り、確率分布の値を全部足すと必ず1になります。これは非常に重要な性質で、ずーっと後まで使います。

確率分布を使うとなにがうれしいのか?

サイコロのような離散型、すなわち飛び飛びの値を取る、デジタルで表現できる数値に関しては、確率分布を考えることによる利点は「見た目が簡潔になること」。これに尽きると思います。っていうか数学的な発想は全部これです。見た目が簡潔になると、簡潔なものを組み合わせてもっと高度な発想ができるようになります。逆に、見た目が簡潔すぎて、数学が苦手な人が敬遠する理由もここにあります。

さらに連続型、例えば気温・身長体重のような中間の値をいくらでも考えることができるものに対しては、後述する積分という強力な計算方法が使えるようになります。

期待値、期待値の分散・標準偏差

期待値は重要な概念です。期待値の定義は、確率変数を \(x_1, x_2, ..., x_k\) とすると $$\mu = E(X) = \sum_{i=1}^k x_i f(x_i)$$

です。ぱっと見意味が分かりませんが、日本語で書けば「確率変数と確率を掛け算したものを、全部足す」ということを指します。これならわかるのではないでしょうか。

今ではごく少数になったパチプロ(パチンコ・パチスロで生計を立てる人)は期待値で動きます。投入金額と確率を掛け算して全部足した期待値が投入金額より高ければ、そのパチンコ・パチスロは金を払う価値があるというわけです。なお、宝くじは期待値が投入金額の0.4-0.5倍程度になることが知られています。金を払うだけアホみたいですね。

期待値の分散の定義式 $$ \sigma^2 =var(X) = \sum_{i=1}^k (x_i - \mu) f(x_i)$$ についても、ここまでが分かっていれば「偏差平方和と確率を掛けたやつを全部足す」ということが見て取れるはずです。標準偏差は、単にこれのルートを取ったもの。

積分とは

連続型確率分布に入る前に、積分の説明をします。積分とは実は足し算です。\(\sum\)と\(\int\)って、実はほとんど同じ意味なのです。積分は正規分布を考える際にも大事な概念なので、ここで解説します。

積分=足し算

int.jpg

*4

高校の数IIで習ったように、積分とは f(x) より下の部分にある面積を求める演算です。

これがどう統計と関係あるの?と疑問だと思うでしょうから、ここでヒストグラムを限りなく細かくしていくことを考えてみます。

hist.jpg

はじめのヒストグラムでは、短冊形の面積を全部足していくと全体の面積(=全体の度数)になっていました。これを、短冊を細かく切りまくっていって、精度を上げていきます。横幅を限りなく小さくすると(これを「極限を取る」と言います)角が取れて滑らかな図形になります。結局、限りなく小さい短冊を足しまくっていけば全体の面積になることが分かります。これが積分です。ですから積分は足し算なのです。

実際は積分は微分の逆演算を行うことで不思議と計算できてしまうのですが、証明はめっちゃ大変ですので、ここでは「ふーんそうなんだ」と納得するだけでよいです。

積分すると何がうれしいのか

連続型確率分布の計算ができます。これはめっちゃうれしいです。連続型の分布は、単なる足し算では太刀打ちできません。というのも、例えば「身長の期待値を求めよ」って言われても、身長 * 確率を足すってことができないからです。ところが、確率を関数化すれば、積分を使って面積を求められるから、確率や期待値を無事に計算することができます。後にでてくる正規分布も連続してる関数ですから、95%信頼区間の計算などをする場合に積分がないと全く計算できません*5

離散型・連続型確率分布の累積分布関数

特に連続型確率分布の累積分布関数は第5章で一番意味わからないと思います。前述のように、連続型関数なので積分が出てきます。

累積分布関数

「累積分布関数」は「変数xのところまでの確率を全部足したもの」と定義できます。例えば直前のサイコロの例なら、x=1未満なら累積分布関数は0.5、x=1以上なら累積分布関数は1ということになります。

累積分布関数を使うとうれしいことは、「??以下になる確率」「??以上になる確率」を一瞬で計算できることです。これは統計学上とっても重要です。例えば後に学ぶ正規分布の累積分布関数を使うと「偏差値70以上になる確率→2.5%」とすぐ計算ができるのです。

離散型と連続型の累積分布関数

離散型の累積分布関数と、連続型の累積分布関数の公式をそれぞれ書きます。 $$離散型:F(x) = P(X\le x) = \sum_{i\le x}f(t)$$ $$連続型:F(x) = P(X\le x) = \int_{-\infty}^x f(t)dt$$

前述のように、この2つはほぼ同じ意味です。離散型が「xのとこまで全部足す」となっている一方で、連続型も「xのとこまで全部積分する=足す」という意味になるからです。

\(-\infty\) ???

積分の所に \(-\infty\) という記号が現れました。数IIIをやってないと何これという感じですね。これは「マイナス無限大」と読みます。無限大とは、数学には珍しい観念的な存在です。「どこまでも終わりがない」ということです。これにマイナスをつけるわけですから「どこまでも終わりのないマイナス」という意味です。どこぞの歌詞みたいですね。

積分記号の下限に \(-\infty\) がついているということは、「およそ考えられる限りマイナスの所からのとこからの面積を考える」という意味になります。数学的には、マイナスはどこまでもとれますのでこのような表現を使います。実際統計学では、例えば身長がマイナスになることはありませんので、 \(-\infty\) というのは少々大げさで、実際は0からの面積を求めることになります。

inf2.jpg

理想の関数と現実の関数はこのような図示をすることができます。

連続型確率分布の確率・期待値・分散・標準偏差の計算

一定の区間の積分をすれば確率になります。例えば身長150-160になる確率を求めたければ $$\int_{150}^{160} f(t)dt$$

を計算すればいいってわけです。

期待値、分散も同じ。和の代わりに積分を使うだけです。見た目はびっくりしますが、単に和を積分に変えただけ。意味が分かってしまえばどうということはないです(計算は面倒)。

第6章

「確率変数の関数」というわかるようなわからんようなタイトルがついています。要するに「確率変数を変形する」ということです。例えば偏差値を求めたりするとき、50を中心にして標準偏差が10になるように変えないといけないですが、その変換のことを「関数」と呼んでいるのです。


*1 昭和生まれの人は統計自体やってないですが
*2 私はわかりませんでした
*3 私は高校の時に関数概念が全く分かっておらず、1年ほど無駄にしました
*4 https://mathlandscape.com/integration/ より
*5 といっても、積分が計算できなくても本テキストでは積分の代わりに表の値の読み取りで済ませますし、excel上でも求められるので実際上の不便はありません