前野・三國 図解でわかる統計解析 (2000) |
2020.5.1 更新2020.5.13
現役の研究生活時代には、あまり、データの統計解析をすることが無かったのですが、
統計解析の手法については、なんのためにその処理するのかの説明がなく、
昔から、不審を抱いていました。
この本は、通常の教科書と同様の書き方だと思いますので、
まずは、正規分布、t分布、カイ2乗分布 から、勉強し直します。
以下の解説は、私なりに説明方法を組み替えたものです。
記述統計学とも呼ばれることのある、普通の統計においては、データが与えられたとき、
それは正規分布しているとして、平均値µや標準偏差値σを計算します。
標準偏差σ=√(偏差平方和/データ数)
信頼範囲= µ ± σ データの 68.26%が含まれる
= µ ±1.65×σ データの 90% が含まれる
= µ ±1.96×σ データの 95%が含まれる
= µ ± 2×σ データの 95.44%が含まれる
= µ ± 3×σ データの 99.73%が含まれる
しかし、推測統計と呼ばれる手法において、平均値µ、標準偏差σで正規分布する母集団から
N個標本を抜き出して、データの平均値 x とµの差の推定を行う場合、
平均0で、標準偏差がσの 1/(N)1/2 の正規分布をすることから
t=( x−µ )/√(分散/N) =( x−µ )/(σ ・ (N)1/2 ) で定義される変数変換を行います。
このt分布 は、提唱したゴセットが、スチューデントというペンネームで論文を書いたため、スチューデントのt分布ともいいます。
t 分布は、データ数N毎に描かれますが、Nが小さいと、分散が大きく、Nが∞に近づくにつれ正規分布に近づきます。
母平均の区間推定では、125頁の例2は、新生児10人の体重データがあるとき、N=10
標本平均=データの和/N=30700/10=3070
分散=[N×Σ(データ)2 − (データ和)2]/[N(N−1)] = 72244.44
信頼限界=標本平均±k・√(分散/N)
122頁のt分布表で、自由度N−1=9で、P=0.05のときのtの値は2.262なので
この値をkとして、信頼限界(95%)を計算すると、±192.3となります。
次に、カイ2乗分布 ですが、 サイコロを50回ふって、偶数目が45回、奇数目が5回でたとたとき、
期待値は、ともに、25ですので、期待値からのずれの度合いを表す価として、カイ2乗値を定期します。
カイ2乗=Σ {|(実現値)−(期待値)|2 /期待値 }
今の場合、(45-25)2/25 + (5-25)2/25 = 32
1000回ふって、偶数目が520回、奇数目が480回でた場合は、
カイ2乗= (520-500)2/500 + (480-500)2/500 = 1.6
このカイ2乗値で、発生頻度を表すのが、カイ2乗分布です。
139頁の例2では、ある工場で、過去10年間の曜日別事故発生数は、
月曜=31、火曜=20、水曜=15、木曜=18、金曜=22、土曜=14、計=120
でした。事故の起こり方は、曜日に関係あるかないかを検討すると、
曜日に関係ないとすると、各曜日の期待値は120/6=20日なので、
カイ2乗値=(31−20)2/20+・・・+(14-20)2/20=9.5
138頁のカイ2乗分布表で、自由度6-1=5の行のP=0.05の値は11.07であるので
特定の曜日だけに事故が起こりやすいとはいえない、という結論になります。
この本には、昔ながらに、表を参照する例しかありませんが、
パソコンが発達した近年においては、もっと高度な処理ができるはずですので、
いつか、PC対応の教科書で、勉強しなおしたいと思います。
推測統計において、分布表を引くということは、昔は、表を持っている専門家にしかできないことなので、
専門家を専門家たらしめていたのだと思います。
パソコンが普及した現代、表を引くことは、パソコンで計算することで代用できます。
一番わかりやすいのは、エクセルの統計関数を使うことです。
上記の最初の例で利用したのは、両側確率のt分布表なので、
エクセルでは、T.INV.2T という関数を使います。
T.INV.2T (両側確率, 自由度) = T.INV.2T (0.05, 9) = 2.262157163
次の例で使用したのは、右側確率のカイ2乗分布なので
エクセルでは、CHISQ.INV.RT という関数を使います。
CHISQ.INV.RT (右側確率、 自由度) = CHISQ.INV.RT (0.05, 5) = 11.07049769
上記のt分布の説明を更新しました。
7章から、2組のデータの差の検定の問題が扱われています。
最初の例題は、男子生徒11人のテストの成績が、平均71点、標準偏差が6点、
女子生徒11人の成績が、平均点74点、標準偏差6点だった。この平均点に差はあるか?
という問題です。
検定統計量T=(µ1−µ2)/√{(σ1/N1)+(σ2/N2)}
=(71−74)/{}
ご意見等がありましたら、think0298(@マーク)ybb.ne.jp におよせいただければ、幸いです。
ホームページアドレス: https://think0298.stars.ne.jp