前野・三國 図解でわかる統計解析 (2000) 

jump to 2020.5.11 2020.5.13

2020.5.1 更新2020.5.13

 現役の研究生活時代には、あまり、データの統計解析をすることが無かったのですが、

統計解析の手法については、なんのためにその処理するのかの説明がなく、

昔から、不審を抱いていました。

 この本は、通常の教科書と同様の書き方だと思いますので、

まずは、正規分布、t分布、カイ2乗分布 から、勉強し直します。

以下の解説は、私なりに説明方法を組み替えたものです。

 

 記述統計学とも呼ばれることのある、普通の統計においては、データが与えられたとき、

それは正規分布しているとして、平均値µ標準偏差値σを計算します。

   標準偏差σ=√(偏差平方和/データ数)

   信頼範囲= µ ± σ     データの 68.26%が含まれる

       = µ ±1.65×σ  データの 90% が含まれる

       = µ ±1.96×σ  データの 95%が含まれる

       = µ ± 2×σ    データの 95.44%が含まれる

       = µ ± 3×σ    データの 99.73%が含まれる

 

 しかし、推測統計と呼ばれる手法において、平均値µ、標準偏差σで正規分布する母集団から

N個標本を抜き出して、データの平均値 とµの差の推定を行う場合、

平均0で、標準偏差がσの 1/(N)1/2 の正規分布をすることから

t=( −µ )/√(分散/N) =( −µ )/(σ ・ (N)1/2 ) で定義される変数変換を行います。

このt分布 は、提唱したゴセットが、スチューデントというペンネームで論文を書いたため、スチューデントのt分布ともいいます。

 t 分布は、データ数N毎に描かれますが、Nが小さいと、分散が大きく、Nが∞に近づくにつれ正規分布に近づきます。

 

 母平均の区間推定では、125頁の例2は、新生児10人の体重データがあるとき、N=10

   標本平均=データの和/N=30700/10=3070

   分散=[N×Σ(データ)2 − (データ和)2]/[N(N−1)] = 72244.44

   信頼限界=標本平均±k・√(分散/N)

    122頁のt分布表で、自由度N−1=9で、P=0.05のときのtの値は2.262なので

    この値をkとして、信頼限界(95%)を計算すると、±192.3となります。

 

 次に、カイ2乗分布 ですが、 サイコロを50回ふって、偶数目が45回、奇数目が5回でたとたとき、

 期待値は、ともに、25ですので、期待値からのずれの度合いを表す価として、カイ2乗値を定期します。

  カイ2乗=Σ {|(実現値)−(期待値)|2 /期待値 }

 今の場合、(45-25)2/25 + (5-25)2/25 = 32

 1000回ふって、偶数目が520回、奇数目が480回でた場合は、

   カイ2乗= (520-500)2/500 + (480-500)2/500 = 1.6

 このカイ2乗値で、発生頻度を表すのが、カイ2乗分布です。

 139頁の例2では、ある工場で、過去10年間の曜日別事故発生数は、

   月曜=31、火曜=20、水曜=15、木曜=18、金曜=22、土曜=14、計=120

でした。事故の起こり方は、曜日に関係あるかないかを検討すると、

  曜日に関係ないとすると、各曜日の期待値は120/6=20日なので、

 カイ2乗値=(31−20)2/20+・・・+(14-20)2/20=9.5

 138頁のカイ2乗分布表で、自由度6-1=5の行のP=0.05の値は11.07であるので

 特定の曜日だけに事故が起こりやすいとはいえない、という結論になります。

 この本には、昔ながらに、表を参照する例しかありませんが、

パソコンが発達した近年においては、もっと高度な処理ができるはずですので、

いつか、PC対応の教科書で、勉強しなおしたいと思います。

2020.5.11

 推測統計において、分布表を引くということは、昔は、表を持っている専門家にしかできないことなので、

専門家を専門家たらしめていたのだと思います。

 パソコンが普及した現代、表を引くことは、パソコンで計算することで代用できます。

 一番わかりやすいのは、エクセルの統計関数を使うことです。

 上記の最初の例で利用したのは、両側確率のt分布表なので、

 エクセルでは、T.INV.2T という関数を使います。

   T.INV.2T (両側確率, 自由度) = T.INV.2T (0.05, 9) = 2.262157163

 次の例で使用したのは、右側確率のカイ2乗分布なので

 エクセルでは、CHISQ.INV.RT という関数を使います。

   CHISQ.INV.RT (右側確率、 自由度) = CHISQ.INV.RT (0.05, 5) = 11.07049769

2020.5.13

 上記のt分布の説明を更新しました。

 7章から、2組のデータの差の検定の問題が扱われています。

 最初の例題は、男子生徒11人のテストの成績が、平均71点、標準偏差が6点、

女子生徒11人の成績が、平均点74点、標準偏差6点だった。この平均点に差はあるか?

という問題です。

  検定統計量T=(µ1−µ2)/√{(σ1/N1)+(σ2/N2)}

          =(71−74)/{}

 

 

     

 ご意見等がありましたら、think0298(@マーク)ybb.ne.jp におよせいただければ、幸いです。

 ホームページアドレス: https://think0298.stars.ne.jp