統計学【t検定】対応なし
T検定について
今日はT検定について学んだことをアウトプットしてく…
とても読みやすく、分かりやすい…こちらの本のアウトプットです。
今日はこの本の第4章の内容!
これから、日々学ばせていただいたことをこのブログに勝手に載せていこうと思います!
では始めます!
母集団が把握できない、不明なことは多い。
そこで、標本をランダムにとってきて、そこから、推定母分散や、
信頼区間といったものを決めていく。
例えば、この表は2クラスの国語の点数をまとめたもの。
桃組には国語の専門の先生が教えたらしい。
ここで、T検定を行う。
帰無仮説→担任が、国語の専門家だろうが、テストの点数に影響はない。
対立仮説→担任が国語の専門家だから、テストの点数に影響する
実際は影響あったのかな??
こんな時に、
・標本がまず少ないことと、
・母分散がわからないので、T分布を使用って話らしい。
(ちょっと計算がめんどくさいので、割愛しますw)
桜組と桃組の平均差の信頼区間を調べる
そもそも、信頼区間とは…
ある確率で(95%とか99%とかが多い)母平均を含んでいるような範囲の事。
ざっくり、こっからここまでにあるでしょ!をちゃんと数値化したって感じかな…
一応公式は、
信頼区間 = 標本平均 ± t × 標準誤差
で求められます。
さくら組と桃組の平均の差は-0.94。
この-0.94ってどれくらいなんか?が気になるところ。
けど↑の公式はあくまで標本が1つの場合…
2つ以上あったときはこの公式
平均の差の信頼区間 = (標本平均A - 標本平均B) ± t × 差の標準誤差
で求められる。
いやいや、差の標準誤差って何?って話。
なんてことはない。
√(不偏分散 ÷ 標本Aのデータ数) + (不偏分散 ÷ 標本Bのデータ数)
で求められる
んで、この不偏分散ってのは、
母分散がわからん時に、推定で分散を出しましょうってやつ。
(データ- 平均)2乗の総和 ÷ データ数 -1
で求められる
最後のtについては、
今回例えば、95%の信頼区間で、って話になったとしたら、
T分布表ってのを見ながら、確認していくらしい。
↓こんなやつ
ここでいう「自由度」てのは二つの標本があった際にそれぞれを-1して足した
数字の事を言うらしい。(上の桜、桃の例えで行くと、17 + 19 = 36)
写真には端折られているけど、該当する自由度から、信頼度(今回なら0.05)の所に書かれるであろう数字がtに入る数字となる。
これで全てそろったので、
信頼区間95%の確率で母集団が入ってくる値がわかる。
この時、信頼区間の値に0が入ってくると、そもそも双方の評価には差は無いことが
十分に起こりえる、と解釈される。(有意な差ではない)
とだらだら書いたが、実はこのTの数字も求めることができる
T = 標本平均の差 ÷
√{(データA- 平均)2乗の総和 + (データB- 平均)2乗の総和}
÷ {(データA数 -1) +(データB数 -1)}
÷ (データA数 + データB数)
で求められる。
んで、Tがわかったら、さっきのT分布表を見て、
自由度が○○の時Tが○○よりも大きい、熱いは○○よりも小さいことが起こる
確率は○○%です!って
いえる。