分散分析【1要因】
さて、今回も、アウトプットとして文字を書きます。
あまり時間がかけれないんで、サクッと行こか~。
今日もハンバーガー本の第6章でのアウトプット。
分散分析について
T検定においては、標本とできるものは2種類だけしかできない…
そこで、分散分析という方法を使用する。
これは、3つ以上のものの分散を分析することによって、
全ての組み合わせに差があるのか、それとも、少なくとも一つの組み合わせには、
差があるのか?を分析してくれる。
例えば、3店舗のハンバーガーショップがあったとして、
それぞれのショップのハンバーガーをランダムに声をかけた60人に食べてもらって、
それぞれを点数で表してもら。といったときに有効。
その場合、
帰無仮説は「それぞれの味に点数が影響はされない」
対立仮説は「少なくとも1つの組み合わせでは味が点数に影響される」になる。
群間のずれ
さっきのハンバーガーショップの例で行くと、
例えば、3店舗のハンバーガーの点数の平均が80点だったと仮定する。
その内、A店の平均は60点だったとする。
単純に20店のずれ、がある。
これを群間のずれという。
群内のずれ
一方で、A店の平均から、どれだけずれているかということも抑えておかないといけない。
この「A店の平均からのずれ」の事を群内のずれ、という。
では、実際に群間のずれ、群内のずれについて計算を行っていく。
ずれっているのは平方和っていうらしい
この「ずれ」には正式名称があって、正しくは平方和というらしい。
この平方和の式は
(データ - 平均)の二乗の総和で求められる。
そう、分散の時のあれ、である。
その為、この公式を使って、群内の平方和は
(データ - 平均)の二乗の総和+(データ - 平均)の二乗の総和+(データ - 平均)の二乗の総和…
で求められる。
それぞれの平方和はもし、標本分散がわかっていたら、
標本分散 × データサンプル数 で求められる。
全体の平方和も上記の
標本分散 × データサンプル数で求められる。
さぁ、ここで問題なのが、群間の平方和である。
こいつだけがなぜか下記の公式を取る。
(群内(それぞれのデータの中の)の標本平均 - 全体平均) × サンプル数 の総和
である。
わけがわからんが、何しかこれで求められるみたい。
次に、自由度と分散分析表について書く。
分散分析表について
こんなやつの事。
ここで新しい、文字がいくつか出てきた。
こちらの分布表を使うと、F値(F分布表で使う値)がとても分かりやすく計算できるので、
活用できそう。
自由度について
まず、群間の自由度については、
サンプルデータの数 - 1 したものだ。
上の群間の自由度の場合、3つの標本があったということ。
群内は、その3つの標本のそれぞれのデータから-1ずつ引いたものになる。
例えば、16 -1 、18 - 1 、11 -1 、の様に。
最後の全体、の自由度については割愛する。
んで、平均平方は単純に、群間の値を群内で割ったものになる。
そして、更にF値については、群間の値を群内で割ったものになる。