分散分析【1要因】 - 一生勉強、一生不悟

さて、今回も、アウトプットとして文字を書きます。

あまり時間がかけれないんで、サクッと行こか～。

今日もハンバーガー本の第6章でのアウトプット。

f:id:kawam0t0:20200507192939j:plain

Amazon CAPTCHA

分散分析について

T検定においては、標本とできるものは2種類だけしかできない…

そこで、分散分析という方法を使用する。

これは、3つ以上のものの分散を分析することによって、

全ての組み合わせに差があるのか、それとも、少なくとも一つの組み合わせには、

差があるのか？を分析してくれる。

例えば、3店舗のハンバーガーショップがあったとして、

それぞれのショップのハンバーガーをランダムに声をかけた60人に食べてもらって、

それぞれを点数で表してもら。といったときに有効。

その場合、

帰無仮説は「それぞれの味に点数が影響はされない」

対立仮説は「少なくとも1つの組み合わせでは味が点数に影響される」になる。

群間のずれ

さっきのハンバーガーショップの例で行くと、

例えば、3店舗のハンバーガーの点数の平均が80点だったと仮定する。

その内、A店の平均は60点だったとする。

単純に20店のずれ、がある。

これを群間のずれという。

群内のずれ

一方で、A店の平均から、どれだけずれているかということも抑えておかないといけない。

この「A店の平均からのずれ」の事を群内のずれ、という。

では、実際に群間のずれ、群内のずれについて計算を行っていく。

ずれっているのは平方和っていうらしい

この「ずれ」には正式名称があって、正しくは平方和というらしい。

この平方和の式は

　　　　　　(データ - 平均)の二乗の総和で求められる。

そう、分散の時のあれ、である。

その為、この公式を使って、群内の平方和は

(データ - 平均)の二乗の総和＋(データ - 平均)の二乗の総和＋(データ - 平均)の二乗の総和…

　　　　　　　　　　　　　　　　　　　　　　　　　　　で求められる。

それぞれの平方和はもし、標本分散がわかっていたら、

　　　　　　　標本分散　×　データサンプル数　で求められる。

全体の平方和も上記の

　　　　　　標本分散　×　データサンプル数で求められる。

さぁ、ここで問題なのが、群間の平方和である。

こいつだけがなぜか下記の公式を取る。

(群内(それぞれのデータの中の)の標本平均 - 全体平均)　×　サンプル数　の総和

である。

わけがわからんが、何しかこれで求められるみたい。

次に、自由度と分散分析表について書く。

分散分析表について

f:id:kawam0t0:20200507201018p:plain

こんなやつの事。

ここで新しい、文字がいくつか出てきた。

こちらの分布表を使うと、F値(F分布表で使う値)がとても分かりやすく計算できるので、

活用できそう。

自由度について

まず、群間の自由度については、

サンプルデータの数 - 1　したものだ。

上の群間の自由度の場合、3つの標本があったということ。

群内は、その3つの標本のそれぞれのデータから-1ずつ引いたものになる。

例えば、16 -1 、18 - 1 、11 -1 、の様に。

最後の全体、の自由度については割愛する。

んで、平均平方は単純に、群間の値を群内で割ったものになる。

そして、更にF値については、群間の値を群内で割ったものになる。