分散分析【1要因】

さて、今回も、アウトプットとして文字を書きます。

 

あまり時間がかけれないんで、サクッと行こか~。

 

今日もハンバーガー本の第6章でのアウトプット。

 

f:id:kawam0t0:20200507192939j:plain

 

Amazon CAPTCHA

 

分散分析について

T検定においては、標本とできるものは2種類だけしかできない…

 

そこで、分散分析という方法を使用する。

 

これは、3つ以上のものの分散を分析することによって、

全ての組み合わせに差があるのか、それとも、少なくとも一つの組み合わせには、

差があるのか?を分析してくれる。

 

例えば、3店舗のハンバーガーショップがあったとして、

それぞれのショップのハンバーガーをランダムに声をかけた60人に食べてもらって、

それぞれを点数で表してもら。といったときに有効。

 

その場合、

帰無仮説は「それぞれの味に点数が影響はされない」

対立仮説は「少なくとも1つの組み合わせでは味が点数に影響される」になる。

 

群間のずれ

さっきのハンバーガーショップの例で行くと、

例えば、3店舗のハンバーガーの点数の平均が80点だったと仮定する。

その内、A店の平均は60点だったとする。

単純に20店のずれ、がある。

これを群間のずれという。

群内のずれ

一方で、A店の平均から、どれだけずれているかということも抑えておかないといけない。

この「A店の平均からのずれ」の事を群内のずれ、という。

 

では、実際に群間のずれ、群内のずれについて計算を行っていく。

 
ずれっているのは平方和っていうらしい

この「ずれ」には正式名称があって、正しくは平方和というらしい。

この平方和の式は

      (データ - 平均)の二乗の総和で求められる。

 

そう、分散の時のあれ、である。

 

その為、この公式を使って、群内の平方和は

(データ - 平均)の二乗の総和+(データ - 平均)の二乗の総和+(データ - 平均)の二乗の総和…

                           で求められる。

それぞれの平方和はもし、標本分散がわかっていたら、

       標本分散 × データサンプル数 で求められる。

 

全体の平方和も上記の

      標本分散 × データサンプル数で求められる。

 

さぁ、ここで問題なのが、群間の平方和である。

 

こいつだけがなぜか下記の公式を取る。

(群内(それぞれのデータの中の)の標本平均 - 全体平均) × サンプル数 の総和

である。

 

わけがわからんが、何しかこれで求められるみたい。

 

次に、自由度と分散分析表について書く。

 

分散分析表について

f:id:kawam0t0:20200507201018p:plain

 

こんなやつの事。

ここで新しい、文字がいくつか出てきた。

こちらの分布表を使うと、F値(F分布表で使う値)がとても分かりやすく計算できるので、

活用できそう。

自由度について

まず、群間の自由度については、

サンプルデータの数 - 1 したものだ。

上の群間の自由度の場合、3つの標本があったということ。

 

群内は、その3つの標本のそれぞれのデータから-1ずつ引いたものになる。

例えば、16 -1 、18 - 1 、11 -1 、の様に。

 

最後の全体、の自由度については割愛する。

 

んで、平均平方は単純に、群間の値を群内で割ったものになる。

 

そして、更にF値については、群間の値を群内で割ったものになる。