線形回帰について ーダミー変数の設定

前回に引き続き、データの前処理をしていく。

その中でも、ダミー変数、について。

ダミー変数についての説明はもはやいいでしょうって話だけど、
コードとしては、このように表記。

data_with_dummies = pd.get_dummies(data_cleaned,drop_first=True)

pd.get_dummiesで呼び出すのだが、drop_first = Trueではじめの変数は削除してくれる。
ダミー変数で気を付けなければいけないのが、多重共感性だ。
カテゴリー変数の数値変換において、とても便利だが、0 , 1 で区分していくため、
例えば、男性・女性を分ける際に実はダミー変数としては、女性だけを設定しておけばよい。

理由は女性 = 1 男性 = 0 となるからだ。

そして、ダミー化を行って、実際に再度多重共感性を調べてみると…

from statsmodels.stats.outliers_influence import variance_inflation_factor
var = data_with_dummies.copy()

vif = pd.DataFrame(data_with_dummies.columns.values,columns = ["feature"])
vif["VIF"] = [variance_inflation_factor(var.values , i) for i in range(var.shape[1])]

f:id:kawam0t0:20200515113705p:plain

となり、5 < 0のものが気を付けないとね、って話。
ダミー化をしたものについてはまずまずって感じかな。

今回は、ここまで、ではまた。