線形回帰について ーダミー変数の設定
前回に引き続き、データの前処理をしていく。
その中でも、ダミー変数、について。
ダミー変数についての説明はもはやいいでしょうって話だけど、
コードとしては、このように表記。
data_with_dummies = pd.get_dummies(data_cleaned,drop_first=True)
pd.get_dummiesで呼び出すのだが、drop_first = Trueではじめの変数は削除してくれる。
ダミー変数で気を付けなければいけないのが、多重共感性だ。
カテゴリー変数の数値変換において、とても便利だが、0 , 1 で区分していくため、
例えば、男性・女性を分ける際に実はダミー変数としては、女性だけを設定しておけばよい。
理由は女性 = 1 男性 = 0 となるからだ。
そして、ダミー化を行って、実際に再度多重共感性を調べてみると…
from statsmodels.stats.outliers_influence import variance_inflation_factor var = data_with_dummies.copy() vif = pd.DataFrame(data_with_dummies.columns.values,columns = ["feature"]) vif["VIF"] = [variance_inflation_factor(var.values , i) for i in range(var.shape[1])]
となり、5 < 0のものが気を付けないとね、って話。
ダミー化をしたものについてはまずまずって感じかな。
今回は、ここまで、ではまた。