ダミー変数に変換 【One-Hotエンコーディング】
今回の記事はカテゴリ変数をダミー変数に変換を解説します。 ダミー変数とは、 カテゴリ変数を数字に変換する手法のことです。具体的には、数字ではないデータを「0」と「1」だけの数列に変換します。機械学習は数字などの量的データによって行うものですが、それ以外の事柄でも数字に変換し、分析に取り入れることができます。多クラスの特徴量をone-hot表現に変換したりすることです。 ダミー変数の作り方 二者択一のダミー変数を作成する場合は、どちらか一方を「0」、もう片方を「1」と変換してデータを作ります。 例えば 「はい→1、いいえ→0」、 「男→1、女→0」、 「あり→1、なし→0」 複数から選択するダミー変数を作成する場合は、含まれる要素の数に応じたダミー変数を作ることでデータに転換可能です。例えば、 国「日本、 中国、アメリカ」 日本ダミー : 日本を1、その他を0とした数列 中国ダミー : 中国を1、その他を0とした数列 アメリカダミー : アメリカを1、その他を0とした数列 だは、pandasのget_dummiesでダミー変数を変更しましょう。 pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None) data – ダミー変数を作成したいデータ prefix – DataFrameのカラムラベルに付け加える文字列 prefix_sep – prefixで指定された文字列を付け加える際に橋渡しとなる文字列 dummy_na – 欠損値もダミー変数の処理 columns – ダミー変数に変換したい列データ sparse – SparseDataFrameとして返り値 drop_first – カテゴリー数がk個あった時、k-1個のダミー変数を作成するかどうか dtype – 新たなカラムのデータ型 # サンプルデータ作成 …