目次
1 Autovizの概要
1.1 Autovizとは
1.2 Autovizのライブラリ
2. 実験
2.1 データロード
2.2 Autovizの探索的データ解析のEDA
3 まとめ
1 Autovizの概要
1.1 Autovizとは
Autovizはデータセットを自動可視化するライブラリです。データのファイルタイプとしては、Pandasのデータフレーム、CSV、 txt、 json等のファイルから1行のコードで自動可視化できます。
1.2 Autovizのライブラリ
AutoViz(filename, sep, depVar, dfte, header, verbose, lowess, chart_format¸ max_rows_analyzed, max_cols_analyzed)
AutovizのAPI:
filename- ファイル名を入力し、データフレームを使用する場合は、filenameを空の文字列(””)として指定します。
sep- ファイル内の区切り文字です。
depVar- データセット内のターゲット変数
dfte- パンダのデータフレーム
header- ファイル内のヘッダー行の行番号
verbose- 0、1、または2の3つの許容値があります。
lowess- ターゲット変数に対する連続変数の各ペアの回帰直線の設定。小さなデータセットに非常に適しています。
chart_format- SVG、PNG、またはJPGに設定することができます。
max_rows_analyzed- チャートの表示に使用される行の最大数を制限します。
max_cols_analyzed- 分析できる連続変数の数を制限します。
Github:
https://github.com/AutoViML/AutoViz
2. 実験
環境:Google Colab
データセット:ボストン住宅価格データセット(13つの説明変数と1つの目的変数)
ライブラリのインストール
!pip install autoviz |
ライブラリのインポート
import pandas as pd %matplotlib inline |
2.1 データロード
csvファイルを読み込んで、データフレームを作成します。
sep = ‘,’ target = ‘medv’ datapath = ” filename = ‘https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/MASS/Boston.csv’ df = pd.read_csv(datapath+filename,sep=sep,index_col=None) df = df.sample(frac=1.0,random_state=42) print(df.shape) df.head(1) |
2.2 Autovizの探索的データ解析のEDA
from autoviz.AutoViz_Class import AutoViz_Class %matplotlib inline AV = AutoViz_Class() |
dft = AV.AutoViz(datapath+filename, sep=sep, depVar=target, dfte=df, header=0, verbose=2, lowess=False,chart_format=’svg’,max_rows_analyzed=1500,max_cols_analyzed=30) |
データのサマリー
連続説明変数と目的変数の散布図
各連続説明変数の散布図
データ分配
連続説明変数のヒストグラム
連続説明変数のバイオリン図
連続説明変数のヒートマップ
連続説明変数のピボットテーブル
連続説明変数の棒グラフ
3 まとめ
Autovizの自動可視化するライブラリを実験しました。数行のコードで、散布図、ヒストグラム図、バイオリン図、棒グラフを作成することができました。使いやすい可視化のライブラリだと思います。
担当者:HM
香川県高松市出身 データ分析にて、博士(理学)を取得後、自動車メーカー会社にてデータ分析に関わる。その後コンサルティングファームでデータ分析プロジェクトを歴任後独立 気が付けばデータ分析プロジェクトだけで50以上担当
理化学研究所にて研究員を拝命中 応用数理学会所属