アンケート分析（５）：決定木 - ロード・トゥ・ザ・ホワイトハッカー

決定木でのビジュアル化

決定木は、「けっていぎ」と読むらしいです。

クラスタの各グループの意味を知るには、決定木が理解しやすさを提供してくれる。

今回も、こちらを参考にさせて頂きました。

yyhhyy.hatenablog.com

実際のコード

#決定木のおまじない
import numpy as np
from sklearn import tree

#正解データ=クラスタIDを格納
y = np.array(questionnaire["cluster_ID"].values)
#パラメター格納
X = questionnaire.drop("cluster_ID",axis=1).values
#4階層で設定
dtree = tree.DecisionTreeClassifier(max_depth=4)
#学習
dtree = dtree.fit(X,y)

ホントは、訓練データと検証データを分割するのでしょうが、サンプルも少ないので、学習のみさせています。

決定木表示のおまじない

import pydotplus
from IPython.display import Image
from graphviz import Digraph

dot_data = tree.export_graphviz(

dtree, # 決定木オブジェクトを一つ指定する
out_file=None, # ファイルは介さずにGraphvizにdot言語データを渡すのでNone
filled=True, # Trueにすると、分岐の際にどちらのノードに多く分類されたのか色で示してくれる
rounded=True, # Trueにすると、ノードの角を丸く描画する。
feature_names= questionnaire.columns[0:-1], # これを指定しないとチャート上で特徴量の名前が表示されない
class_names=y.astype("str"), # これを指定しないとチャート上で分類名が表示されない
special_characters=True # 特殊文字を扱えるようにする
)

graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_png("dtree.png")
Image(graph.create_png())