ロード・オブ・ザ・ホワイトハッカー

ホワイトハッカーはじめました

Python

ログ処理(WEBサーバー編)

WEBサーバーのログ WEBサーバーのログについて、サーバーごとにログパーサーがあって、それで表示するのが手っ取り早い。 WEBサーバーのログ以外に、PCやネットワーク機器のログと結合させてトレースしたい場合など、標準的なログ解析ツールがあれば便利かな…

アンケート分析(5):決定木

決定木でのビジュアル化 決定木は、「けっていぎ」と読むらしいです。 クラスタの各グループの意味を知るには、決定木が理解しやすさを提供してくれる。 今回も、こちらを参考にさせて頂きました。 yyhhyy.hatenablog.com 実際のコード #決定木のおまじないi…

アンケート分析(4):クラスタリング

クラスタ分析 クラスタリング 、クラスタ解析など呼ばれますが、データを一定のグループにまとめること。階層型と非階層型がある。 アンケート結果に対してクラスタ分析を行うことで、いくつかの傾向を読み取り、それに対してアクションを取ることを可能にし…

アンケート分析(3):データの水増し

データの水増し データの水増しをアンケートでやったら偽造ですが、上手に機械学習させるために、少ないサンプルデータに対してよく行われている、とのこと。 特に画像認識系で、画像データが少ない場合など、ノイズを与えてデータを複製する。 後学のため、…

アンケート分析(2):スケーリング

スケーリングの目的 アンケートデータの場合、5段階の回答を求める場合、質問によっては、1に偏ったりする場合がある。各設問でばらつきがでないように調整するため。 スケーリングには、2種類ある。 正規化:「特徴量を0〜1に変換するスケーリング」 標準…

アンケート分析(1):事前準備

時には、主観に惑わされずに、客観的なデータに基づき判断ができるようにデータ分析の訓練を。 アンケートなどで、意見を収集して施策を決めることがあるが、分析までいかずに集計して終わることが多々ある。 アンケートのデータを使用して分析をしてみる。 …

pandasの覚え

pandasの情報元 この本で一通り勉強しました。 この本は、GitHubにサンプルコードがあります。 github.com 本家のドキュメントは、こちら。 pandas.pydata.org DataFrameの3要素 インデックス カラム データ 各要素へのアクセス方法 movie = pd.read_csv('da…

Active Directoryのデータ処理

Active Directoryの管理 Active Directoryを使用していると、ゴミデータが黙ったり、変な設定がいつまでも残っていたり、ということがある。 GUIでマウスをポチポチしながらの確認作業も、いつの間にか気が遠のいていく。。。 ユーザーとグループの出力 saku…