機械学習

決定木 hs分類に使えそう

2017年12月13日 by 河副太智 Leave a Comment

画像検索結果

決定木はこれまで紹介したロジスティック回帰やSVMとは違い、データの要素（説明変数）の一つ一つに着目し、その要素内でのある値を境にデータを分割していくことでデータの属するクラスを決定しようとする手法です。

決定木では説明変数の一つ一つが目的変数にどのくらいの影響を与えているのかを見ることができます。
分割を繰り返すことで枝分かれしていきますが、先に分割される変数ほど影響力が大きいと捉えることができます。

欠点は線形分離可能なデータは苦手であることと、学習が教師データに寄りすぎる(汎化されない)ことです。

# きのこデータの取得
# 必要なパッケージをインポート
import requests
import zipfile
from io import StringIO
import io
import pandas as pd
# データの前処理に必要なパッケージのインポート
from sklearn.model_selection import train_test_split
from sklearn import preprocessing

# url
mush_data_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data"
s = requests.get(mush_data_url).content

# データの形式変換
mush_data = pd.read_csv(io.StringIO(s.decode('utf-8')), header=None)

# データに名前をつける(データを扱いやすくするため)
mush_data.columns = ["classes", "cap_shape", "cap_surface", "cap_color", "odor", "bruises",
                     "gill_attachment", "gill_spacing", "gill_size", "gill_color", "stalk_shape",
                     "stalk_root", "stalk_surface_above_ring", "stalk_surface_below_ring",
                     "stalk_color_above_ring", "stalk_color_below_ring", "veil_type", "veil_color",
                     "ring_number", "ring_type", "spore_print_color", "population", "habitat"]

# カテゴリー変数(色の種類など数字の大小が決められないもの)をダミー特徴量(yes or no)として変換する
mush_data_dummy = pd.get_dummies(
    mush_data[['gill_color', 'gill_attachment', 'odor', 'cap_color']])
# 目的変数：flg立てをする
mush_data_dummy["flg"] = mush_data["classes"].map(
    lambda x: 1 if x == 'p' else 0)

# 説明変数と目的変数
X = mush_data_dummy.drop("flg", axis=1)
Y = mush_data_dummy['flg']

# 学習データとテストデータに分ける
train_X, test_X, train_y, test_y = train_test_split(X,Y, random_state=42)

# 以下にコードを記述してください。
# モデルの読み込み
from sklearn.tree import DecisionTreeClassifier

# モデルの構築
model = DecisionTreeClassifier()
# モデルの学習
model.fit(train_X, train_y)

# 正解率を算出
print(model.score(test_X, test_y))

# きのこデータの取得

# 必要なパッケージをインポート

import requests

import zipfile

from io import StringIO

import io

import pandas as pd

# データの前処理に必要なパッケージのインポート

from sklearn.model_selection import train_test_split

from sklearn import preprocessing

# url

mush_data_url = "http://archive.ics.uci.edu/ml/machine-learning-databases/mushroom/agaricus-lepiota.data"

s = requests.get(mush_data_url).content

# データの形式変換

mush_data = pd.read_csv(io.StringIO(s.decode('utf-8')), header=None)

# データに名前をつける(データを扱いやすくするため)

mush_data.columns = ["classes", "cap_shape", "cap_surface", "cap_color", "odor", "bruises",

"gill_attachment", "gill_spacing", "gill_size", "gill_color", "stalk_shape",

"stalk_root", "stalk_surface_above_ring", "stalk_surface_below_ring",

"stalk_color_above_ring", "stalk_color_below_ring", "veil_type", "veil_color",

"ring_number", "ring_type", "spore_print_color", "population", "habitat"]

# カテゴリー変数(色の種類など数字の大小が決められないもの)をダミー特徴量(yes or no)として変換する

mush_data_dummy = pd.get_dummies(

mush_data[['gill_color', 'gill_attachment', 'odor', 'cap_color']])

# 目的変数：flg立てをする

mush_data_dummy["flg"] = mush_data["classes"].map(

lambda x: 1 if x == 'p' else 0)

# 説明変数と目的変数

X = mush_data_dummy.drop("flg", axis=1)

Y = mush_data_dummy['flg']

# 学習データとテストデータに分ける

train_X, test_X, train_y, test_y = train_test_split(X,Y, random_state=42)

# 以下にコードを記述してください。

# モデルの読み込み

from sklearn.tree import DecisionTreeClassifier

# モデルの構築

model = DecisionTreeClassifier()

# モデルの学習

model.fit(train_X, train_y)

# 正解率を算出

print(model.score(test_X, test_y))

非線形svm カーネル関数

2017年12月13日 by 河副太智 Leave a Comment

左側の (x, y) 平面上の点を分類する場合、
このままだと線形分類器（直線で分類するアルゴリズム）ではうまく分類できないのが、
右図のように z 軸を追加してデータを変形すると、
平面できれいに分割できるようになって、線形分類器による分類がうまくいくというものです。
このように、高次元空間にデータを埋め込むことでうまいこと分類するのが
カーネル法の仕組みだというわけです。

svc = サポートベクターマシン

from sklearn.svm import LinearSVC
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_gaussian_quantiles

# データの生成
X, y = make_gaussian_quantiles(
    n_samples=1000, n_classes=2, n_features=2, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 以下にコードを記述してください
# モデルの構築
model1 = SVC(random_state=42)
model2 = LinearSVC(random_state=42)#これは線形

# train_Xとtrain_yを使ってモデルに学習させる
model1.fit(train_X, train_y)
model2.fit(train_X, train_y)

# test_Xに対するモデルの分類予測結果
print("非線形SVM: {}".format(model1.score(test_X, test_y)))
print("線形SVM: {}".format(model2.score(test_X, test_y)))

from sklearn.svm import LinearSVC

from sklearn.svm import SVC

from sklearn.model_selection import train_test_split

from sklearn.datasets import make_gaussian_quantiles

# データの生成

X, y = make_gaussian_quantiles(

n_samples=1000, n_classes=2, n_features=2, random_state=42)

train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 以下にコードを記述してください

# モデルの構築

model1 = SVC(random_state=42)

model2 = LinearSVC(random_state=42)#これは線形

# train_Xとtrain_yを使ってモデルに学習させる

model1.fit(train_X, train_y)

model2.fit(train_X, train_y)

# test_Xに対するモデルの分類予測結果

print("非線形SVM: {}".format(model1.score(test_X, test_y)))

print("線形SVM: {}".format(model2.score(test_X, test_y)))

線形svm

2017年12月13日 by 河副太智 Leave a Comment

# パッケージをインポート
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn.svm import LinearSVC
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
# ページ上で直接グラフが見られるようにするおまじない
%matplotlib inline

# データの生成
X, y = make_classification(n_samples=100, n_features=2,
                           n_redundant=0, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 以下にコードを記述してください
# モデルの構築
model = LinearSVC(random_state=42)

# train_Xとtrain_yを使ってモデルに学習させる
model.fit(train_X, train_y)

# test_Xとtest_yを用いたモデルの正解率を出力
print(model.score(test_X, test_y))

# 生成したデータをプロット
plt.scatter(X[:, 0], X[:, 1], c=y, marker='.',
            cmap=matplotlib.cm.get_cmap(name='bwr'), alpha=0.7)

# 学習して導出した識別境界線をプロット
Xi = np.linspace(-10, 10)
Y = -model.coef_[0][0] / model.coef_[0][1] * Xi - model.intercept_ / model.coef_[0][1]
plt.plot(Xi, Y)

# グラフのスケールを調整
plt.xlim(min(X[:, 0]) - 0.5, max(X[:, 0]) + 0.5)
plt.ylim(min(X[:, 1]) - 0.5, max(X[:, 1]) + 0.5)
plt.axes().set_aspect('equal', 'datalim')
# グラフにタイトルを設定する
plt.title("classification data using LinearSVC")
# x軸、y軸それぞれに名前を設定する
plt.xlabel("x-axis")
plt.ylabel("y-axis")
plt.show()

# パッケージをインポート

import numpy as np

import matplotlib

import matplotlib.pyplot as plt

from sklearn.svm import LinearSVC

from sklearn.model_selection import train_test_split

from sklearn.datasets import make_classification

# ページ上で直接グラフが見られるようにするおまじない

%matplotlib inline

# データの生成

X, y = make_classification(n_samples=100, n_features=2,

n_redundant=0, random_state=42)

train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 以下にコードを記述してください

# モデルの構築

model = LinearSVC(random_state=42)

# train_Xとtrain_yを使ってモデルに学習させる

model.fit(train_X, train_y)

# test_Xとtest_yを用いたモデルの正解率を出力

print(model.score(test_X, test_y))

# 生成したデータをプロット

plt.scatter(X[:, 0], X[:, 1], c=y, marker='.',

cmap=matplotlib.cm.get_cmap(name='bwr'), alpha=0.7)

# 学習して導出した識別境界線をプロット

Xi = np.linspace(-10, 10)

Y = -model.coef_[0][0] / model.coef_[0][1] * Xi - model.intercept_ / model.coef_[0][1]

plt.plot(Xi, Y)

# グラフのスケールを調整

plt.xlim(min(X[:, 0]) - 0.5, max(X[:, 0]) + 0.5)

plt.ylim(min(X[:, 1]) - 0.5, max(X[:, 1]) + 0.5)

plt.axes().set_aspect('equal', 'datalim')

# グラフにタイトルを設定する

plt.title("classification data using LinearSVC")

# x軸、y軸それぞれに名前を設定する

plt.xlabel("x-axis")

plt.ylabel("y-axis")

plt.show()

データを分割(教師あり)

2017年12月13日 by 河副太智 Leave a Comment

データセットの全てを使って学習テストをしては意味がない

train_test_split 関数を使ってデータを分割
train_test_split 関数はデータをランダムに、指定割合で分割できる

X_train: トレーニング用の特徴行列（「アルコール度数」「密度」「クエン酸」などのデータ）
X_test: テスト用の特徴行列
y_train: トレーニング用の目的変数（「美味しいワイン」か「そうでもないワインか」）
y_test: テスト用の目的変数
train_test_split には以下のような引数を与える

第一引数: 特徴行列 X
第二引数: 目的変数 y
test_size=: テスト用のデータを何割の大きさにするか
test_size=0.3 で、3割をテスト用のデータとして置いておけます
random_state=: データを分割する際の乱数のシード値
同じ結果が返るように 0 を指定、これは勉強用であり普段は指定しない

from sklearn.model_selection import train_test_split
(X_train, X_test,
 y_train, y_test) = train_test_split(
    X, y, test_size=0.3, random_state=0,#Xとyには既にデータセットが代入されている
)

from sklearn.model_selection import train_test_split

(X_train, X_test,

y_train, y_test) = train_test_split(

X, y, test_size=0.3, random_state=0,#Xとyには既にデータセットが代入されている

)

その他の分割方法

①学習データとターゲットデータがきれいに分割されている場合

from sklearn.model_selection importtrain_test_split
X_train,X_test,y_train,y_test = train_test_split(
    iris_dataset["data"],iris_dataset["target"],random_state=0)

from sklearn.model_selection importtrain_test_split

X_train,X_test,y_train,y_test = train_test_split(

iris_dataset["data"],iris_dataset["target"],random_state=0)

②データフレームに複数のカラムがあり、そのうち一つのカラムをターゲットにする場合

train_X = df.drop('Survived', axis=1)#ターゲット変数以外を学習データとしてtrain_Xへ
train_y = df.Survived #ターゲット変数のカラムのみをtrain_yへ

#更にtrain_X, train_yをtest_X,test_yに7:3で分割する
(train_X, test_X ,train_y, test_y) = train_test_split(train_X, train_y, test_size = 0.3, random_state = 666)

train_X = df.drop('Survived', axis=1)#ターゲット変数以外を学習データとしてtrain_Xへ

train_y = df.Survived #ターゲット変数のカラムのみをtrain_yへ

#更にtrain_X, train_yをtest_X,test_yに7:3で分割する

(train_X, test_X ,train_y, test_y) = train_test_split(train_X, train_y, test_size = 0.3, random_state = 666)

ロジスティック回帰

2017年12月13日 by 河副太智 Leave a Comment

ロジスティック回帰は線形分離可能なデータの境界線を学習によって見つけてデータの分類を行なう手法です。

特徴としては境界線が直線になることです。
また、データがクラスに分類される確率も計算することが可能です。

欠点としては教師データが線形分離可能でないと分類ができないということです。
また、教師データから学習した境界線はクラスの端にあるデータのすぐそばを通るようになるため、一般化した境界線になりにくい（汎化能力が低い）ことも欠点です。

実装
ロジスティック回帰モデルはscikit-learnライブラリのlinear_modelサブモジュール内にLogisticRegression()として定義されています。
ロジスティック回帰モデルを使って学習する場合、次のようなコードを書いてモデルを呼び出します。
# パッケージからモデルを呼び出す
from sklearn.linear_model import LogisticRegression

# モデルを構築する
model = LogisticRegression()

# モデルに学習させる
# train_data_detailはデータのカテゴリーを予測するために使う情報をまとめたもの
# train_data_labelはデータの属するクラスのラベル
model.fit(train_data_detail, train_data_label)

# モデルに予測させる
model.predict(data_detail)

# モデルの予測結果の正解率
model.score(data_detail, data_true_label)
今回は座標によって属するクラスを識別しているため、グラフでモデルがどのような境界線を学習したのか見ることができます。
境界線は直線なので、y = ax+b の形で表現されます、以下のXi, Yはその直線を求めている過程になります。
グラフの視覚化にはmatplotlibライブラリを使います。
# パッケージをインポート
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
# ページ上で直接グラフが見られるようにするおまじない
%matplotlib inline

# 生成したデータをプロット
plt.scatter(X[:, 0], X[:, 1], c=y, marker=’.’,
cmap=matplotlib.cm.get_cmap(name=’bwr’), alpha=0.7)

# 学習して導出した識別境界線をプロット
# model.coef_はデータの各要素の重み（傾き）を、
# model.intercept_はデータの要素全部に対する補正（切片）を表す。
Xi = np.linspace(-10, 10)
Y = -model.coef_[0][0] / model.coef_[0][1] * \
Xi – model.intercept_ / model.coef_[0][1]
plt.plot(Xi, Y)

# グラフのスケールを調整
plt.xlim(min(X[:, 0]) – 0.5, max(X[:, 0]) + 0.5)
plt.ylim(min(X[:, 1]) – 0.5, max(X[:, 1]) + 0.5)
plt.axes().set_aspect(‘equal’, ‘datalim’)
# グラフにタイトルを設定する
plt.title(“classification data using LogisticRegression”)
# x軸、y軸それぞれに名前を設定する
plt.xlabel(“x-axis”)
plt.ylabel(“y-axis”)
plt.show()

# パッケージをインポート
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
# ページ上で直接グラフが見られるようにするおまじない
%matplotlib inline

# データの生成
X, y = make_classification(n_samples=100, n_features=2,
                           n_redundant=0, random_state=42)
train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 以下にコードを記述してください
# モデルの構築
model = LogisticRegression(random_state=42)

# train_Xとtrain_yを使ってモデルに学習させる
model.fit(train_X, train_y)

# test_Xに対するモデルの分類予測結果
pred_y = model.predict(test_X)

# 生成したデータをプロット
plt.scatter(X[:, 0], X[:, 1], c=y, marker='.',
            cmap=matplotlib.cm.get_cmap(name='bwr'), alpha=0.7)

# 学習して導出した識別境界線をプロット
Xi = np.linspace(-10, 10)
Y = -model.coef_[0][0] / model.coef_[0][1] * \
    Xi - model.intercept_ / model.coef_[0][1]
plt.plot(Xi, Y)

# グラフのスケールを調整
plt.xlim(min(X[:, 0]) - 0.5, max(X[:, 0]) + 0.5)
plt.ylim(min(X[:, 1]) - 0.5, max(X[:, 1]) + 0.5)
plt.axes().set_aspect('equal', 'datalim')
# グラフにタイトルを設定する
plt.title("classification data using LogisticRegression")
# x軸、y軸それぞれに名前を設定する
plt.xlabel("x-axis")
plt.ylabel("y-axis")
plt.show()

# パッケージをインポート

import numpy as np

import matplotlib

import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression

from sklearn.model_selection import train_test_split

from sklearn.datasets import make_classification

# ページ上で直接グラフが見られるようにするおまじない

%matplotlib inline

# データの生成

X, y = make_classification(n_samples=100, n_features=2,

n_redundant=0, random_state=42)

train_X, test_X, train_y, test_y = train_test_split(X, y, random_state=42)

# 以下にコードを記述してください

# モデルの構築

model = LogisticRegression(random_state=42)

# train_Xとtrain_yを使ってモデルに学習させる

model.fit(train_X, train_y)

# test_Xに対するモデルの分類予測結果

pred_y = model.predict(test_X)

# 生成したデータをプロット

plt.scatter(X[:, 0], X[:, 1], c=y, marker='.',

cmap=matplotlib.cm.get_cmap(name='bwr'), alpha=0.7)

# 学習して導出した識別境界線をプロット

Xi = np.linspace(-10, 10)

Y = -model.coef_[0][0] / model.coef_[0][1] * \

Xi - model.intercept_ / model.coef_[0][1]

plt.plot(Xi, Y)

# グラフのスケールを調整

plt.xlim(min(X[:, 0]) - 0.5, max(X[:, 0]) + 0.5)

plt.ylim(min(X[:, 1]) - 0.5, max(X[:, 1]) + 0.5)

plt.axes().set_aspect('equal', 'datalim')

# グラフにタイトルを設定する

plt.title("classification data using LogisticRegression")

# x軸、y軸それぞれに名前を設定する

plt.xlabel("x-axis")

plt.ylabel("y-axis")

plt.show()

scikit-learnで学習と予測

2017年12月13日 by 河副太智 Leave a Comment

機械学習において、学習方法は複数存在します。
学習方法のことをモデルと呼ぶことにします。
(厳密には学習方法ではなく教師データから学習を行い、ラベルを予測するまでの一連の流れの概形のことを指します。)

また、機械学習によってデータの分類ができるプログラムのことを分類器と呼ぶことにしましょう。

機械学習のモデルを全て自分で実装するのは大変ですが、
Pythonには機械学習に特化したライブラリがたくさん存在します。
その中でもscikit-learnは機械学習のモデルがあらかじめ用意されたライブラリです。

架空のモデルClassifierを例にした使い方は下のコードを見てください。
# モジュールのインポート
# モデルごとに別のモジュールを参照する
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC, SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

# モデルの構築
model = Classifier()
# モデルの学習
model.fit(train_X, train_y)
# モデルによるデータの予測
model.predict(test_X)

# モデルの正解率
# 正解率は (モデルの予測した分類と実際の分類が一致したデータの数) ÷ (データの総数) で算出される
model.score(test_X, test_y)