ユーザーがアイリスの形状を4種類指定して、
それがどの種類のアイリスになるのかを予測する
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
import numpy as np import matplotlib.pyplot as plt import pandas as pd import sklearn import mglearn from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from IPython.display import display from sklearn.neighbors import KNeighborsClassifier %matplotlib inline iris_dataset = load_iris() #花の特徴左からガクの長さ、ガクの幅、花弁の長さ、花弁の幅 #トータル150のデータの内10個を表示 print("◆最初の10個のカラムデータ:\n\n{}".format(iris_dataset["data"][:10])) #上記のdataに対する答え [0=setosa,1=versicolor,2=virginica] print("\n◆上記データに対する答え [0=setosa,1=versicolor,2=virginica]:\n{}".format(iris_dataset["target"][:10])) #学習用に75%テスト用に25%に分ける X_train,X_test,y_train, y_test = train_test_split( iris_dataset["data"],iris_dataset["target"],random_state=0) #X_trainは(112, 4)となる、これは上記で75%に分けた112の花びらのデータ数と #そのデータの要素4つ分になる print("\n◆75%に分けた112の花びらのデータ数とそのデータの要素4つ:\n{}".format(X_train.shape)) #y_trainは(112)となる、これは上記で75%に分けた花びらの種類の答え(0,1,2)の #どれか一つが入っている print("\n◆75%に分けた花びらの種類の答え(0,1,2)のどれか一つ:\n{}".format(y_train.shape)) #X_testは(38,4)となるこれは上記で25%に分けた38の花びらのデータ数と #そのデータの要素4つ分になる print("\n◆25%に分けた38の花びらのデータ数とそのデータの要素4つ分:\n{}".format(X_test.shape)) #y_test shapeは(38.)となるこれは上記で25%に分けた花びらの種類の答え(0,1,2)の #どれか一つが入っている print("\n◆25%に分けた38の花びらの種類の答え(0,1,2)のどれか一つ:\n{}".format(y_test.shape)) #[データの検査] #答えである(0,1,2)がある程度分離できているかどうかを可視化する #アイリスの種類ごとに色を変えて表示する、この場合は3点がある程度分離できていれば #訓練できる可能性が高いと言える、逆にゴチャゴチャであれば学習は難しい #1.X_trainのデータからDataFrameを作る #iris_dataset.feature_namesの文字列をつかってカラムに名前を付ける iris_dataframe = pd.DataFrame(X_train,columns=iris_dataset.feature_names) #データフレームからscatter matrixを作成し、y_trainに従って色をつける pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker="o", hist_kwds={"bins":20},s=60,alpha=.8,cmap=mglearn.cm3) #KNeighborsClassifierをfitで(X_train,y_train)を予測 knn = KNeighborsClassifier(n_neighbors=1) knn.fit(X_train,y_train) #KNeighborsClassifierにて行った予測の精度を確認 print("◆KNeighborsClassifierにて行った予測の精度を確認:\n{:.2f}".format(knn.score(X_test, y_test))) #ユーザーからの問いに対する予測を行う[5,2.9,1,0.2]がユーザーからの問い X_new = np.array([[5,2.9,1,0.2]]) #元のX_test.shapeと同じ配列でなければいけないので配列形式を確認 print("◆元のデータの配列形式:\n{}".format(iris_dataset["data"][:1])) print("◆ユーザーデータの配列形式(元と同じ形なのでOK):\n{}".format(X_new)) prediction = knn.predict(X_new) print("◆0,1,2のどれを選択したか:\n{}".format(prediction)) print("◆ターゲット(花の名前):\n{}".format(iris_dataset["target_names"][prediction])) |
結果
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 |
◆最初の10個のカラムデータ: [[ 5.1 3.5 1.4 0.2] [ 4.9 3. 1.4 0.2] [ 4.7 3.2 1.3 0.2] [ 4.6 3.1 1.5 0.2] [ 5. 3.6 1.4 0.2] [ 5.4 3.9 1.7 0.4] [ 4.6 3.4 1.4 0.3] [ 5. 3.4 1.5 0.2] [ 4.4 2.9 1.4 0.2] [ 4.9 3.1 1.5 0.1]] ◆上記データに対する答え [0=setosa,1=versicolor,2=virginica]: [0 0 0 0 0 0 0 0 0 0] ◆75%に分けた112の花びらのデータ数とそのデータの要素4つ: (112, 4) ◆75%に分けた花びらの種類の答え(0,1,2)のどれか一つ: (112,) ◆25%に分けた38の花びらのデータ数とそのデータの要素4つ分: (38, 4) ◆25%に分けた38の花びらの種類の答え(0,1,2)のどれか一つ: (38,) ◆KNeighborsClassifierにて行った予測の精度を確認: 0.97 ◆元のデータの配列形式: [[ 5.1 3.5 1.4 0.2]] ◆ユーザーデータの配列形式(元と同じ形なのでOK): [[ 5. 2.9 1. 0.2]] ◆0,1,2のどれを選択したか: [0] ◆ターゲット(花の名前): ['setosa'] |
コメントを残す