モデルスコア1に近いほど精度が高い
1 2 3 4 5 6 |
from sklearn.metrics import (roc_curve, auc, accuracy_score) pred = clf.predict(test_X) fpr, tpr, thresholds = roc_curve(test_y, pred, pos_label=1) auc(fpr, tpr) accuracy_score(pred, test_y) |
モデルスコア1に近いほど精度が高い
1 2 3 4 5 6 |
from sklearn.metrics import (roc_curve, auc, accuracy_score) pred = clf.predict(test_X) fpr, tpr, thresholds = roc_curve(test_y, pred, pos_label=1) auc(fpr, tpr) accuracy_score(pred, test_y) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 |
Machine LearningPython # Import libraries and modules import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn import preprocessing from sklearn.ensemble import RandomForestRegressor from sklearn.pipeline import make_pipeline from sklearn.model_selection import GridSearchCV from sklearn.metrics import mean_squared_error, r2_score from sklearn.externals import joblib # Load red wine data. dataset_url = 'http://mlr.cs.umass.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv' data = pd.read_csv(dataset_url, sep=';') # Split data into training and test sets y = data.quality X = data.drop('quality', axis=1) X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123, stratify=y) # Declare data preprocessing steps pipeline = make_pipeline(preprocessing.StandardScaler(), RandomForestRegressor(n_estimators=100)) # Declare hyperparameters to tune hyperparameters = { 'randomforestregressor__max_features' : ['auto', 'sqrt', 'log2'], 'randomforestregressor__max_depth': [None, 5, 3, 1]} # Tune model using cross-validation pipeline clf = GridSearchCV(pipeline, hyperparameters, cv=10) clf.fit(X_train, y_train) # Refit on the entire training set # No additional code needed if clf.refit == True (default is True) # Evaluate model pipeline on test data pred = clf.predict(X_test) print r2_score(y_test, pred) print mean_squared_error(y_test, pred) # Save model for future use joblib.dump(clf, 'rf_regressor.pkl') # To load: clf2 = joblib.load('rf_regressor.pkl') |
ユーザーがアイリスの形状を4種類指定して、
それがどの種類のアイリスになるのかを予測する
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
import numpy as np import matplotlib.pyplot as plt import pandas as pd import sklearn import mglearn from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from IPython.display import display from sklearn.neighbors import KNeighborsClassifier %matplotlib inline iris_dataset = load_iris() #花の特徴左からガクの長さ、ガクの幅、花弁の長さ、花弁の幅 #トータル150のデータの内10個を表示 print("◆最初の10個のカラムデータ:\n\n{}".format(iris_dataset["data"][:10])) #上記のdataに対する答え [0=setosa,1=versicolor,2=virginica] print("\n◆上記データに対する答え [0=setosa,1=versicolor,2=virginica]:\n{}".format(iris_dataset["target"][:10])) #学習用に75%テスト用に25%に分ける X_train,X_test,y_train, y_test = train_test_split( iris_dataset["data"],iris_dataset["target"],random_state=0) #X_trainは(112, 4)となる、これは上記で75%に分けた112の花びらのデータ数と #そのデータの要素4つ分になる print("\n◆75%に分けた112の花びらのデータ数とそのデータの要素4つ:\n{}".format(X_train.shape)) #y_trainは(112)となる、これは上記で75%に分けた花びらの種類の答え(0,1,2)の #どれか一つが入っている print("\n◆75%に分けた花びらの種類の答え(0,1,2)のどれか一つ:\n{}".format(y_train.shape)) #X_testは(38,4)となるこれは上記で25%に分けた38の花びらのデータ数と #そのデータの要素4つ分になる print("\n◆25%に分けた38の花びらのデータ数とそのデータの要素4つ分:\n{}".format(X_test.shape)) #y_test shapeは(38.)となるこれは上記で25%に分けた花びらの種類の答え(0,1,2)の #どれか一つが入っている print("\n◆25%に分けた38の花びらの種類の答え(0,1,2)のどれか一つ:\n{}".format(y_test.shape)) #[データの検査] #答えである(0,1,2)がある程度分離できているかどうかを可視化する #アイリスの種類ごとに色を変えて表示する、この場合は3点がある程度分離できていれば #訓練できる可能性が高いと言える、逆にゴチャゴチャであれば学習は難しい #1.X_trainのデータからDataFrameを作る #iris_dataset.feature_namesの文字列をつかってカラムに名前を付ける iris_dataframe = pd.DataFrame(X_train,columns=iris_dataset.feature_names) #データフレームからscatter matrixを作成し、y_trainに従って色をつける pd.plotting.scatter_matrix(iris_dataframe,c=y_train,figsize=(15,15),marker="o", hist_kwds={"bins":20},s=60,alpha=.8,cmap=mglearn.cm3) #KNeighborsClassifierをfitで(X_train,y_train)を予測 knn = KNeighborsClassifier(n_neighbors=1) knn.fit(X_train,y_train) #KNeighborsClassifierにて行った予測の精度を確認 print("◆KNeighborsClassifierにて行った予測の精度を確認:\n{:.2f}".format(knn.score(X_test, y_test))) #ユーザーからの問いに対する予測を行う[5,2.9,1,0.2]がユーザーからの問い X_new = np.array([[5,2.9,1,0.2]]) #元のX_test.shapeと同じ配列でなければいけないので配列形式を確認 print("◆元のデータの配列形式:\n{}".format(iris_dataset["data"][:1])) print("◆ユーザーデータの配列形式(元と同じ形なのでOK):\n{}".format(X_new)) prediction = knn.predict(X_new) print("◆0,1,2のどれを選択したか:\n{}".format(prediction)) print("◆ターゲット(花の名前):\n{}".format(iris_dataset["target_names"][prediction])) |
結果
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 |
◆最初の10個のカラムデータ: [[ 5.1 3.5 1.4 0.2] [ 4.9 3. 1.4 0.2] [ 4.7 3.2 1.3 0.2] [ 4.6 3.1 1.5 0.2] [ 5. 3.6 1.4 0.2] [ 5.4 3.9 1.7 0.4] [ 4.6 3.4 1.4 0.3] [ 5. 3.4 1.5 0.2] [ 4.4 2.9 1.4 0.2] [ 4.9 3.1 1.5 0.1]] ◆上記データに対する答え [0=setosa,1=versicolor,2=virginica]: [0 0 0 0 0 0 0 0 0 0] ◆75%に分けた112の花びらのデータ数とそのデータの要素4つ: (112, 4) ◆75%に分けた花びらの種類の答え(0,1,2)のどれか一つ: (112,) ◆25%に分けた38の花びらのデータ数とそのデータの要素4つ分: (38, 4) ◆25%に分けた38の花びらの種類の答え(0,1,2)のどれか一つ: (38,) ◆KNeighborsClassifierにて行った予測の精度を確認: 0.97 ◆元のデータの配列形式: [[ 5.1 3.5 1.4 0.2]] ◆ユーザーデータの配列形式(元と同じ形なのでOK): [[ 5. 2.9 1. 0.2]] ◆0,1,2のどれを選択したか: [0] ◆ターゲット(花の名前): ['setosa'] |
LSTM時系列解析
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 |
import numpy import matplotlib.pyplot as plt from pandas import read_csv import math from keras.models import Sequential from keras.layers import Dense from keras.layers import LSTM from sklearn.preprocessing import MinMaxScaler from sklearn.metrics import mean_squared_error #以下にコードを書いてください # データセットの作成 def create_dataset(dataset, look_back): dataX, dataY = [], [] for i in range(len(dataset)-look_back-1): a = dataset[i:(i+look_back), 0] dataX.append(a) dataY.append(dataset[i + look_back, 0]) return numpy.array(dataX), numpy.array(dataY) # 乱数設定 numpy.random.seed(7) # データセットの読み込み dataframe = read_csv('nikkei225.csv', usecols=[1], engine='python', skipfooter=3) dataset = dataframe.values dataset = dataset.astype('float32') # 訓練データ、テストデータに分ける train_size = int(len(dataset) * 0.67) test_size = len(dataset) - train_size train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:] # データのスケーリング scaler = MinMaxScaler(feature_range=(0, 1)) scaler_train = scaler.fit(train) train = scaler_train.transform(train) test = scaler_train.transform(test) # データの作成 look_back = 10 trainX, trainY = create_dataset(train, look_back) testX, testY = create_dataset(test, look_back) # データの整形 trainX = numpy.reshape(trainX, (trainX.shape[0], trainX.shape[1], 1)) testX = numpy.reshape(testX, (testX.shape[0], testX.shape[1], 1)) # LSTMモデルの作成と学習 model = Sequential() model.add(LSTM(64, return_sequences=True,input_shape=(look_back, 1))) model.add(LSTM(32)) model.add(Dense(1)) model.compile(loss='mean_squared_error', optimizer='adam') model.fit(trainX, trainY, epochs=10, batch_size=1, verbose=2) # 予測データの作成 trainPredict = model.predict(trainX) testPredict = model.predict(testX) # スケールしたデータを元に戻す trainPredict = scaler_train.inverse_transform(trainPredict) trainY = scaler_train.inverse_transform([trainY]) testPredict = scaler_train.inverse_transform(testPredict) testY = scaler_train.inverse_transform([testY]) # 予測精度の計算 trainScore = math.sqrt(mean_squared_error(trainY[0], trainPredict[:,0])) print('Train Score: %.2f RMSE' % (trainScore)) testScore = math.sqrt(mean_squared_error(testY[0], testPredict[:,0])) print('Test Score: %.2f RMSE' % (testScore)) # プロットのためのデータ整形 trainPredictPlot = numpy.empty_like(dataset) trainPredictPlot[:, :] = numpy.nan trainPredictPlot[look_back:len(trainPredict)+look_back, :] = trainPredict testPredictPlot = numpy.empty_like(dataset) testPredictPlot[:, :] = numpy.nan testPredictPlot[len(trainPredict)+(look_back*2)+1:len(dataset)-1, :] = testPredict # テストデータのプロット plt.plot(dataframe[round(len(dataset)*0.67):]) plt.plot(testPredictPlot) plt.show() |
結果
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
Epoch 1/10 44s - loss: 0.0040 Epoch 2/10 44s - loss: 0.0013 Epoch 3/10 43s - loss: 0.0011 Epoch 4/10 44s - loss: 7.8079e-04 Epoch 5/10 44s - loss: 5.9064e-04 Epoch 6/10 44s - loss: 5.5586e-04 Epoch 7/10 43s - loss: 5.2437e-04 Epoch 8/10 43s - loss: 5.4960e-04 Epoch 9/10 43s - loss: 5.3203e-04 Epoch 10/10 44s - loss: 4.9286e-04 Train Score: 270.96 RMSE Test Score: 144.13 RMSE |
1 2 3 4 5 6 |
# モデルの作成と学習 model = Sequential()#その他学習モデル # 予測データの作成 trainPredict = model.predict(trainX) testPredict = model.predict(testX) |
1 2 3 4 5 6 7 |
# LSTMモデルの作成と学習 model = Sequential() model.add(LSTM(64, return_sequences=True,input_shape=(look_back, 1))) model.add(LSTM(32)) model.add(Dense(1)) model.compile(loss='mean_squared_error', optimizer='adam') model.fit(trainX, trainY, epochs=10, batch_size=1, verbose=2) |