プログラミング

LSTMネットワークでデータ予測と結果の評価

2017年12月28日 by 河副太智 Leave a Comment

trainPredict = model.predict(trainX)
testPredict = model.predict(testX)

trainPredict = scaler_train.inverse_transform(trainPredict)
trainY = scaler_train.inverse_transform([trainY])
testPredict = scaler_train.inverse_transform(testPredict)
testY = scaler_train.inverse_transform([testY])

trainScore = math.sqrt(mean_squared_error(trainY[0], trainPredict[:,0]))
print('Train Score: %.2f RMSE' % (trainScore))
testScore = math.sqrt(mean_squared_error(testY[0], testPredict[:,0]))
print('Test Score: %.2f RMSE' % (testScore))

trainPredict = model.predict(trainX)

testPredict = model.predict(testX)

trainPredict = scaler_train.inverse_transform(trainPredict)

trainY = scaler_train.inverse_transform([trainY])

testPredict = scaler_train.inverse_transform(testPredict)

testY = scaler_train.inverse_transform([testY])

trainScore = math.sqrt(mean_squared_error(trainY[0], trainPredict[:,0]))

print('Train Score: %.2f RMSE' % (trainScore))

testScore = math.sqrt(mean_squared_error(testY[0], testPredict[:,0]))

print('Test Score: %.2f RMSE' % (testScore))

データをLSTMに合わせる

2017年12月28日 by 河副太智 Leave a Comment

データをLSTMで分析できるように形を整る
[行数], [変数数], [カラム数(ルックバック数)]の形式に変換

trainX = numpy.reshape(trainX, (trainX.shape[0], 1, trainX.shape[1]))
testX = numpy.reshape(testX, (testX.shape[0], 1, testX.shape[1]))

1 2	trainX = numpy.reshape(trainX, (trainX.shape[0], 1, trainX.shape[1])) testX = numpy.reshape(testX, (testX.shape[0], 1, testX.shape[1]))

教師無しの入力データ、教師データの作成

2017年12月28日 by 河副太智 Leave a Comment

LSTMの予想ではある時点からいくつか前のデータを用いて
次の時点のデータを予測し教師データを作成する

入力データがある地点からいくつか前の点のデータ
教師データは次の時点のデータとなるように
入力データ、教師データを作成

次の関数のlook_back=nのnが「いくつ前のデータを利用するか」を設定

def create_dataset(dataset, look_back):
    dataX, dataY = [], []
    for i in range(len(dataset)-look_back-1):
        a = dataset[i:(i+look_back), 0]
        dataX.append(a)
        dataY.append(dataset[i + look_back, 0])
    return numpy.array(dataX), numpy.array(dataY)

look_back = 10
trainX, trainY = create_dataset(train, look_back)
testX, testY = create_dataset(test, look_back)

def create_dataset(dataset, look_back):

dataX, dataY = [], []

for i in range(len(dataset)-look_back-1):

a = dataset[i:(i+look_back), 0]

dataX.append(a)

dataY.append(dataset[i + look_back, 0])

return numpy.array(dataX), numpy.array(dataY)

look_back = 10

trainX, trainY = create_dataset(train, look_back)

testX, testY = create_dataset(test, look_back)

LSTMでデータを0-1の値にスケーリング

2017年12月28日 by 河副太智 Leave a Comment

KerasでLSTMを構築する際はデータを0-1の値にスケーリングした方が結果が安定
但し、データをすべて用いてスケーリングすると、
訓練データにテストデータの情報が混入する事になる

データの最大値が1、最小値が0になるように加工する。
例えば訓練データに1に近い値がない場合には、
テストデータに最大値があるという事になる

訓練データを基準にデータ訓練データのスケーリングするには

# データのスケーリング
scaler = MinMaxScaler(feature_range=(0, 1))
#trainに入っているデータを基準にスケーリングすることを定義
scaler_train = scaler.fit(train)
#trainデータのスケーリング
train = scaler_train.transform(train)
#testデータのスケーリング
test = scaler_train.transform(test)

# データのスケーリング

scaler = MinMaxScaler(feature_range=(0, 1))

#trainに入っているデータを基準にスケーリングすることを定義

scaler_train = scaler.fit(train)

#trainデータのスケーリング

train = scaler_train.transform(train)

#testデータのスケーリング

test = scaler_train.transform(test)

LSTM時系列データ予測

2017年12月28日 by 河副太智 Leave a Comment

LSTM(長短期記憶ユニット)とはRNN(再帰型ネットワーク)のひとつ
時系列データの解析、言語の解析、音声の解析、売上予測等に使用。

RNNには長期間の時系列を保持することが難しいが、
inputgateやfogetgate、ouputgateで問題がクリアできる。

import numpy
import matplotlib.pyplot as plt
from pandas import read_csv
import math
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import LSTM
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error
# データセットの作成
def create_dataset(dataset, look_back):
	dataX, dataY = [], []
	for i in range(len(dataset)-look_back-1):
		a = dataset[i:(i+look_back), 0]
		dataX.append(a)
		dataY.append(dataset[i + look_back, 0])
	return numpy.array(dataX), numpy.array(dataY)
# 乱数設定
numpy.random.seed(7)
# データセット読み込み
dataframe = read_csv('monthly-champagne-sales-in-1000s.csv', usecols=[1], engine='python', skipfooter=3)
dataset = dataframe.values
dataset = dataset.astype('float32')
# 訓練データ、テストデータ
train_size = int(len(dataset) * 0.67)
test_size = len(dataset) - train_size
train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:]

# データスケーリング
scaler = MinMaxScaler(feature_range=(0, 1))
scaler_train = scaler.fit(train)
train = scaler_train.transform(train)
test = scaler_train.transform(test)

# データ作成
look_back = 10
trainX, trainY = create_dataset(train, look_back)
testX, testY = create_dataset(test, look_back)
# データ整形
trainX = numpy.reshape(trainX, (trainX.shape[0], trainX.shape[1], 1))
testX = numpy.reshape(testX, (testX.shape[0], testX.shape[1], 1))
# LSTMモデルの作成と学習
model = Sequential()
model.add(LSTM(64, return_sequences=True,input_shape=(look_back, 1)))
model.add(LSTM(32))
model.add(Dense(1))
model.compile(loss='mean_squared_error', optimizer='adam')
model.fit(trainX, trainY, epochs=10, batch_size=1, verbose=2)
# 予測データの作成
trainPredict = model.predict(trainX)
testPredict = model.predict(testX)
# スケールしたデータを元に戻す
trainPredict = scaler_train.inverse_transform(trainPredict)
trainY = scaler_train.inverse_transform([trainY])
testPredict = scaler_train.inverse_transform(testPredict)
testY = scaler_train.inverse_transform([testY])
# 予測精度の計算
trainScore = math.sqrt(mean_squared_error(trainY[0], trainPredict[:,0]))
print('Train Score: %.2f RMSE' % (trainScore))
testScore = math.sqrt(mean_squared_error(testY[0], testPredict[:,0]))
print('Test Score: %.2f RMSE' % (testScore))
# プロットのためのデータ整形
trainPredictPlot = numpy.empty_like(dataset)
trainPredictPlot[:, :] = numpy.nan
trainPredictPlot[look_back:len(trainPredict)+look_back, :] = trainPredict
testPredictPlot = numpy.empty_like(dataset)
testPredictPlot[:, :] = numpy.nan
testPredictPlot[len(trainPredict)+(look_back*2)+1:len(dataset)-1, :] = testPredict
# テストデータのプロット
plt.plot(dataframe[round(len(dataset)*0.67):])
plt.plot(testPredictPlot)
plt.show()

import numpy

import matplotlib.pyplot as plt

from pandas import read_csv

import math

from keras.models import Sequential

from keras.layers import Dense

from keras.layers import LSTM

from sklearn.preprocessing import MinMaxScaler

from sklearn.metrics import mean_squared_error

# データセットの作成

def create_dataset(dataset, look_back):

dataX, dataY = [], []

for i in range(len(dataset)-look_back-1):

a = dataset[i:(i+look_back), 0]

dataX.append(a)

dataY.append(dataset[i + look_back, 0])

return numpy.array(dataX), numpy.array(dataY)

# 乱数設定

numpy.random.seed(7)

# データセット読み込み

dataframe = read_csv('monthly-champagne-sales-in-1000s.csv', usecols=[1], engine='python', skipfooter=3)

dataset = dataframe.values

dataset = dataset.astype('float32')

# 訓練データ、テストデータ

train_size = int(len(dataset) * 0.67)

test_size = len(dataset) - train_size

train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:]

# データスケーリング

scaler = MinMaxScaler(feature_range=(0, 1))

scaler_train = scaler.fit(train)

train = scaler_train.transform(train)

test = scaler_train.transform(test)

# データ作成

look_back = 10

trainX, trainY = create_dataset(train, look_back)

testX, testY = create_dataset(test, look_back)

# データ整形

trainX = numpy.reshape(trainX, (trainX.shape[0], trainX.shape[1], 1))

testX = numpy.reshape(testX, (testX.shape[0], testX.shape[1], 1))

# LSTMモデルの作成と学習

model = Sequential()

model.add(LSTM(64, return_sequences=True,input_shape=(look_back, 1)))

model.add(LSTM(32))

model.add(Dense(1))

model.compile(loss='mean_squared_error', optimizer='adam')

model.fit(trainX, trainY, epochs=10, batch_size=1, verbose=2)

# 予測データの作成

trainPredict = model.predict(trainX)

testPredict = model.predict(testX)

# スケールしたデータを元に戻す

trainPredict = scaler_train.inverse_transform(trainPredict)

trainY = scaler_train.inverse_transform([trainY])

testPredict = scaler_train.inverse_transform(testPredict)

testY = scaler_train.inverse_transform([testY])

# 予測精度の計算

trainScore = math.sqrt(mean_squared_error(trainY[0], trainPredict[:,0]))

print('Train Score: %.2f RMSE' % (trainScore))

testScore = math.sqrt(mean_squared_error(testY[0], testPredict[:,0]))

print('Test Score: %.2f RMSE' % (testScore))

# プロットのためのデータ整形

trainPredictPlot = numpy.empty_like(dataset)

trainPredictPlot[:, :] = numpy.nan

trainPredictPlot[look_back:len(trainPredict)+look_back, :] = trainPredict

testPredictPlot = numpy.empty_like(dataset)

testPredictPlot[:, :] = numpy.nan

testPredictPlot[len(trainPredict)+(look_back*2)+1:len(dataset)-1, :] = testPredict

# テストデータのプロット

plt.plot(dataframe[round(len(dataset)*0.67):])

plt.plot(testPredictPlot)

plt.show()

訓練データ、テストデータの作成

2017年12月27日 by 河副太智 Leave a Comment

データを訓練用と訓練用に分ける

時系列分析の場合は前回のデータを基にするのでランダムにしない
一般的な分別の場合はランダムに分ける

◆一般的な分析の場合

y = data.quality
X = data.drop('quality', axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
test_size=0.2,random_state=123,stratify=y)

y = data.quality

X = data.drop('quality', axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y,

test_size=0.2,random_state=123,stratify=y)

◆時系列分析の場合

前半67%を訓練用、残りはテスト用

train_size = int(len(dataset) * 0.67)
test_size = len(dataset) - train_size
train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:]
print(len(train), len(test))

train_size = int(len(dataset) * 0.67)

test_size = len(dataset) - train_size

train, test = dataset[0:train_size,:], dataset[train_size:len(dataset),:]

print(len(train), len(test))