カテゴリー: プログラミング

import csv
import numpy as np

#素数は2以上なので0から開始lastは任意の数
own_nm = 0
last = 11

#任意の数の整数値を出す
a = np.array(np.arange(2,last))

#設定した整数値の数だけ回す
for i in range((len(a))-1):
    #自身の数を削除
    own_delated = np.delete(a,own_nm)
    
    
    
    
#     for x in range((len(own_delated))):
#         if own_delated[x] % 




#次の数値の素数判定    
    own_nm += 1
    
    
print(own_delated)

import csv

import numpy as np

#素数は2以上なので0から開始lastは任意の数

own_nm = 0

last = 11

#任意の数の整数値を出す

a = np.array(np.arange(2,last))

#設定した整数値の数だけ回す

for i in range((len(a))-1):

#自身の数を削除

own_delated = np.delete(a,own_nm)

# for x in range((len(own_delated))):

# if own_delated[x] %

#次の数値の素数判定

own_nm += 1

print(own_delated)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
%matplotlib inline

#データの読込み
df = pd.read_csv('train.csv')

#欠損値処理1　Fareは平均値、乗船地は一般的なSを代入
df['Fare'] = df['Fare'].fillna(df['Fare'].median())
df['Embarked'] = df['Embarked'].fillna('S')

#欠損地処理2
#年齢をfillnaで平均を取るとランダムフォレストの結果が
#訓練スコア　　0.96
#テストスコア　0.80
#年齢は学習において重要なのでNaの場合行ごと削除した結果
#訓練スコア　　0.98
#テストスコア　0.81に上昇した
df=df.dropna(subset=['Age'])

#カテゴリ変数の変換
df['Sex'] = df['Sex'].apply(lambda x: 1 if x == 'male' else 0)
df['Embarked'] = df['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)


#学習に不要と思われるデータを削除
df = df.drop(['Cabin','Name','PassengerId','Ticket'],axis=1)


#訓練データとテストデータに分離
train_X = df.drop('Survived', axis=1)
train_y = df.Survived
(train_X, test_X ,train_y, test_y) = train_test_split(train_X, train_y, test_size = 0.3, random_state = 666)



#複数のモデル構築でどの分類器がベストかを調べる
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import Ridge


#決定木
ki = DecisionTreeClassifier(random_state=0).fit(train_X, train_y)

#ランダムフォレスト
mori = RandomForestClassifier(random_state=0).fit(train_X,train_y)

#ロジスティック回帰
logi = LogisticRegression(C=0.1).fit(train_X,train_y)

#KNN
KNN = KNeighborsClassifier(4).fit(train_X,train_y)

#SVC
svc = SVC(probability=True).fit(train_X,train_y)

#linear
linear = LinearRegression().fit(train_X,train_y)

#ridge
ridge = Ridge(alpha=1).fit(train_X,train_y)


data ={"clf": ["tree", "forest","logistic","KNN","svc","Linear","Ridge"],
      "traning score":[(ki.score(train_X,train_y)),(mori.score(train_X,train_y)),
                      (logi.score(train_X,train_y)),(KNN.score(train_X,train_y)),
                      (svc.score(train_X,train_y)),(linear.score(train_X,train_y)),
                       (ridge.score(train_X,train_y))],      
      "test score":[(ki.score(test_X,test_y)),(mori.score(test_X,test_y)),
                   logi.score(train_X,train_y),(KNN.score(test_X,test_y)),
                   (svc.score(test_X,test_y)),(linear.score(train_X,train_y)),(ridge.score(train_X,train_y))]
      }

frame = pd.DataFrame(data,index=["tree", "forest","logistic","KNN","svc","Linear","Ridge"])


frame.plot(kind="bar")

import pandas as pd

import numpy as np

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.model_selection import train_test_split

%matplotlib inline

#データの読込み

df = pd.read_csv('train.csv')

#欠損値処理1　Fareは平均値、乗船地は一般的なSを代入

df['Fare'] = df['Fare'].fillna(df['Fare'].median())

df['Embarked'] = df['Embarked'].fillna('S')

#欠損地処理2

#年齢をfillnaで平均を取るとランダムフォレストの結果が

#訓練スコア　　0.96

#テストスコア　0.80

#年齢は学習において重要なのでNaの場合行ごと削除した結果

#訓練スコア　　0.98

#テストスコア　0.81に上昇した

df=df.dropna(subset=['Age'])

#カテゴリ変数の変換

df['Sex'] = df['Sex'].apply(lambda x: 1 if x == 'male' else 0)

df['Embarked'] = df['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)

#学習に不要と思われるデータを削除

df = df.drop(['Cabin','Name','PassengerId','Ticket'],axis=1)

#訓練データとテストデータに分離

train_X = df.drop('Survived', axis=1)

train_y = df.Survived

(train_X, test_X ,train_y, test_y) = train_test_split(train_X, train_y, test_size = 0.3, random_state = 666)

#複数のモデル構築でどの分類器がベストかを調べる

from sklearn.tree import DecisionTreeClassifier

from sklearn.ensemble import RandomForestClassifier

from sklearn.linear_model import LogisticRegression

from sklearn.neighbors import KNeighborsClassifier

from sklearn.svm import SVC

from sklearn.linear_model import LinearRegression

from sklearn.linear_model import Ridge

#決定木

ki = DecisionTreeClassifier(random_state=0).fit(train_X, train_y)

#ランダムフォレスト

mori = RandomForestClassifier(random_state=0).fit(train_X,train_y)

#ロジスティック回帰

logi = LogisticRegression(C=0.1).fit(train_X,train_y)

#KNN

KNN = KNeighborsClassifier(4).fit(train_X,train_y)

#SVC

svc = SVC(probability=True).fit(train_X,train_y)

#linear

linear = LinearRegression().fit(train_X,train_y)

#ridge

ridge = Ridge(alpha=1).fit(train_X,train_y)

data ={"clf": ["tree", "forest","logistic","KNN","svc","Linear","Ridge"],

"traning score":[(ki.score(train_X,train_y)),(mori.score(train_X,train_y)),

(logi.score(train_X,train_y)),(KNN.score(train_X,train_y)),

(svc.score(train_X,train_y)),(linear.score(train_X,train_y)),

(ridge.score(train_X,train_y))],

"test score":[(ki.score(test_X,test_y)),(mori.score(test_X,test_y)),

logi.score(train_X,train_y),(KNN.score(test_X,test_y)),

(svc.score(test_X,test_y)),(linear.score(train_X,train_y)),(ridge.score(train_X,train_y))]

}

frame = pd.DataFrame(data,index=["tree", "forest","logistic","KNN","svc","Linear","Ridge"])

frame.plot(kind="bar")

素数

タイタニック

機械学習の特徴量抽出を英語で

複数のグラフを表示

matplotlibでグラフをpngに変換

‘int’ object is not iterableが出た場合