学習記録 – ページ 45

文字コード　UTF-8,Shift JIS

2017年11月30日 by 河副太智 Leave a Comment

UTF-8で書かれた文字列（ファイル）

私の名前は山田太郎です。

1 2	私の名前は山田太郎です。

Shift JISでデコード

遘√�蜷榊燕縺ｯ螻ｱ逕ｰ螟ｪ驛弱〒縺吶

Big 5-Eは中国語繁体字に使われるエンコード形式

遘√�蜷榊燕縺ｯ螻ｱ逕ｰ螟ｪ驛弱〒縺吶

Big 5-Eは中国語繁体字に使われるエンコード形式

df = DataFrame([[20,"F"],[22,"M"],[25,"M"],[27,"M"],[21,"F"],[23,"M"],[37,"F"],[31,"M"],[61,"F"],[45,"M"],[41,"F"],[32,"M"]], columns=["age", "sex"])

print df

"""

age sex

0 20 F

1 22 M

2 25 M

3 27 M

4 21 F

5 23 M

6 37 F

7 31 M

8 61 F

9 45 M

10 41 F

11 32 M

"""

# ビンに分割するときの値

bins = [18, 25, 35, 60, 100]

# ビンの名前

group_names = ["Youth", "YoungAdult", "MiddleAged", "Senior"]

# ビン化

print pd.cut(df.age, bins, labels=group_names)

"""

Categorical:

[Youth, Youth, Youth, YoungAdult, Youth, Youth, nan, YoungAdult, nan, nan, nan, YoungAdult]

Levels (4): Index(['Youth', 'YoungAdult', 'MiddleAged', 'Senior'], dtype=object)

"""

# dfにビンの列を追加

df["bin"] = pd.cut(df.age, bins, labels=group_names)

print df

"""

age sex bin

0 20 F Youth

1 22 M Youth

2 25 M Youth

3 27 M YoungAdult

4 21 F Youth

5 23 M Youth

6 37 F MiddleAged

7 31 M YoungAdult

8 61 F Senior

9 45 M MiddleAged

10 41 F MiddleAged

11 32 M YoungAdult

"""

reshape

2017年11月29日 by 河副太智 Leave a Comment

<span role="presentation"><span class="cm-keyword">リストを2次元配列にする

import</span> <span class="cm-variable">numpy</span> <span class="cm-keyword">as</span> <span class="cm-variable">np</span></span>

				1
2
3

						<span role="presentation"><span class="cm-keyword">リストを2次元配列にする
 
import</span> <span class="cm-variable">numpy</span> <span class="cm-keyword">as</span> <span class="cm-variable">np</span></span>

<span role="presentation"><span class="cm-variable">a</span> = <span class="cm-variable">np</span>.<span class="cm-property">arange</span>(<span class="cm-number">15</span>)</span>

				1

						<span role="presentation"><span class="cm-variable">a</span> = <span class="cm-variable">np</span>.<span class="cm-property">arange</span>(<span class="cm-number">15</span>)</span>

<span role="presentation"><span class="cm-variable">b</span>=<span class="cm-variable">a</span>.<span class="cm-property">reshape</span>(<span class="cm-number">3</span>,<span class="cm-number">5</span>)</span>

				1

						<span role="presentation"><span class="cm-variable">b</span>=<span class="cm-variable">a</span>.<span class="cm-property">reshape</span>(<span class="cm-number">3</span>,<span class="cm-number">5</span>)</span>

<span role="presentation">​</span>

				1

						<span role="presentation">​</span>

<span role="presentation"><span class="cm-builtin">print</span><span class=" CodeMirror-matchingbracket">(</span><span class="cm-variable">b</span><span class=" CodeMirror-matchingbracket">)</span></span>

				1

						<span role="presentation"><span class="cm-builtin">print</span><span class=" CodeMirror-matchingbracket">(</span><span class="cm-variable">b</span><span class=" CodeMirror-matchingbracket">)</span></span>

<span role="presentation">​</span>

				1

						<span role="presentation">​</span>

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]

[[ 0 1 2 3 4]

[ 5 6 7 8 9]

[10 11 12 13 14]]

arrange アレンジ

2017年11月29日 by 河副太智 Leave a Comment

#アレンジは変数内の数字のカンマなしリストを生成

import numpy as np
a = np.arange(15)

print(a)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]

1	[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14]

マッピング　vlookupに似たもの

2017年11月29日 by 河副太智 Leave a Comment

<span class="cm-keyword">import</span> <span class="cm-variable">pandas</span> <span class="cm-keyword">as</span> <span class="cm-variable">pd</span>
<span class="cm-keyword">from</span> <span class="cm-variable">pandas</span> <span class="cm-keyword">import</span> <span class="cm-variable">DataFrame</span>

<span class="cm-variable">attri_data1</span> = {<span class="cm-string">'ID'</span>: [<span class="cm-string">'100'</span>, <span class="cm-string">'101'</span>, <span class="cm-string">'102'</span>, <span class="cm-string">'103'</span>, <span class="cm-string">'104'</span>, <span class="cm-string">'106'</span>, <span class="cm-string">'108'</span>, <span class="cm-string">'110'</span>, <span class="cm-string">'111'</span>, <span class="cm-string">'113'</span>]
        ,<span class="cm-string">'city'</span>: [<span class="cm-string">'Tokyo'</span>, <span class="cm-string">'Osaka'</span>, <span class="cm-string">'Kyoto'</span>, <span class="cm-string">'Hokkaido'</span>, <span class="cm-string">'Tokyo'</span>, <span class="cm-string">'Tokyo'</span>, <span class="cm-string">'Osaka'</span>, <span class="cm-string">'Kyoto'</span>, <span class="cm-string">'Hokkaido'</span>, <span class="cm-string">'Tokyo'</span>]
        ,<span class="cm-string">'birth_year'</span> :[<span class="cm-number">1990</span>, <span class="cm-number">1989</span>, <span class="cm-number">1992</span>, <span class="cm-number">1997</span>, <span class="cm-number">1982</span>, <span class="cm-number">1991</span>, <span class="cm-number">1988</span>, <span class="cm-number">1990</span>, <span class="cm-number">1995</span>, <span class="cm-number">1981</span>]
        ,<span class="cm-string">'name'</span> :[<span class="cm-string">'Hiroshi'</span>, <span class="cm-string">'Akiko'</span>, <span class="cm-string">'Yuki'</span>, <span class="cm-string">'Satoru'</span>, <span class="cm-string">'Steeve'</span>, <span class="cm-string">'Mituru'</span>, <span class="cm-string">'Aoi'</span>, <span class="cm-string">'Tarou'</span>, <span class="cm-string">'Suguru'</span>, <span class="cm-string">'Mitsuo'</span>]}
<span class="cm-variable">attri_data_frame1</span> = <span class="cm-variable">DataFrame</span>(<span class="cm-variable">attri_data1</span>)

<span class="cm-variable">attri_data_frame1</span>

import pandas as pd

from pandas import DataFrame

attri_data1 = {'ID': ['100', '101', '102', '103', '104', '106', '108', '110', '111', '113']

,'city': ['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo', 'Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo']

,'birth_year' :[1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981]

,'name' :['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steeve', 'Mituru', 'Aoi', 'Tarou', 'Suguru', 'Mitsuo']}

attri_data_frame1 = DataFrame(attri_data1)

attri_data_frame1

もう一つの辞書を追加

<span class="cm-variable">city_map</span> ={<span class="cm-string">'Tokyo'</span>:<span class="cm-string">'Kanto'</span>
          ,<span class="cm-string">'Hokkaido'</span>:<span class="cm-string">'Hokkaido'</span>
          ,<span class="cm-string">'Osaka'</span>:<span class="cm-string">'Kansai'</span>
          ,<span class="cm-string">'Kyoto'</span>:<span class="cm-string">'Kansai'</span>}
</code><code class="cm-s-ipython language-python"><span class="cm-variable">city_map</span></code><code class="cm-s-ipython language-python"><span class="cm-variable">


最初のattri_data_frame1のcityカラムを対象とし、</span>

city_map ={'Tokyo':'Kanto'

,'Hokkaido':'Hokkaido'

,'Osaka':'Kansai'

,'Kyoto':'Kansai'}

</code><code class="cm-s-ipython language-python">city_map</code><code class="cm-s-ipython language-python">

最初のattri_data_frame1のcityカラムを対象とし、

<span class="cm-variable">そのカラムの文字列、数値に一致するカラムを追加していく
</span>

1 2	<span class="cm-variable">そのカラムの文字列、数値に一致するカラムを追加していく </span>

<span class="cm-comment">対応するデータがない場合はNaNになる

</span>
</code><code class="cm-s-ipython language-python"><span class="cm-variable">attri_data_frame1</span></code><code class="cm-s-ipython language-python">[<span class="cm-string">'region'</span>] = <span class="cm-variable">attri_data_frame1</span>[<span class="cm-string">'city'</span>].<span class="cm-property">map</span>(<span class="cm-variable">city_map</span>)
<span class="cm-variable">attri_data_frame1</span>

対応するデータがない場合はNaNになる

</code><code class="cm-s-ipython language-python">attri_data_frame1</code><code class="cm-s-ipython language-python">['region'] = attri_data_frame1['city'].map(city_map)

attri_data_frame1

出力結果
cityに合わせてregionが追加されている

辞書{[…]}

2017年11月29日 by 河副太智 Leave a Comment

a = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],
        "year": [2001, 2002, 2001, 2008, 2006],
        "amount": [1, 4, 5, 6, 3]}

print(a)

a = {"fruits": ["apple", "orange", "banana", "strawberry", "kiwifruit"],

"year": [2001, 2002, 2001, 2008, 2006],

"amount": [1, 4, 5, 6, 3]}

print(a)

{‘fruits’: [‘apple’, ‘orange’, ‘banana’, ‘strawberry’, ‘kiwifruit’], ‘year’: [2001, 2002, 2001, 2008, 2006], ‘amount’: [1, 4, 5, 6, 3]}