▲CSVファイルの入出力¶

CSVファイルの入出力について説明します。

参考

https://docs.python.org/ja/3/library/csv.html

CSV形式とは¶

CSV形式とは "comma-separated values" の略で、複数の値をコンマで区切って記録するファイル形式です。

みなさんExcelを使ったことがあると思いますが、 Excelでは1つのセルに1つの値（数値や文字など）が入っていて、その他のセルの値とは独立に扱えますよね。

それと同じように、CSV形式では、,（コンマ）で区切られた要素はそれぞれ独立の値として扱われます。

たとえばサークルのメンバーデータを作ることを考えましょう。メンバーは「鈴木一郎」と「山田花子」の2名で、それぞれ『氏名』『ニックネーム』『出身地』を記録しておきたいと思います。

表で表すとこんなデータです。

ID	氏名	ニックネーム	出身地
user1	鈴木一郎	イチロー	広島
user2	山田花子	はなこ	名古屋

これをCSV形式で表すと次のようになります。

'user1','鈴木一郎','イチロー','広島' 'user2','山田花子','はなこ','名古屋'

CSVファイルの読み込み¶

CSVファイルを読み書きするには、ファイルをオープンして、そのファイルオブジェクトから、 CSVリーダを作ります。

CSVリーダとは、CSVファイルからデータを読み込むためのオブジェクトで、このオブジェクトのメソッドを呼び出すことにより、CSVファイルからデータを読み込むことができます。

CSVリーダを作るには、 csv というモジュールの csv.reader という関数にファイルオブジェクトを渡します。

たとえば、次のような表で表されるCSVファイル small.csv を読み込んでみましょう。

0列目 | 1列目 | 2列目 | 3列目 | 4列目

11 | 12 | 13 | 14 | 15 21 | 22 | 23 | 24 | 25 31 | 32 | 33 | 34 | 35

[1]:

import csv
f = open('small.csv', 'r')
dataReader = csv.reader(f)

このオブジェクトもイテレータで、next という関数を呼び出すことができます。

[2]:

next(dataReader)

[2]:

['11', '12', '13', '14', '15']

このようにして CSVファイルを読むと、 CSVファイルの各行のデータが文字列のリストとなって返されます。

[3]:

next(dataReader)

[3]:

['21', '22', '23', '24', '25']

[4]:

row = next(dataReader)

[5]:

row

[5]:

['31', '32', '33', '34', '35']

[6]:

row[2]

[6]:

'33'

数値が '' で囲われている場合、数値ではなく文字列として扱われているので、そのまま計算に使用することができません。

文字列が整数を表す場合、int 関数によって文字列を整数に変換することができます。文字列が小数を含む場合は float 関数で浮動小数点数型に変換、文字列が複素数を表す場合は complex 関数で複素数に変換します。

[7]:

int(row[2])

[7]:

ファイルの終わりまで達した後に next 関数を実行すると、下のようにエラーが返ってきます。

[8]:

next(dataReader)

---------------------------------------------------------------------------
StopIteration                             Traceback (most recent call last)
Cell In[8], line 1
----> 1 next(dataReader)

StopIteration:

ファイルを使い終わったらクローズすることを忘れないようにしましょう。

[9]:

f.close()

CSVファイルに対するfor文¶

CSVリーダもイテレータですので、for文の in の後に書くことができます。

for row in dataReader:
    ...

繰り返しの各ステップで、next(dataReader) が呼び出されて、 row にその値が設定され、for文の中身が実行されます。

[10]:

f = open('small.csv', 'r')
dataReader = csv.reader(f)
for row in dataReader:
    print(row)
f.close()

['11', '12', '13', '14', '15']
['21', '22', '23', '24', '25']
['31', '32', '33', '34', '35']

CSVファイルに対するwith文¶

以下はwith文を使った例です。

[11]:

with open('small.csv', 'r') as f:
    dataReader = csv.reader(f)
    for row in dataReader:
        print(row)

['11', '12', '13', '14', '15']
['21', '22', '23', '24', '25']
['31', '32', '33', '34', '35']

CSVファイルの書き込み¶

CSVファイルを作成して書き込むには、CSVライターを作ります。

CSVライターとは、CSVファイルを作ってデータを書き込むためのオブジェクトで、このオブジェクトのメソッドを呼び出すことにより、データがCSV形式でファイルに書き込まれます。

CSVライターを作るには、 csv というモジュールの csv.writer という関数にファイルオブジェクトを渡します。ここで、半角英数文字以外の文字（たとえば日本語文字や全角英数文字）を書き込み・書き出しする際には、文字コード（たとえば encoding='utf-8'）を指定し、また書き出しの際にはさらに改行コードとして newline='' を指定しないと文字化けが生じる可能性があります。

[12]:

f = open('out.csv', 'w', encoding='utf-8', newline='')

[13]:

dataWriter = csv.writer(f)

[14]:

dir(dataWriter)

[14]:

['__class__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'dialect',
 'writerow',
 'writerows']

[15]:

dataWriter.writerow([1,2,3])

[15]:

[16]:

dataWriter.writerow([21,22,23])

[16]:

書き込みモードの場合も、ファイルを使い終わったらクローズすることを忘れないようにしましょう。

[17]:

f.close()

読み込みのときと同様、with文を使うこともできます。

[18]:

with open('out.csv', 'w', encoding='utf-8', newline='') as f:
    dataWriter = csv.writer(f)
    dataWriter.writerow([1,2,3])
    dataWriter.writerow([21,22,23])

東京の7月の気温¶

tokyo-temps.csv には、気象庁のオープンデータからダウンロードした、東京の7月の平均気温のデータが入っています。

http://www.data.jma.go.jp/gmd/risk/obsdl/

48行目の第2列に1875年7月の平均気温が入っており、以下、2016年まで、12行ごとに7月の平均気温が入っています。

以下は、これを取り出すPythonの簡単なコードです。

[19]:

import csv

with open('tokyo-temps.csv', 'r', encoding='shift_jis') as f:
    dataReader = csv.reader(f) # csvリーダを作成
    n=0
    year = 1875
    years = []
    july_temps = []
    for row in dataReader: # CSVファイルの中身を1行ずつ読み込み
        n = n+1
        if n>=48 and (n-48)%12 == 0: # 48行目からはじめて12か月ごとにif内を実行
            years.append(year)
            july_temps.append(float(row[1]))
            year = year + 1

ファイルをオープンするときに、キーワード引数の encoding が指定されています。このファイルはShift_JISという文字コードで書かれているため、この引数で、ファイルの符号（文字コード）を指定します。 'shift_jis' はShift_JISを意味します。この他に、'utf-8'（UTF-8、すなわちビットのUnicode）があります。

変数 years に年の配列、変数 july_temps に対応する年の7月の平均気温の配列が設定されます。

[20]:

years

[20]:

[21]:

july_temps

[21]:

[26.0,
 24.3,
 26.5,
 26.0,
 26.1,
 24.2,
 24.0,
 24.2,
 23.7,
 23.4,
 23.1,
 25.0,
 23.6,
 24.5,
 23.4,
 23.5,
 24.9,
 25.7,
 25.3,
 26.8,
 22.1,
 24.1,
 22.9,
 25.9,
 23.2,
 22.8,
 22.1,
 21.8,
 23.2,
 24.8,
 23.3,
 23.5,
 22.7,
 22.1,
 24.3,
 23.0,
 24.5,
 24.3,
 23.3,
 25.5,
 24.2,
 23.9,
 25.7,
 26.0,
 23.6,
 26.1,
 24.3,
 25.0,
 24.0,
 26.1,
 23.2,
 24.6,
 26.0,
 23.4,
 25.9,
 26.3,
 21.8,
 25.7,
 26.6,
 23.9,
 24.3,
 24.9,
 26.3,
 25.0,
 26.5,
 26.9,
 23.7,
 27.5,
 25.1,
 25.6,
 22.0,
 26.2,
 25.7,
 26.0,
 25.3,
 26.5,
 24.3,
 24.3,
 24.7,
 22.3,
 27.6,
 24.2,
 24.4,
 24.9,
 26.1,
 25.8,
 27.4,
 25.1,
 25.7,
 25.5,
 24.2,
 24.4,
 26.3,
 24.7,
 25.0,
 25.4,
 25.8,
 25.2,
 26.1,
 23.4,
 25.6,
 23.9,
 25.8,
 27.8,
 25.2,
 23.8,
 26.3,
 23.1,
 23.8,
 26.2,
 26.3,
 23.9,
 27.0,
 22.4,
 24.1,
 25.7,
 26.7,
 25.5,
 22.5,
 28.3,
 26.4,
 26.2,
 26.6,
 25.3,
 25.9,
 27.7,
 28.5,
 28.0,
 22.8,
 28.5,
 25.6,
 25.6,
 24.4,
 27.0,
 26.3,
 28.0,
 27.3,
 26.4,
 27.3,
 26.8,
 26.2,
 25.4]

ここでは詳しく説明しませんが、線形回帰によるフィッティングを行ってみましょう。

[22]:

import numpy
import matplotlib.pyplot as plt
%matplotlib inline

fitp = numpy.poly1d(numpy.polyfit(years, july_temps, 1))
ma = max(years)
mi = min(years)
xp = numpy.linspace(mi, ma, (ma - mi))

[23]:

plt.plot(years, july_temps, '.', xp, fitp(xp), '-')
plt.show()

練習¶

tokyo-temps.csv を読み込んで、各行が西暦年と7月の気温のみからなる 'tokyo-july-temps.csv' という名前のCSVファイルを作成してください。西暦年は1875から2016までとします。
作成したCSVファイルをExcelで読み込むとどうなるか確認してください。

[ ]:

以下のセルによってテストしてください。（years と july_temps の値がそのままと仮定しています。）

[24]:

with open('tokyo-july-temps.csv', 'r', encoding='shift_jis') as f:
    i = 0
    dataReader = csv.reader(f)
    for row in dataReader:
        if int(row[0]) != years[i] or abs(float(row[1])-july_temps[i])>0.000001:
            print('error', int(row[0]), float(row[1]))
        i += 1
print(i== 142) # 1875年から2016年まで142年間分のデータがあるはずです

True

練習¶

整数データのみからなるCSVファイルの名前を受け取ると、そのCSVファイルの各行を読み込んで整数のリストを作り、ファイル全体の内容を、そのようなリストのリストとして返す関数 csv_matrix(name) を定義してください。

たとえば上で用いた small.csv には次のようなデータが入っています。

0列目 | 1列目 | 2列目 | 3列目 | 4列目

11 | 12 | 13 | 14 | 15 21 | 22 | 23 | 24 | 25 31 | 32 | 33 | 34 | 35

この small.csv の名前が引数として与えられた場合、

[[11, 12, 13, 14, 15], [21, 22, 23, 24, 25], [31, 32, 33, 34, 35]]

というリストを返します。

[25]:

def csv_matrix(name):
    ...

以下のセルによってテストしてください。

[26]:

print(csv_matrix('small.csv') == [[11, 12, 13, 14, 15], [21, 22, 23, 24, 25], [31, 32, 33, 34, 35]])

False

練習の解答¶

[27]:

with open('tokyo-july-temps.csv', 'w', encoding='utf-8', newline='') as f:
    i = 0
    dataWriter = csv.writer(f)
    for i in range(len(years)):
        dataWriter.writerow([years[i],july_temps[i]])

[28]:

def csv_matrix(name):
    rows = []
    with open(name, 'r') as f:
        dataReader = csv.reader(f)
        for row in dataReader:
            rows.append([int(x) for x in row])
    return rows

[ ]: