前幾篇都是手動錄入或隨機函數產生的數據。實際有許多類型的文件,以及許多方法,用它們從文件中提取數據來圖形化。 比如之前python基礎(12)介紹打開文件的方式,可直接讀取文件中的數據,擴大了我們的數據來源。下麵詳細介紹從文件中載入數據。 一、使用內置的 csv 模塊載入CSV文件 CSV文件是一種 ...
前幾篇都是手動錄入或隨機函數產生的數據。實際有許多類型的文件,以及許多方法,用它們從文件中提取數據來圖形化。
比如之前python基礎(12)介紹打開文件的方式,可直接讀取文件中的數據,擴大了我們的數據來源。下麵詳細介紹從文件中載入數據。
一、使用內置的 csv 模塊載入CSV文件
CSV文件是一種特殊的文本文件,文件中的數據以逗號作為分隔符,很適合進行數據的解析。先用excle建立如下表格和數據,另存為csv格式文件,放到代碼目錄下。
包含在Python標準庫中自帶CSV 模塊,我們只需要import進來就能使用。比如我們需要將上面的CSV文件都列印出來,代碼 如下:
import csv #import csv 用來導入csv模塊 filename = 'E:\WorkSpace\python\coding\score.csv' #文件保存的絕對路徑,如果在代碼目錄文件下,可以直接用文件名 with open(filename) as file_csv: #是不是忘記瞭如何打開文件?打開文件,並將結果文件對象存儲在file_csv中 reader = csv.reader(file_csv) #直接調讀取 用csv.read()讀取文件內容 for row in reader: # 用for迴圈列印每一行 print(row)
運行結果如下:
['Name', 'Grade', 'Class', 'Age', 'mathscore', 'Englishscore'] ['Lucy', '7', '2', '14', '95', '86'] ['bush', '8', '1', '15', '80', '75'] ['lily', '7', '3', '14', '93', '95'] ['Jack', '8', '2', '14', '87', '84'] ['Mary', '9', '1', '15', '85', '86'] ['philip', '7', '3', '14', '90', '92'] ['Liming', '9', '2', '16', '99', '87']
1、列印文件頭及其位置
讀入文件,是為了獲取其中的數據,需要將相關信息進行分離,先看看如何讀出頭即文件的第一行, next()返迴文件中的下一行。
import csv #import csv 用來導入csv模塊 filename = 'E:\WorkSpace\python\coding\score.csv' #文件保存的絕對路徑 with open(filename) as file_csv: #是不是忘記瞭如何打開文件?打開文件,並將結果文件對象存儲在file_csv中 reader = csv.reader(file_csv) #直接調讀取 用csv.read()讀取文件內容 header_row = next(reader) #模塊csv包含函數 next() ,調用它並將閱讀器對象傳遞給它時,它將返迴文件中的下一行。 #調用了next()一次,因此得到的是文件的第一行,其中包含文件頭
#for row in reader: # 用for迴圈列印每一行
# print(row)
for index, column_header in enumerate(header_row): #對列表調用了enumerate()來獲取每個元素的索引及其值 print(index, column_header)
運行後的結果如下所示:
0 Name 1 Grade 2 Class 3 Age 4 mathscore 5 Englishscore
提取其中索引,即name的索引為0,Grade的索引為1,知道了索引便可以讀取其中的任何數據,比如我們要列印出mathscore,索引為4,於是代碼如下:
scores =[] 定義一個空的list for row in reader: scores.append(int(row[4])) #讀取的文件,預設為字元串,用int()轉換為數字。 print(scores)
運行結果:
[95, 80, 93, 87, 85, 90, 99]
接下來,製作圖表展示一下,先把mathscore和englishscore分數做個柱狀對比。代碼如下:
import matplotlib.pyplot as plt import csv #import csv 用來導入csv模塊 filename = 'E:\WorkSpace\python\coding\score.csv' #文件保存的絕對路徑 with open(filename) as file_csv: #是不是忘記瞭如何打開文件?打開文件,並將結果文件對象存儲在file_csv中 reader = csv.reader(file_csv) #直接調讀取 用csv.read()讀取文件內容 header_row = next(reader) #模塊csv包含函數 next() ,調用它並將閱讀器對象傳遞給它時,它將返迴文件中的下一行。 #調用了 next() 一次,因此得到的是文件的第一行,其中包含文件頭 mathscores =[] #定義兩個列表 englishscores=[] for row in reader: mathscores.append(int(row[4])) #讀取索引為4的數據,預設為字元串,用int()轉換為數字。 englishscores.append(int(row[5])) #讀取索引為5的數據,用int()轉換為數字。 plt.bar([1,3,5,7,9,11,13],mathscores,label='math',color='#FF2204') plt.bar([2,4,6,8,10,12,14],englishscores, label='englis', color='g') plt.legend() plt.title('scores') plt.show()
已將那些列印相關代碼刪除。看運行結果:
接下來,我們讀取文件 ,並根據文件中的時間來繪製圖表
新建一個年份的數據(真的是胡編亂造的數據),第一列是年份,第二列每年畢業的人數,第三列是每年申請人數,如圖所示:
要求:
1,按年份分別顯示出每年兩者的人數,並用不同的顏色表示;
2、兩者間也用其他顏色進行填充。
完成代碼如下:
import matplotlib.pyplot as plt import csv #import csv 用來導入csv模塊 from datetime import datetime #引入時間相關模塊 filename = 'E:\WorkSpace\python\coding\graduatesNumbers.csv' #文件保存的絕對路徑 with open(filename) as file_csv: #是不是忘記瞭如何打開文件?打開文件,並將結果文件對象存儲在file_csv中 reader = csv.reader(file_csv) #直接調讀取 用csv.read()讀取文件內容 header_row = next(reader) dates=[] numbers=[] application_numbers=[] for row in reader: current_date = datetime.strptime(row[0], "%Y/%m/%d") #年份,strptime()日期格式轉化為字元串格式的函數 dates.append(current_date) numbers.append(int(row[1])) #讀取索引為1的數據,預設為字元串,用int()轉換為數字,即Numbers of graduates 。 application_numbers.append(int(row[2])) #讀取索引為2的數據,即Number of applicants plt.plot(dates,numbers,label='Numbers of graduate', c='red') #顯示第一條線 plt.plot(dates,application_numbers,label='Number of applicant', c='green') #顯示第二條線application_numbers折線 plt.fill_between(dates,numbers, application_numbers, facecolor='blue', alpha=0.5) #在兩線之間填充顏色 alpha透明度 plt.title("The numbers of graduate",fontsize=24) plt.xlabel('Years', fontsize=16) plt.ylabel("The numbers", fontsize=16) plt.legend() plt.show()
實際運行結果如下:
除了直接讀取文件外,數據還有眾多其他來源,比如後期涉及的爬蟲等。