【pandas小技巧】--讀取多個文件

-Advertisement-

日常分析數據時，只有單一數據文件的情況其實很少見，更多的情況是，我們從同一個數據來源定期或不定期的採集了很多數據文件；或者從不同的數據源採集多種不同格式的數據文件。在這樣的情況下，分析數據之前，需要將不同的數據集合併起來。合併數據一般有兩個維度，一是同構的數據集合併後行數增加；一是異構的數據集合併 ...

日常分析數據時，只有單一數據文件的情況其實很少見，更多的情況是，
我們從同一個數據來源定期或不定期的採集了很多數據文件；或者從不同的數據源採集多種不同格式的數據文件。

在這樣的情況下，分析數據之前，需要將不同的數據集合併起來。
合併數據一般有兩個維度，一是同構的數據集合併後行數增加；一是異構的數據集合併後列數增加。

1. 同構數據集

比如我們採集了3個不同年份的人口統計文件，分別為：

import pandas as pd

fp1 = "population1.csv"
df = pd.read_csv(fp1)
df

import pandas as pd

fp2 = "population2.csv"
df = pd.read_csv(fp2)
df

import pandas as pd

fp3 = "population3.csv"
df = pd.read_csv(fp3)
df

合併所有的數據集可以用 pd.concat 方法，不過一個一個文件讀取之後再合併比較麻煩。
如果文件名稱有規律的話（一般定期採集的數據集文件，文件名都有一定的規律），可以通過 glob 庫（支持通配符匹配）來匹配所有數據文件。
然後利用python代碼的靈活性一次合併所有的數據。

from glob import glob

files = sorted(glob("./population[1-3].csv"))
df = pd.concat((pd.read_csv(f) for f in files))
df

這樣合併之後，發現索引是有重覆的，如果要保持索引的唯一性，可以在合併時指定 ignore_index=True。

df = pd.concat((pd.read_csv(f) for f in files), ignore_index=True)
df

2. 異構數據集

異構的數據集指數據結構不一樣的數據，一般來自於不同的數據源。
比如：

import pandas as pd

fp1 = "population-total.csv"
df = pd.read_csv(fp1)
df

import pandas as pd

fp2 = "population-man.csv"
df = pd.read_csv(fp2)
df

import pandas as pd

fp3 = "population-woman.csv"
df = pd.read_csv(fp3)
df

合併的方式和前面按行合併類似，區別在於指定 axis=1。

from glob import glob

files = sorted(glob("./population-*.csv"))
df = pd.concat((pd.read_csv(f) for f in files), axis=1)
df

合併之後發現有重覆的列，對於重覆的行，可以簡單的通過 drop_duplicates()方法來去重，
去除重覆的列則需要一些技巧。

df = df.loc[:, ~df.columns.duplicated()]
df

這樣就去除了重覆的列，完成了異構數據集的合併。

3. 附錄

本篇使用的示例數據可以通過下麵的url下載：

population1.csv：http://databook.top:8888/pandas-tricks/population1.csv
population2.csv：http://databook.top:8888/pandas-tricks/population2.csv
population3.csv：http://databook.top:8888/pandas-tricks/population3.csv
population-total.csv：http://databook.top:8888/pandas-tricks/population-total.csv
population-man.csv：http://databook.top:8888/pandas-tricks/population-man.csv
population-woman.csv：http://databook.top:8888/pandas-tricks/population-woman.csv

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

【技術積累】HTML+CSS+JavaScript中的基礎知識【一】

博客推行版本更新，成果積累制度，已經寫過的博客還會再次更新，不斷地琢磨，高質量高數量都是要追求的，工匠精神是學習必不可少的精神。因此，大家有何建議歡迎在評論區踴躍發言，你們的支持是我最大的動力，你們敢投，我就敢肝 ...
前端下載 Blob 類型整理

文件流下載轉Blob時類型匹配，例如： ```javascript let blob = new Blob([data], {type: 'audio/mpeg'}); ``` Blob配置類型如下表所示，[詳細介紹](https://developer.mozilla.org/zh-CN/docs ...
JavaScript學習筆記01（包含ES6語法）

Vue文件解析什麼是<template/>標簽 template是html5新元素，主要用於保存客戶端中的內容，表現為瀏覽器解析該內容但不渲染出來，可以將一個模板視為正在被存儲以供隨後在文檔中使用的一個內容片段。關於單文件組件 vue的單文件相當於一個頁面中的組件，包含了關於該組件的html-c ...
記錄--你還在用傳統輪播組件嗎？來看看遮罩輪播組件

這裡給大家分享我在網上總結出來的一些知識，希望對大家有所幫助背景最近有一個頁面改版的需求，在UI走查階段，設計師說原來的輪播組件和新版頁面UI整體風格不搭，所以要換掉。這裡就涉及到兩種輪播組件，一種是傳統的輪播組件，一種是設計師要的那種。傳統的輪播組件，大家都見過，原理也清楚，就是把要輪播的 ...
包管理工具npm和Yarn的區別,我們該如何選擇?

好家伙,學習新工具 1.為什麼我們需要包管理器? 關於npm我們已經知道了,這是我們項目的包管理器, 我們現在用的無比順手的工具,都是在無數的競爭中殺出來的,他們淘汰了無數的產品首先,倘若我們不使用npm,那麼我們應該如何去新建一個前端項目? 純手工,把我們項目需要的項目一個個下載到我們的項目裡面 ...
【記錄】正則替換的偏方

一.Input中的字元串按數字規則替換 1. 包含正號,負號,小數點的浮點數本身的正則替換是無法單次實現完美替換的, 這個方法會刪掉用於匹配的一些數字, 優點是它能保證輸入的合法性, 缺點是刪去的部分需要重新輸入 1 if (str.length 1) { 2 newStr = str.repla ...
前端Vue uni-app App/小程式/H5 通用tree樹形結構圖

# Vue引用js文件的多種方式 **1.vue-cli webpack全局引入jquery** (1)首先 npm install jquery --save (--save 的意思是將模塊安裝到項目目錄下，併在package文件的dependencies節點寫入依賴。) (2)在webpack. ...
剖析JWT，及其使用案例

##### 什麼是JWT - JWT 是一個開放標準，它定義了一種用於簡潔，自包含的用於通信雙方之間以 JSON 對象的形式安全傳遞信息的方法。可以使用 HMAC 演算法或者是 RSA 的公鑰密鑰對進行簽名 - **簡單來說: 就是通過一定規範來生成token，然後可以通過解密演算法逆向解密token ...