使用Python和shell兩種方式實現文本處理的長拼接案例

-Advertisement-

最近由於業務系統新需求的需要，我們平臺需要將供應商G提供一類數據轉換格式後提供給客戶K。比較頭疼是供應商G提供的數據都是在Windows下使用Excel存儲的，而客戶K先前與我們相關對接人員商定的數據類型必須使用utf-8的txt文件，並且由於客戶K程式處理的需要，並附帶生成一個與該數據文件匹配的校 ...

　　最近由於業務系統新需求的需要，我們平臺需要將供應商G提供一類數據轉換格式後提供給客戶K。比較頭疼是供應商G提供的數據都是在Windows下使用Excel存儲的，而客戶K先前與我們相關對接人員商定的數據類型必須使用utf-8的txt文件，並且由於客戶K程式處理的需要，並附帶生成一個與該數據文件匹配的校驗文件數據傳輸的結束標誌。

主要操作步驟如下：

　　1，首先得先把.xlsx的尾碼改為.csv的尾碼另存，這樣就可以在Linux中打開了；

　　2，由於Windows下編碼格式基本都是gbk的，所以需要進行轉碼為utf-8的才能顯示正常。

　　　　可以使用 iconv -fgbk -tutf8 -c -o to_file from_file 進行轉碼，轉碼後文件大致顯示如下:

賬號,銀行,姓名,身份證號,手機號,登錄郵箱,嫌疑欺詐賬戶使用設備,請求類型,,,是否被多家公安機關查詢
000167342xxx,深圳農商,深圳市XX倉儲服務有限公司,,,,,止付,凍結,明細查詢,是
000195557xxx,深圳農商,深圳市XXX鞋材有限公司,,,,,止付,凍結,明細查詢,是
000251484xxx,深圳農商,深圳市XXX電子有限公司,,,,,止付,凍結,明細查詢,是

　　　　實際上只有9列數據，第8、9、10是合併單元格的。

　　3，客戶K要求9列數據使用 “|” 進行分割。

　　　　由上面轉碼後文件內容可知，目前以 “,” 進行分割有11列數據，第8、9、10三列繼續使用 “,” 進行分割，其他使用 “|” 進行分割。就我當前知識範圍來講，可以使用兩種

　　方式，一種是使用Python，不過腳本實現起來比較複雜。一種使用AWK的流文本處理，命令簡單，建議優先採用。但是也可以使用shell利用for迴圈進行拼接，但是這種需要消耗大量的系統資源，並且出奇的慢，不建議使用。供應商G提供文件大概有12W行數據，使用這種方式需要近20分鐘才能完成。下麵分別介紹兩種方式：

　　3.1 Python腳本如下：

import sys
def readfile(rfilename,wfilename):
　　wfile=open(wfilename,'a+')
　　#wfile.write('賬號|銀行|姓名|身份證號|手機號|登錄郵箱|嫌疑欺詐賬戶使用設備|請求類型|是否被多家公安機關查詢\n')
　　#上一行是文件的title，如果不使用這樣的方式，就是用下麵lines從0，也即是從第一行開始處理
　　with open(rfilename, 'r') as fr:
　　　　lines=fr.readlines()
　　　　for line in lines[0:]:
　　　　　　llist=[]
　　　　　　if len(line)>1:
　　　　　　　　words=line.split(',')
　　　　　　　　if (words[0]!=''):
　　　　　　　　　　llist.append(words[0]+'|')
　　　　　　　　　　llist.append(words[1]+'|')
　　　　　　　　　　llist.append(words[2]+'|')
　　　　　　　　　　llist.append(words[3]+'|')
　　　　　　　　　　llist.append(words[4]+'|')
　　　　　　　　　　llist.append(words[5]+'|')
　　　　　　　　　　llist.append(words[6]+'|')
　　　　　　　　　　llist.append(words[7]+',')
　　　　　　　　　　llist.append(words[8]+',')
　　　　　　　　　　llist.append(words[9]+'|')
　　　　　　　　　　llist.append(words[10])
　　　　　　　　　　wstr=''.join(llist)
　　　　　　　　　　#這裡需要指定新文件列之間的分隔符為空，否則每個欄位間會有多個分隔符
　　　　　　　　　　wfile.write(wstr+'\r')
　　　　　　　　　　#這裡的行與行之間使用換行符 \r ,而不是使用回車 \n，如果使用回車則新文件中會生成大量空行
　　wfile.close()

if __name__ == '__main__':
    inpath=sys.argv[1]
    outpath=sys.argv[2]
   #指定輸入文件的路徑和名稱
　　rfilename=inpath+'1111.csv'
   #指定輸出文件路徑和名稱 
　　wfilename=outpath+'3333.csv'
    readfile(rfilename,wfilename)

#執行
[root@A opt] python $python_file $inpath $outpath

　　速度很快，1秒鐘左右12W行就執行完了。

　　3.2 AWK

awk -F, '{print $1"|",$2"|",$3"|",$4"|",$5"|",$6"|",$7"|",$8",",$9",",$10"|",$11}' 1111.csv | sed 's/ //g' >>ttt2.csv

　　就這麼簡單的一個命令，12W行秒完成。

　　3.3 shell的方式，相比於AWK流文本處理和Python腳本，使用shell處理，至少我想出來的這個方法的確是太蠢了。

#執行前, 我先把,改成|
for line in `cat 3333.txt`
do
    echo "`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $1,$2,$3,$4,$5,$6,$7}'`|`echo "$line" | awk -F"|" 'BEGIN{OFS=","} {print $8,$9,$10}'`|`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $11}'`" >> 4444.txt
done


#當然情況允許的話, 還可以使用並行
for line in `cat 3333.txt`
do
 {   
    echo "`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $1,$2,$3,$4,$5,$6,$7}'`|`echo "$line" | awk -F"|" 'BEGIN{OFS=","} {print $8,$9,$10}'`|`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $11}'`" >> 4444.txt
 }&
done

　　經過測試發現，並行與否好像沒有多大的差別，只是稍微快了那麼一丟丟，也需要近20分鐘才能完成12W行的拼接。

以上三種方法處理後數據就是下麵的了：

賬號|銀行|姓名|身份證號|手機號|登錄郵箱|嫌疑欺詐賬戶使用設備|請求類型|是否被多家公安機關查詢
000167342xxx|深圳農商|深圳市XX倉儲服務有限公司|||||止付,凍結,明細查詢|是
000195557xxx|深圳農商|深圳市XXX鞋材有限公司|||||止付,凍結,明細查詢|是
000251484xxx|深圳農商|深圳市XXX電子有限公司|||||止付,凍結,明細查詢|是
001980099990xxx|農業銀行|未知|||||,,明細查詢|是

　　4，生成校驗文件就很簡單了，可以使用MD5的，16位的加密；也可以使用hash的，hash預設是SHA-1的，20位的加密，也有SHA-224、SHA-256、SHA-384

#命令示例
[root@A opt]# md5sum 2222.csv
d6b37d6921b0153079ef6bb976872f01  2222.csv
[root@A opt]# sha1sum 2222.csv
c9e780381f756308362d44172e06e46ee8758ecf  2222.csv
[root@A opt]# sha224sum 2222.csv
1f79435e1f5eefc91b1fabf66df1a25391478e0fa137a526e6bdf66e  2222.csv
[root@A opt]# sha256sum 2222.csv
bf9e8b0b25807e9b31026a56d8dc4040dd4c90e7a468b1a4d91cc3b6866dbb13  2222.csv

#生成校驗文件
[root@A opt]# md5sum 2222.csv >2222_md5.txt

[root@A opt]# sha1sum 2222.csv >2222_sha1.txt

#校驗文件完整性
[root@A opt]# md5sum -c 2222_md5.txt
2222.csv: OK
[root@A opt]# sha1sum -c 2222_sha1.txt
2222.csv: OK

　　更多關於校驗文件生成的解讀詳見：https://www.jb51.net/LINUXjishu/156064.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C# 複製Excel單元格格式

本文將介紹通過C# 複製Excel單元格格式的方法，包括複製單元格中的字體、字型大小、字體加粗、傾斜、單元格背景色、字體顏色、單元格數字格式、單元格文字方向、文字旋轉、下劃線、單元格對齊方式、單元格邊框等。C# 複製Excel工作表可參考這篇文章。使用工具：Free Spire.XLS for .NE ...
UWP實現吸頂的Pivot

話不多說，先上效果這裡使用了一個 "ScrollProgressProvider.cs" ，我們這篇文章先解析一下整體的動畫思路，以後再詳細解釋這個Provider的實現方式。結構整個頁面大致結構是這個Header是修改的ListBox，當然也可以用ListView代替。隱藏Pivot預設 ...
（三十九）c#Winform自定義控制項-麵包屑導航

前提入行已經7,8年了，一直想做一套漂亮點的自定義控制項，於是就有了本系列文章。開源地址：https://gitee.com/kwwwvagaa/net_winform_custom_control 如果覺得寫的還行，請點個 star 支持一下吧歡迎前來交流探討：企鵝群568015492 目錄 ...
關於C#中Convert.ToInt32()是乾什麼用的

並非每個對象都可以直接轉換為int。例如，以下內容將無法編譯：因為string無法隱式轉換為int。如果必須要做就這樣寫： ...
12.智能快遞櫃(用戶寄件)

1.智能快遞櫃(開篇) 2.智能快遞櫃(終端篇) 3.智能快遞櫃(通信篇-HTTP) 4.智能快遞櫃(通信篇-SOCKET) 5.智能快遞櫃(通信篇-Server程式) 6.智能快遞櫃(平臺篇) 7.智能快遞櫃(APP及微信公眾號) 8.智能快遞櫃SDK(聯網型鎖板) 9.智能快遞櫃SDK(串口型鎖 ...
The .NET World——gPRC概覽

什麼是gRPC "官方" 的定義： gRPC is a modern open source high performance RPC framework that can run in any environment. It can efficiently connect services in ...
Windows Server 2008配置系統安全策略

下麵學習Windows Server 2008配置系統安全策略在工作組中的電腦本地安全策略有用戶策略，密碼策略，密碼過期預設42天服務賬戶設置成永不過期，帳戶鎖定策略，本地策略，審核策略，電腦記錄哪些安全事件最後在域環境中使用組策略配置電腦安全。 1.在工作組中的安全策略，打開本地安全 ...
【原創】Linux cpufreq framework

背景 By 魯迅 By 高爾基說明： 1. Kernel版本：4.14 2. ARM64處理器 3. 使用工具：Source Insight 3.5， Visio 1. 介紹子系統負責在運行時對CPU頻率和電壓的動態調整，以達到性能和功耗的平衡，它也叫。原理：CMOS電路中功耗與電壓的平方成 ...