使用Python和shell兩種方式實現文本處理的長拼接案例

来源:https://www.cnblogs.com/Clonglegs/archive/2019/08/20/11381966.html
-Advertisement-
Play Games

最近由於業務系統新需求的需要,我們平臺需要將供應商G提供一類數據轉換格式後提供給客戶K。比較頭疼是供應商G提供的數據都是在Windows下使用Excel存儲的,而客戶K先前與我們相關對接人員商定的數據類型必須使用utf-8的txt文件,並且由於客戶K程式處理的需要,並附帶生成一個與該數據文件匹配的校 ...


  最近由於業務系統新需求的需要,我們平臺需要將供應商G提供一類數據轉換格式後提供給客戶K。比較頭疼是供應商G提供的數據都是在Windows下使用Excel存儲的,而客戶K先前與我們相關對接人員商定的數據類型必須使用utf-8的txt文件,並且由於客戶K程式處理的需要,並附帶生成一個與該數據文件匹配的校驗文件數據傳輸的結束標誌。

主要操作步驟如下:

  1,首先得先把.xlsx的尾碼改為.csv的尾碼另存,這樣就可以在Linux中打開了;

  2,由於Windows下編碼格式基本都是gbk的,所以需要進行轉碼為utf-8的才能顯示正常。

    可以使用 iconv -fgbk -tutf8 -c -o to_file from_file 進行轉碼,轉碼後文件大致顯示如下:

賬號,銀行,姓名,身份證號,手機號,登錄郵箱,嫌疑欺詐賬戶使用設備,請求類型,,,是否被多家公安機關查詢
000167342xxx,深圳農商,深圳市XX倉儲服務有限公司,,,,,止付,凍結,明細查詢,000195557xxx,深圳農商,深圳市XXX鞋材有限公司,,,,,止付,凍結,明細查詢,000251484xxx,深圳農商,深圳市XXX電子有限公司,,,,,止付,凍結,明細查詢,是

    實際上只有9列數據,第8、9、10是合併單元格的。

  3,客戶K要求9列數據使用 “|” 進行分割。

    由上面轉碼後文件內容可知,目前以 “,” 進行分割有11列數據,第8、9、10三列繼續使用 “,” 進行分割,其他使用 “|” 進行分割。就我當前知識範圍來講,可以使用兩種

  方式,一種是使用Python,不過腳本實現起來比較複雜。一種使用AWK的流文本處理,命令簡單,建議優先採用。但是也可以使用shell利用for迴圈進行拼接,但是這種需要消耗大量的系統資源,並且出奇的慢,不建議使用。供應商G提供文件大概有12W行數據,使用這種方式需要近20分鐘才能完成。下麵分別介紹兩種方式:

  3.1 Python腳本如下:

 
import sys
def readfile(rfilename,wfilename):
  wfile=open(wfilename,'a+')
  #wfile.write('賬號|銀行|姓名|身份證號|手機號|登錄郵箱|嫌疑欺詐賬戶使用設備|請求類型|是否被多家公安機關查詢\n')
  #上一行是文件的title,如果不使用這樣的方式,就是用下麵lines從0,也即是從第一行開始處理
  with open(rfilename, 'r') as fr:
    lines=fr.readlines()
    for line in lines[0:]:
      llist=[]
      if len(line)>1:
        words=line.split(',')
        if (words[0]!=''):
          llist.append(words[0]+'|')
          llist.append(words[1]+'|')
          llist.append(words[2]+'|')
          llist.append(words[3]+'|')
          llist.append(words[4]+'|')
          llist.append(words[5]+'|')
          llist.append(words[6]+'|')
          llist.append(words[7]+',')
          llist.append(words[8]+',')
          llist.append(words[9]+'|')
          llist.append(words[10])
          wstr=''.join(llist)
          #這裡需要指定新文件列之間的分隔符為空,否則每個欄位間會有多個分隔符
          wfile.write(wstr+'\r')
          #這裡的行與行之間使用換行符 \r ,而不是使用回車 \n,如果使用回車則新文件中會生成大量空行
  wfile.close()

if __name__ == '__main__':
    inpath=sys.argv[1]
    outpath=sys.argv[2]
   #指定輸入文件的路徑和名稱
  rfilename=inpath+'1111.csv'
   #指定輸出文件路徑和名稱 
  wfilename=outpath+'3333.csv'
    readfile(rfilename,wfilename)

#執行
[root@A opt] python $python_file $inpath $outpath

  速度很快,1秒鐘左右12W行就執行完了。

  3.2 AWK

  

awk -F, '{print $1"|",$2"|",$3"|",$4"|",$5"|",$6"|",$7"|",$8",",$9",",$10"|",$11}' 1111.csv | sed 's/ //g' >>ttt2.csv

  就這麼簡單的一個命令,12W行秒完成。

  3.3 shell的方式,相比於AWK流文本處理和Python腳本,使用shell處理,至少我想出來的這個方法的確是太蠢了。

#執行前, 我先把,改成|
for line in `cat 3333.txt`
do
    echo "`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $1,$2,$3,$4,$5,$6,$7}'`|`echo "$line" | awk -F"|" 'BEGIN{OFS=","} {print $8,$9,$10}'`|`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $11}'`" >> 4444.txt
done


#當然情況允許的話, 還可以使用並行
for line in `cat 3333.txt`
do
 {   
    echo "`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $1,$2,$3,$4,$5,$6,$7}'`|`echo "$line" | awk -F"|" 'BEGIN{OFS=","} {print $8,$9,$10}'`|`echo "$line" | awk -F "|" 'BEGIN{OFS="|"} {print $11}'`" >> 4444.txt
 }&
done

  經過測試發現,並行與否好像沒有多大的差別,只是稍微快了那麼一丟丟,也需要近20分鐘才能完成12W行的拼接。

以上三種方法處理後數據就是下麵的了:

賬號|銀行|姓名|身份證號|手機號|登錄郵箱|嫌疑欺詐賬戶使用設備|請求類型|是否被多家公安機關查詢
000167342xxx|深圳農商|深圳市XX倉儲服務有限公司|||||止付,凍結,明細查詢|是
000195557xxx|深圳農商|深圳市XXX鞋材有限公司|||||止付,凍結,明細查詢|是
000251484xxx|深圳農商|深圳市XXX電子有限公司|||||止付,凍結,明細查詢|是
001980099990xxx|農業銀行|未知|||||,,明細查詢|是

  4,生成校驗文件就很簡單了,可以使用MD5的,16位的加密;也可以使用hash的,hash預設是SHA-1的,20位的加密,也有SHA-224、SHA-256、SHA-384

#命令示例
[root@A opt]# md5sum 2222.csv
d6b37d6921b0153079ef6bb976872f01  2222.csv
[root@A opt]# sha1sum 2222.csv
c9e780381f756308362d44172e06e46ee8758ecf  2222.csv
[root@A opt]# sha224sum 2222.csv
1f79435e1f5eefc91b1fabf66df1a25391478e0fa137a526e6bdf66e  2222.csv
[root@A opt]# sha256sum 2222.csv
bf9e8b0b25807e9b31026a56d8dc4040dd4c90e7a468b1a4d91cc3b6866dbb13  2222.csv

#生成校驗文件
[root@A opt]# md5sum 2222.csv >2222_md5.txt

[root@A opt]# sha1sum 2222.csv >2222_sha1.txt

#校驗文件完整性
[root@A opt]# md5sum -c 2222_md5.txt
2222.csv: OK
[root@A opt]# sha1sum -c 2222_sha1.txt
2222.csv: OK

  更多關於校驗文件生成的解讀詳見:https://www.jb51.net/LINUXjishu/156064.html

 

  

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文將介紹通過C# 複製Excel單元格格式的方法,包括複製單元格中的字體、字型大小、字體加粗、傾斜、單元格背景色、字體顏色、單元格數字格式、單元格文字方向、文字旋轉、下劃線、單元格對齊方式、單元格邊框等。C# 複製Excel工作表可參考這篇文章。 使用工具:Free Spire.XLS for .NE ...
  • 話不多說,先上效果 這裡使用了一個 "ScrollProgressProvider.cs" ,我們這篇文章先解析一下整體的動畫思路,以後再詳細解釋這個Provider的實現方式。 結構 整個頁面大致結構是 這個Header是修改的ListBox,當然也可以用ListView代替。 隱藏Pivot預設 ...
  • 前提 入行已經7,8年了,一直想做一套漂亮點的自定義控制項,於是就有了本系列文章。 開源地址:https://gitee.com/kwwwvagaa/net_winform_custom_control 如果覺得寫的還行,請點個 star 支持一下吧 歡迎前來交流探討: 企鵝群568015492 目錄 ...
  • 並非每個對象都可以直接轉換為int。例如,以下內容將無法編譯: 因為string無法隱式轉換為int。 如果必須要做就這樣寫: ...
  • 1.智能快遞櫃(開篇) 2.智能快遞櫃(終端篇) 3.智能快遞櫃(通信篇-HTTP) 4.智能快遞櫃(通信篇-SOCKET) 5.智能快遞櫃(通信篇-Server程式) 6.智能快遞櫃(平臺篇) 7.智能快遞櫃(APP及微信公眾號) 8.智能快遞櫃SDK(聯網型鎖板) 9.智能快遞櫃SDK(串口型鎖 ...
  • 什麼是gRPC "官方" 的定義: gRPC is a modern open source high performance RPC framework that can run in any environment. It can efficiently connect services in ...
  • 下麵學習Windows Server 2008配置系統安全策略 在工作組中的電腦本地安全策略有 用戶策略,密碼策略,密碼過期預設42天 服務賬戶設置成永不過期,帳戶鎖定策略,本地策略,審核策略,電腦記錄哪些安全事件 最後在域環境中使用組策略配置電腦安全。 1.在工作組中的安全策略,打開本地安全 ...
  • 背景 By 魯迅 By 高爾基 說明: 1. Kernel版本:4.14 2. ARM64處理器 3. 使用工具:Source Insight 3.5, Visio 1. 介紹 子系統負責在運行時對CPU頻率和電壓的動態調整,以達到性能和功耗的平衡,它也叫 。 原理:CMOS電路中功耗與電壓的平方成 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...