記使用sed的一次坑_ZenDei技術網路在線

記使用sed的一次坑

-Advertisement-

sed做為linux下的三劍客，自然功能強大，但是如果使用不當，反而適得其反，今天就因為這個命令採了很深坑，分析一下原因，以諫後來者。情景回顧：項目中使用的一個python爬蟲採用的是多線程併發爬取，輸入為一個存放url的文件，因為程式隨時可能停止，所以每次重啟程式的時候需要將以爬取過的url去 ...

sed做為linux下的三劍客，自然功能強大，但是如果使用不當，反而適得其反，今天就因為這個命令採了很深坑，分析一下原因，以諫後來者。

情景回顧：

項目中使用的一個python爬蟲採用的是多線程併發爬取，輸入為一個存放url的文件，因為程式隨時可能停止，所以每次重啟程式的時候需要將以爬取過的url去除，實現思路如下：

但是這樣實現自動化的時候多有不便，一個程式就涉及五個文件，在加上其他的邏輯，文件眾多，用shell腳本實現自動化寫出來的代碼可讀性差，不易理解，所以想重新更改一下策略。有一種思路就是在程式啟動的時候將文本讀入一個list，然後刪除掉處理完成的，程式關閉時將list寫入文件，這樣看似輕鬆，但是文本內容過大，而且如果程式異常退出，就會丟失掉記憶體中list內容，幹了半天白幹了。

旁邊的一個小哥給了個建議，說是處理完就直接從Input中刪掉，這樣就不用再寫shell自動化了，程式重啟直接讀取input文件就Ok了。

但是如何用python實現刪除文件中指定的一行吶？總不能把文件讀成列表，然後把那一行刪除，然後再寫迴文件。因為是個大文件，這樣效率很低。尤其是在多線程併發的情況下這樣會導致大量IO，旁邊的小哥又獻策說可以用os.system('sed -i 1001d %s' % filename) 系統調用sed刪除該行，在無可奈何的情況下，一想這樣編碼也不是很簡單嗎？於是就欣然接收了這個提議，很快就實現了。

程式運行起來後才發現不是自己想的那樣，自己還是沒有搞明白sed，

原理剖析：

sed 是一種線上流編輯器，它一次處理一行內容。處理時，把當前處理的行存儲在臨時緩衝區中，稱為“模式空間”（pattern space），接著用sed命令處理緩衝區中的內容，處理完成後，把緩衝區的內容送往屏幕。接著處理下一行，這樣不斷重覆，直到文件末尾。文件內容並沒有改變。Sed主要用來自動編輯一個或多個文件；簡化對文件的反覆操作；編寫轉換程式等。

使用-i選項可以直接在原文件進行修改，他會將sed原本輸出到屏幕的內容輸出到一個以sed開頭的臨時文件，處理完畢後他會將這個臨時文件替換原本的文件，如果運行的時候出現錯誤，這個臨時文件就不會被刪除，一直留在那裡。

而且在多個線程同時調用sed的時候，就會出現以下情況

線程B刪除了第二行但第一行並未刪除，當他處理完的時候替換原文本又會將第一行帶回去，這樣本來已經線上程A中刪除的第一行，現在又出現了，於是被下一個線程讀取處理，又被刪除，又被替換回來，這樣就造成一個迴圈，運行程式但並不能有效刪除處理完畢的行。

sed固然強大，但是應該在直到其實現原理的情況下合理調用，避免在多線程情況下調用。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Oracle 11g XE 與 Oracle SQL Developer 的配置與使用

項目上使用Oracle資料庫，所以本地需要備份還原（居然沒有在區域網上共用一個資料庫）。比如說現在有 student.dmp 資料庫備份文件一份。安裝配置 Oracle 11g XE 簡介以下內容來自Oracle Database 快捷版 11g 第 2 版的 OTN 許可協議： Any us ...
聲音識別和聲學模型的建立

聲音識別和聲學模型的建立 [email protected] http://www.cnblogs.com/swje/ 作者：Zhouwan 2016-3-30 聲明 1）本文僅供學術交流，非商用。所以每一部分具體的參考資料並沒有詳細對應。如果某部分不小心侵犯了大家的利益，還望海涵，並聯繫博主 ...
初學MongoDB - 01 系列教程

一、對數據的增刪改查。 1. 新增 2. 修改 3. 查看 4. 刪除 ...
SQL Server資料庫鎖機制及類型

Microsoft SQL Server（以下簡稱SQL Server）作為一種中小型資料庫管理系統，已經得到了廣泛的應用，該系統更強調由系統來管理鎖。在用戶有SQL請求時，系統分析請求，自動在滿足鎖定條件和系統性能之間為資料庫加上適當的鎖，同時系統在運行期間常常自動進行優化處理，實行動態加鎖。對 ...
SQLServer2016 AlwaysOn基於證書的搭建筆記

最近搭建了一套SQLServer2016 AlwaysOn。筆者是採用修改各節點的hosts文件，以及修改電腦名的dns尾碼，來避免需要另外一臺DNS伺服器。上面128，129，130三個IP屬於AlwaysOn的三個節點伺服器 IP100屬於可用性組偵聽器IP IP150屬於群集途中遇到的 ...
mysql 中int類型欄位unsigned和signed的探索

轉自：http://www.0791quanquan.com/news_keji/topic_816453/ 探索一：正負數問題拿tinyint欄位來舉例，unsigned後，欄位的取值範圍是0-255，而signed的範圍是-128 - 127。那麼如果我們在明確不需要負值存在的情況下，通常是 ...
MySQL 中NULL和空值的區別

1：在進行count()統計某列的記錄數的時候，如果採用的NULL值，會別系統自動忽略掉，但是空值是會進行統計到其中的。 2：判斷NULL 用IS NULL 或者 is not null,SQL 語句函數中可以使用ifnull()函數來進行處理，判斷空字元用=''或者 <>''來進行處理 3: 對 ...
Linux常見問題

問題1: 解決方法: (該解決方法是設置為NAT模式) 問題2: 解決方法: 問題3: 設置虛擬機與系統時間同步問題在安裝完CentOS系統後發現時間與現在時間相差8小時，這是由於我們在安裝系統的時選擇的時區是上海，而CentOS預設bios時間是utc時間，所以時間相差了8小時。這個時候的bi ...