簡歷有錯別字被拒絕聘用？文檔被領導說？Python實現永無錯別字！

-Advertisement-

找出中文錯別字 1.5 代碼獲取你可以通過下麵命令將代碼下載到實驗樓環境中，作為參照對比進行學習。 $ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar 可以預想到，假設我們的語料庫長度為 n ，我們可以以 O(1) 的時間 ...

找出中文錯別字

1.5 代碼獲取

你可以通過下麵命令將代碼下載到實驗樓環境中，作為參照對比進行學習。

$ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar

可以預想到，假設我們的語料庫長度為 n ，我們可以以 O(1) 的時間複雜度來完成增添條目和查找條目的工作（因為我們給每個單詞都設定了ID，所以可以直接訪問前後關係對應的記憶體塊），但是這個矩陣會占據 O(n*n)的空間，而且這是一個稀疏矩陣，很多的空間被浪費了。

三、開發準備

打開Xfce終端，進入 Code 目錄，創建 ChineseSpellingCheck 文件夾, 將其作為課程的工作目錄。

本次實驗建議在 virtualenv 環境下進行。

關於 virtualenv，請看 virtualenv 介紹

首先安裝 virtualenv

私信小編007即可獲取數十套PDF哦！

五、實驗步驟

5.1 實現前後關係字典

創建文件夾 Code

在 Code 文件夾中創建文件 CountOfNumbers.py

我們先導入我們這次實驗需要的包

word[0].encode("UTF-8") 的作用是檢測英文的出現，如果一個中文字元如果沒有通過 "UTF-8" 編碼，也會被isalpha() 函數認為是一個英文字元。

我們繼續我們的 CountOfNumbers.py 的編寫

由於這個系統服務的對象是實驗樓未來的文檔，所以最佳的語料庫就是實驗樓現有的眾多文檔。在上一節中我們已經學習了怎麼樣創建並保存我們的前後關係字典。由於實驗樓內部的文檔不方便公開，我們沒有直接提供語料庫，而是提供了最終生成的字典。

之前也討論了，再大的語料庫，都不可能覆蓋所有中文單詞搭配。所以我們需要搜索引擎的場外助攻。

首先請下載我們的數據

查看網站的源碼，我們發現有關創建文檔的標題都用 <strong> 標簽標示了出來。

如果一個搭配不常出現。

搜索引擎會自動詢問是否只需要 --- 的結果

或者搜索引擎的標題中很少有該中文單詞搭配的高亮結果。

我們還需要一個函數來判斷這個搭配是否常用。這個函數相對來說比較簡單，如果我們的單詞單配在搜索引擎中出現次數超過3次，那麼我們就認為它是一個常見的搭配。

獲得我們的數據，並對測試文件進行分詞。把沒有在前後關係文檔中出現的搭配放到 SuspiciousList 當中去。（ suspicious adj.有嫌疑的）

獲得了 SuspiciousList 之後，我們可以通過搜索引擎的判斷來獲得最終的錯誤單詞列表 WrongWordList

5.4 把錯誤的單詞在HTML文件中高亮

我們在找出錯誤的單詞之後，肯定想看一看單詞在原文中的位置方便修改。實驗樓所有的文檔都是 .md 的 MarkDown 格式書寫的，沒有辦法直接高亮。但是我們可以吧 MarkDown 解析成 HTML 然後在網頁上對錯誤的單詞進行高亮操作。

怎麼樣，是不是很難？

進群：125240963 即可獲取數十套PDF哦！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

基於Redis實現分散式鎖實戰

背景在很多互聯網產品應用中，有些場景需要加鎖處理，比如：秒殺，全局遞增ID，樓層生成等等。大部分的解決方案是基於DB實現的，Redis為單進程單線程模式，採用隊列模式將併發訪問變成串列訪問，且多客戶端對Redis的連接並不存在競爭關係。其次Redis提供一些命令SETNX，GETSET，可以方便實現 ...
【golang-GUI開發】Qt項目的打包發佈

這是本系列的第三篇文章，前兩篇我們講了qt的安裝和編譯，今天我們講一講程式的打包。好像我們現在都沒怎麼講到qt的使用，因為想要放開手腳寫代碼，一些基礎是要打牢的。不過請放心，下一篇文章開始我們就會真正進入正題了。打包首先我們做一些打包前的準備工作，沒錯，做事之前先做好準備是個好習慣:-p。 ...
Java基礎五

1、While迴圈 2、do ... While迴圈 3、For迴圈一、While /*while迴圈語句格式： while(boolean表達式){ 語句塊; } 執行順序：先判斷boolean表達式的值，如果是true。就執行語句塊。再判斷boolean表達式的值，如果是true。就執行 ...
c++教程

先做個自我介紹，我13年考上一所很爛專科民辦的學校，學的是生物專業，具體的學校名稱我就不說出來獻醜了。13年我就輟學了，我在那樣的學校，一年學費要1萬多，但是根本沒有人學習，我實在看不到希望，我就退學了。退學後我也迷茫，大專都沒有畢業，我真的不知道我能幹什麼，我在糾結著我能做什麼。所以輟學後我一段時 ...
網路爬蟲設計中需要註意的幾個問題

做網路爬蟲是件很有意義的事情。首先，它可以是一個專門的職業。從公司層面講，業務和戰略可能都需要很多數據進行多維度分析，所以現在很多公司都有專門的爬蟲工程師負責設計數據採集系統；其次，很多公司以爬蟲為生，爬蟲就是他們用來賺取利潤的最主要手段，比如說各大搜索引擎和最近比較流行的即刻 APP；最後，爬蟲也 ...
LOJ#515. 「LibreOJ β Round #2」貪心只能過樣例(bitset)

記憶體限制：256 MiB時間限制：1000 ms標準輸入輸出題目類型：傳統評測方式：文本比較上傳者： nzhtl1477 記憶體限制：256 MiB時間限制：1000 ms標準輸入輸出題目類型：傳統評測方式：文本比較上傳者： nzhtl1477 提交提交記錄統計討論測試數據題目描述一共有 ...
斐波那契數列的5種python實現寫法

斐波那契數列的5種python寫法斐波那契數列（Fibonacci sequence），又稱黃金分割數列、因數學家列昂納多·斐波那契（Leonardoda Fibonacci）以兔子繁殖為例子而引入，故又稱為“兔子數列”， ...
<02>labSQL的配置和使用方法

任務佈置：製作簡單地鐵站點管理系統要求一：正確配置系統，建立基本正常的數據通道；要求二：實現地鐵站點的登記，擁有查詢功能；正文：今天介紹labview虛擬儀器軟體中 labSQL 本地調用 Access資料庫使用的方法，首先瞭解整體設計的思維導圖。在思維導圖中資料庫是由 Access ...