簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

来源:https://www.cnblogs.com/PY1780/archive/2018/07/13/9307165.html
-Advertisement-
Play Games

找出中文錯別字 1.5 代碼獲取 你可以通過下麵命令將代碼下載到實驗樓環境中,作為參照對比進行學習。 $ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar 可以預想到,假設我們的語料庫長度為 n ,我們可以以 O(1) 的時間 ...


找出中文錯別字

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

1.5 代碼獲取

你可以通過下麵命令將代碼下載到實驗樓環境中,作為參照對比進行學習。

$ wget http://labfile.oss.aliyuncs.com/courses/828/Document.tar

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

可以預想到,假設我們的語料庫長度為 n ,我們可以以 O(1) 的時間複雜度來完成增添條目和查找條目的工作(因為我們給每個單詞都設定了ID,所以可以直接訪問前後關係對應的記憶體塊),但是這個矩陣會占據 O(n*n)的空間,而且這是一個稀疏矩陣,很多的空間被浪費了。

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

三、開發準備

打開Xfce終端,進入 Code 目錄,創建 ChineseSpellingCheck 文件夾, 將其作為課程的工作目錄。

本次實驗建議在 virtualenv 環境下進行。

關於 virtualenv,請看 virtualenv 介紹

首先安裝 virtualenv

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

私信小編007即可獲取數十套PDF哦!

五、實驗步驟

5.1 實現前後關係字典

創建文件夾 Code

在 Code 文件夾中創建文件 CountOfNumbers.py

我們先導入我們這次實驗需要的包

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

word[0].encode("UTF-8") 的作用是檢測英文的出現,如果一個中文字元如果沒有通過 "UTF-8" 編碼,也會被isalpha() 函數認為是一個英文字元。

我們繼續我們的 CountOfNumbers.py 的編寫

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

由於這個系統服務的對象是實驗樓未來的文檔,所以最佳的語料庫就是實驗樓現有的眾多文檔。在上一節中我們已經學習了怎麼樣創建並保存我們的 前後關係 字典。由於實驗樓內部的文檔不方便公開,我們沒有直接提供語料庫,而是提供了最終生成的字典。

之前也討論了,再大的語料庫,都不可能覆蓋所有中文單詞搭配。所以我們需要搜索引擎的場外助攻。

首先請下載我們的數據

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

查看網站的源碼,我們發現有關 創建文檔 的標題都用 <strong> 標簽標示了出來。

如果一個搭配不常出現。

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

搜索引擎會自動詢問 是否只需要 --- 的結果

或者搜索引擎的標題中很少有該中文單詞搭配的高亮結果。

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

我們還需要一個函數來判斷這個搭配是否常用。這個函數相對來說比較簡單,如果我們的單詞單配在搜索引擎中出現次數超過3次,那麼我們就認為它是一個常見的搭配。

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

獲得我們的數據,並對測試文件進行分詞。把沒有在前後關係文檔中出現的搭配放到 SuspiciousList 當中去。( suspicious adj.有嫌疑的)

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

獲得了 SuspiciousList 之後,我們可以通過搜索引擎的判斷來獲得最終的錯誤單詞列表 WrongWordList

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

5.4 把錯誤的單詞在HTML文件中高亮

我們在找出錯誤的單詞之後,肯定想看一看單詞在原文中的位置方便修改。實驗樓所有的文檔都是 .md 的 MarkDown 格式書寫的,沒有辦法直接高亮。但是我們可以吧 MarkDown 解析成 HTML 然後在網頁上對錯誤的單詞進行高亮操作。

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

簡歷有錯別字被拒絕聘用?文檔被領導說?Python實現永無錯別字!

 

怎麼樣,是不是很難?

進群:125240963  即可獲取數十套PDF哦!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 背景在很多互聯網產品應用中,有些場景需要加鎖處理,比如:秒殺,全局遞增ID,樓層生成等等。大部分的解決方案是基於DB實現的,Redis為單進程單線程模式,採用隊列模式將併發訪問變成串列訪問,且多客戶端對Redis的連接並不存在競爭關係。其次Redis提供一些命令SETNX,GETSET,可以方便實現 ...
  • 這是本系列的第三篇文章,前兩篇我們講了qt的安裝和編譯,今天我們講一講程式的打包。 好像我們現在都沒怎麼講到qt的使用,因為想要放開手腳寫代碼,一些基礎是要打牢的。 不過請放心,下一篇文章開始我們就會真正進入正題了。 打包 首先我們做一些打包前的準備工作,沒錯,做事之前先做好準備是個好習慣:-p。 ...
  • 1、While迴圈 2、do ... While迴圈 3、For迴圈 一、While /*while迴圈 語句格式: while(boolean表達式){ 語句塊; } 執行順序: 先判斷boolean表達式的值,如果是true。就執行語句塊。 再判斷boolean表達式的值,如果是true。就執行 ...
  • 先做個自我介紹,我13年考上一所很爛專科民辦的學校,學的是生物專業,具體的學校名稱我就不說出來獻醜了。13年我就輟學了,我在那樣的學校,一年學費要1萬多,但是根本沒有人學習,我實在看不到希望,我就退學了。退學後我也迷茫,大專都沒有畢業,我真的不知道我能幹什麼,我在糾結著我能做什麼。所以輟學後我一段時 ...
  • 做網路爬蟲是件很有意義的事情。首先,它可以是一個專門的職業。從公司層面講,業務和戰略可能都需要很多數據進行多維度分析,所以現在很多公司都有專門的爬蟲工程師負責設計數據採集系統;其次,很多公司以爬蟲為生,爬蟲就是他們用來賺取利潤的最主要手段,比如說各大搜索引擎和最近比較流行的即刻 APP;最後,爬蟲也 ...
  • 記憶體限制:256 MiB時間限制:1000 ms標準輸入輸出 題目類型:傳統評測方式:文本比較 上傳者: nzhtl1477 記憶體限制:256 MiB時間限制:1000 ms標準輸入輸出 題目類型:傳統評測方式:文本比較 上傳者: nzhtl1477 提交提交記錄統計討論測試數據 題目描述 一共有  ...
  • 斐波那契數列的5種python寫法       斐波那契數列(Fibonacci sequence),又稱黃金分割數列、因數學家 列昂納多·斐波那契 (Leonardoda Fibonacci)以兔子繁殖為例子而引入,故又稱為“兔子數列”, ...
  • 任務佈置:製作簡單地鐵站點管理系統 要求一:正確配置系統,建立基本正常的數據通道;要求二:實現地鐵站點的登記,擁有查詢功能; 正文: 今天介紹labview虛擬儀器軟體中 labSQL 本地調用 Access資料庫 使用的方法,首先瞭解整體設計的 思維導圖 。 在思維導圖中資料庫是由 Access ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...