20190221-文件操作

来源:https://www.cnblogs.com/hyj691001/archive/2019/02/21/10415427.html
-Advertisement-
Play Games

假定一個全英文的文件,讀取該文件,請統計多少個不重覆的單詞,並且在另外一個文件中寫上結果每個單詞出現的次數,以及一共有多少個不重覆的單詞分別為哪些 註意:文件中可能包含特殊符號 Step1:打開文件,可使用方法如下: 方法1:fp = open(file,'r',encoding ='utf-8') ...


假定一個全英文的文件,讀取該文件,請統計多少個不重覆的單詞,並且在另外一個文件中寫上結果每個單詞出現的次數,以及一共有多少個不重覆的單詞分別為哪些

 

註意:文件中可能包含特殊符號

Step1:打開文件,可使用方法如下:

  方法1:fp = open(file,'r',encoding ='utf-8')

  方法2:with open(file,'r',encoding ='utf-8') as fp:

Step2:讀取文件,基於該題的需求,我們按行讀取,並對每行進行處理如下:

  1.讀取每一行,將每一行中的特殊字元替換為空白

  2.將替換後的字元加到一個content裡面(content最終用來存儲文件裡面的所有被去掉特殊字元的單詞結果)

Step3:統計每個單詞的出現次數:

  1.統計結果使用字典存儲格式如下{單詞:出現次數}

  2.出現次數為1的單詞即為不重覆的單詞

Step4:將每個單詞的出現次數寫到一個新的文件中

  1.遍歷step產生的字典,將Key:value寫入新的文件

代碼如下:

def count_file_content(file_dir):
    result =''#存儲所有被處理了特殊字元的文件內容
    word_count_result={}#存儲單詞出現次數
    import string
    with open(file_dir,'r',encoding ='utf-8') as fp:
        for line in fp:
            s = line.strip()
            for i in string.punctuation:
                s = s.replace(i,' ')
            result +=s
#獲取不包含特殊字元的文件內容
    word_list = result.split()
    for item in word_list:
       # print(item)
        if item in word_count_result.keys():
            word_count_result[item]+=1
        else:
            word_count_result[item]=1
#獲取每個單詞出現次數
    count =0
    non_duplicateword=[]
    #統計不重覆單詞的個數
    for k,w in word_count_result.items():
        if w ==1:
            count+=1
            non_duplicateword.append(k)
#non_duplicateword存儲的所有僅出現一次的單詞,count 為僅出現一次的單詞總數
    with open(file_dir+'result.txt','w',encoding ='utf-8') as fp1:
        fp1.write('一共'+str(count)+'個不重覆的單詞\n')
        for k,w in word_count_result.items():
            fp1.write(k+"單詞出現"+str(w)+"次\n")
#將結果寫入另一個文件中

 

 

 

 

  

    

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • wxPython框架雖然成熟穩定,但是相對最近更火的PyQt框架來說,還是顯得古老了一些,控制項風格不符合現代審美觀,因此痞子衡決定學習一下PyQt的用法,感受下PyQt做出來的界面效果到底如何。根據wxPython學習經驗,當然首先要從PyQt的可視化GUI構建工具Qt Designer開始下手,因... ...
  • 本文通過講解如何解析application.properties屬性,介紹了幾個註解的運用@Value @ConfigurationProperties @EnableConfigurationProperties @Autowired @ConditionalOnProperty ...
  • 一個項目里只能有一個main函數, 如果出現 error:LNK2005 的錯誤,那麼需要檢查你是不是有兩個源代碼文件中都定義了main函數。 例如: 如果在a.cpp中定義了main函數,在b.cpp中也定義main函數,編譯執行就會報 error:LNK2005 的錯誤。 ...
  • 一、 lucene簡介 1. Lucene Lucene是apache下的一個開源的全文檢索引擎工具包。它為軟體開發人員提供一個簡單易用的工具包(類庫),以方便的在目標系統中實現全文檢索的功能。 官網: http://lucene.apache.org/ 2. 全文檢索 全文檢索是指電腦索引程式通 ...
  • 前面介紹了Lambda表達式的用法,從實踐中發現它確實極大地方便了開發者,然而不管是匿名內部類還是Lambda表達式,所舉的例子都離不開各類數組的排序方法,倘使Lambda表達式僅能用於sort方法,無疑限制了它的應用範圍。那麼除了sort方法,還有哪些場景能夠將Lambda表達式派上用場呢?既然匿 ...
  • 類可以允許其他類或者函數訪問他的非公有成員,方法是令其他類或者函數成為他的友元(friend)。 友元的聲明: 友元聲明只能出現在類的內部,但是在類內出現的具體位置不限;由於友元不是類的成員,所以不受所在區域訪問控制級別的約束。 友元的聲明並非傳統意義上的聲明,所以為了能夠正確的調用該友元函數,還須 ...
  • 輸出結果: ...
  • 題意 "題目鏈接" Sol 神仙題Orz 首先不難看出如果我們從$a_i$向$i$連一條邊,我們會得到以$0$為根的樹(因為每個點一定都有一個入度,出現環說明無解),同時在進行排列的時候需要保證父親節點一定在孩子節點之前出現 接下來考慮直接貪心。對於某些權值很小的點,我們需要讓其儘早出現,同時又要滿 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...