Python每日一練(1):計算文件夾內各個文章中出現次數最多的單詞

来源:http://www.cnblogs.com/sxcmos/archive/2016/01/19/5143771.html
-Advertisement-
Play Games

#coding:utf-8import os,repath = 'test'files = os.listdir(path)def count_word(words): dic = {} max = 0 marked_key = '' #計算每個單詞出現的次數 for ...


#coding:utf-8
import os,re

path = 'test'
files = os.listdir(path)

def count_word(words):
    dic = {}
    max = 0
    marked_key = ''
    #計算每個單詞出現的次數
    for word in words:
        if dic.has_key(word) is False:
            dic[word] = 1
        else:
            dic[word] = dic[word] +1
    #每個字典的值之間做比較,得出最大的那個數字
    for key,value in dic.items():
        if dic[key] > max:
            max = dic[key]
            marked_key = key
    #跳出for迴圈列印出單詞和單詞出現的次數
    print(marked_key,max)

for f in files:
    with open(os.path.join(path,f)) as diary:
        words = re.findall("[a-zA-Z]+'*-*[a-zA-z]", diary.read())
        count_word(words)

#has_key(key) : 函數用於判斷鍵是否存在於字典中,如果鍵在字典dict里返回true,否則返回false。這裡用於判斷字典內的鍵是否出現過。

 

這個是Git上的Python每日一聯小項目,我就不提交到那邊了,寫到這裡來。

項目地址:https://github.com/Yixiaohan/show-me-the-code


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 中間插播了幾篇scalaz數據類型,現在又要回到Monad專題。因為FP的特征就是Monad式編程(Monadic programming),所以必須充分理解認識Monad、熟練掌握Monad運用。曾經看到一段對Monad的描述:“Monadic for-comprehension就是一種嵌入式編....
  • 正則表達式通過特定的式子匹配某種類型的字元串。對字元串進行匹配驗證或者從大量的字元串里提取出特定的信息。正則表達式包含普通字元和特殊字元。大部分的普通字元如‘A’或‘0’可以簡單的來匹配自己。如text可以匹配‘text’。特殊字元,可以來匹配一組字元串,或者來說明字元的用法。特征字元包括:.匹配任...
  • PHP 在變數定義中不需要(或不支持)明確的類型定義;變數類型是根據使用該變數的上下文所決定的。也就是說,如果把一個字元串值賦給變數 var,var 就成了一個字元串。如果又把一個整型值賦給 var,那它就成了一個整數。PHP 的自動類型轉換的一個例子是加號“+”。如果任何一個操作數是浮點數,則所有...
  • 出處:http://www.cnblogs.com/coderkian/在沒有用到虛函數的時候,C++的對象記憶體佈局和c語言的struct是一樣的,這個比較容易理解,本文只對有虛函數的情況作分析,大致可以從以下幾個方面闡述,1. 單一繼承2. 多重繼承3. 虛繼承下麵循序漸進的逐個分析,環境是ubu...
  • 其實全站亂碼問題的難點就是處理GET請求參數的問題。如果只是處理POST請求的編碼問題,以及響應編碼問題,這個就很好解決了response.setContentType("text/html;charset=utf-8");和request.setCharacterEncoding("utf-8")...
  • 記得以前在大學里學習c語言的時候,剛開始是很吃力的. 入門級別的演算法中有個叫冒泡排序法,也有稱為氣泡排序法.那時候剛接觸它就對它的名字特別感興趣,因為覺得很有意思.好了,廢話不多說了,我們先一起簡單回憶下這個冒泡排序法. 一.列印行和列一般是這樣的一個簡單代碼,輸出4行4列*:for(...
  • 地區分三層結構例如:大中華地區一級劃分:華東華中華北西南特別行政區華南-------------------------------------------------請輸入你要查看的大中華地區名字:華中------------------包含的省名字二級:-----------------湖北湖南...
  • 簡要介紹Java的記憶體區域:運行時數據區域HotSpot虛擬機對象一、概覽二、運行時數據區域2.1 程式計數器Program Counter Register,代表當前線程所執行的位元組碼的行號指示器,操作系統中的PC,這兩個是一個概念。執行時就是通過改變這個計數器來選取下一條需要執行的位元組碼指令。J...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...