關鍵詞的提取

来源:http://www.cnblogs.com/linjiaqin/archive/2016/06/05/5562406.html
-Advertisement-
Play Games

TF-IDF與餘弦相似性的應用(一):自動提取關鍵詞 轉自:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 作者: 阮一峰 日期: 2013年3月15日 作者: 阮一峰 日期: 2013年3月15日 這個標題看上去好像很複雜 ...


TF-IDF與餘弦相似性的應用(一):自動提取關鍵詞

轉自:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

 

作者: 阮一峰

日期: 2013年3月15日

這個標題看上去好像很複雜,其實我要談的是一個很簡單的問題。

有一篇很長的文章,我要用電腦提取它的關鍵詞(Automatic Keyphrase extraction),完全不加以人工干預,請問怎樣才能正確做到?

這個問題涉及到數據挖掘、文本處理、信息檢索等很多電腦前沿領域,但是出乎意料的是,有一個非常簡單的經典演算法,可以給出令人相當滿意的結果。它簡單到都不需要高等數學,普通人只用10分鐘就可以理解,這就是我今天想要介紹的TF-IDF演算法。

讓我們從一個實例開始講起。假定現在有一篇長文《中國的蜜蜂養殖》,我們準備用電腦提取它的關鍵詞。

一個容易想到的思路,就是找到出現次數最多的詞。如果某個詞很重要,它應該在這篇文章中多次出現。於是,我們進行"詞頻"(Term Frequency,縮寫為TF)統計。

結果你肯定猜到了,出現次數最多的詞是----"的"、"是"、"在"----這一類最常用的詞。它們叫做"停用詞"(stop words),表示對找到結果毫無幫助、必須過濾掉的詞。

假設我們把它們都過濾掉了,只考慮剩下的有實際意義的詞。這樣又會遇到了另一個問題,我們可能發現"中國"、"蜜蜂"、"養殖"這三個詞的出現次數一樣多。這是不是意味著,作為關鍵詞,它們的重要性是一樣的?

顯然不是這樣。因為"中國"是很常見的詞,相對而言,"蜜蜂"和"養殖"不那麼常見。如果這三個詞在一篇文章的出現次數一樣多,有理由認為,"蜜蜂"和"養殖"的重要程度要大於"中國",也就是說,在關鍵詞排序上面,"蜜蜂"和"養殖"應該排在"中國"的前面。

所以,我們需要一個重要性調整繫數,衡量一個詞是不是常見詞。如果某個詞比較少見,但是它在這篇文章中多次出現,那麼它很可能就反映了這篇文章的特性,正是我們所需要的關鍵詞。

用統計學語言表達,就是在詞頻的基礎上,要對每個詞分配一個"重要性"權重。最常見的詞("的"、"是"、"在")給予最小的權重,較常見的詞(" 中國")給予較小的權重,較少見的詞("蜜蜂"、"養殖")給予較大的權重。這個權重叫做"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF),它的大小與一個詞的常見程度成反比。

知道了"詞頻"(TF)和"逆文檔頻率"(IDF)以後,將這兩個值相乘,就得到了一個詞的TF-IDF值。某個詞對文章的重要性越高,它的TF-IDF值就越大。所以,排在最前面的幾個詞,就是這篇文章的關鍵詞

下麵就是這個演算法的細節。

第一步,計算詞頻。

考慮到文章有長短之分,為了便於不同文章的比較,進行"詞頻"標準化。

或者

第二步,計算逆文檔頻率。

這時,需要一個語料庫(corpus),用來模擬語言的使用環境。

如果一個詞越常見,那麼分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對得到的值取對數。

第三步,計算TF-IDF。

可以看到,TF-IDF與一個詞在文檔中的出現次數成正比,與該詞在整個語言中的出現次數成反比。所以,自動提取關鍵詞的演算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然後按降序排列,取排在最前面的幾個詞。

還是以《中國的蜜蜂養殖》為例,假定該文長度為1000個詞,"中國"、"蜜蜂"、"養殖"各出現20次,則這三個詞的"詞頻"(TF)都為 0.02。然後,搜索Google發現,包含"的"字的網頁共有250億張,假定這就是中文網頁總數。包含"中國"的網頁共有62.3億張,包含"蜜蜂" 的網頁為0.484億張,包含"養殖"的網頁為0.973億張。則它們的逆文檔頻率(IDF)和TF-IDF如下:

從上表可見,"蜜蜂"的TF-IDF值最高,"養殖"其次,"中國"最低。(如果還計算"的"字的TF-IDF,那將是一個極其接近0的值。)所以,如果只選擇一個詞,"蜜蜂"就是這篇文章的關鍵詞。

除了自動提取關鍵詞,TF-IDF演算法還可以用於許多別的地方。比如,信息檢索時,對於每個文檔,都可以分別計算一組搜索詞("中國"、"蜜蜂"、"養殖")的TF-IDF,將它們相加,就可以得到整個文檔的TF-IDF。這個值最高的文檔就是與搜索詞最相關的文檔。

TF-IDF演算法的優點是簡單快速,結果比較符合實際情況。缺點是,單純以"詞頻"衡量一個詞的重要性,不夠全面,有時重要的詞可能出現次數並不 多。而且,這種演算法無法體現詞的位置信息,出現位置靠前的詞與出現位置靠後的詞,都被視為重要性相同,這是不正確的。(一種解決方法是,對全文的第一段和 每一段的第一句話,給予較大的權重。)

下一次,我將用TF-IDF結合餘弦相似性,衡量文檔之間的相似程度。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 介紹一種新類型查詢方法,類似linq,lambda語法,類似標準的sql使用習慣,支持匿名類型,泛型,目前支持mssql,mysql, 切換隻需要DatabaseConfig.DatabaseType = DatabaseType.SQLServer;無需改任何代碼,dll後續開放下載 使用說明:基 ...
  • 單例模式 單例模式是許多開發人員最先接觸到的模式之一,可以認為就是一個全局變數。它的初始化過程無非就是一開始就是創建一個實例,或者延遲初始化等需要用到的時候創建一個實例。這裡需要註意的是多線程情況下創建一個實例,通常需要加鎖(Lock)來解決問題。這裡我們可以利用C 的系統函數Interlocked ...
  • 一、pytesseract介紹 1、pytesseract說明 pytesseract最新版本0.1.6,網址:https://pypi.python.org/pypi/pytesseract Python-tesseract is a wrapper for google's Tesseract- ...
  • 一、Collection介面 從《Java集合:整體結構》一文中我們知道所有的List和Set都繼承自Collection介面,該介面類提供了集合最基本的方法,雖然List介面和Set等都有一些自己獨有的方法,但是基本的操作類似。我們先看下Collection介面提供的方法: 總體上可以將Colle ...
  • 第一章: php線上手冊:http://php.net/manual/zh/index.php 在開始學習PHP之前,先來看一個合格的PHP程式員今後應具備哪些知識,這裡只是筆者的一些總結,希望對讀者接下來的學習有所幫助。 從廣泛意義上講,PHP程式員僅掌握PHP是不夠的,需要在學習PHP的過程中掌 ...
  • 最近嘗試學習golang,在某個網站(真忘了)上發現gotour是一款灰常叼的教程&指南,之後搜索發現有前輩給出了本地安裝離線gotour的方法,但實際安裝過程中發現一些問題: 1.通過go get bitbucket.org/mikespook/go-tour-zh/gotour命令安裝時報錯,提 ...
  • appender的詳細配置: log4j.appender.appenderName = classNameappenderName:自定義appderName,在log4j.rootLogger設置中使用;className:可設值如下: 1、ConsoleAppender選項:Threshold ...
  • 一、什麼是遞歸 如果函數包含了對其自身的調用,該函數就是遞歸的。遞歸做為一種演算法在程式設計語言中廣泛應用,它通常把一個大型複雜的問題層層轉化為一個與原問題相似的規模較小的問題來求解,遞歸策略只需少量的程式就可描述出解題過程所需要的多次重覆計算,大大地減少了程式的代碼量。例如,要計算1-9的9位數字的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...