[爬蟲學習筆記]基於 SimHash 的去重覆處理模塊ContentSeen的構建

来源:http://www.cnblogs.com/JiaoWoWeiZai/archive/2016/09/13/5869609.html
-Advertisement-
Play Games

Internet上的一些站點常常存在著鏡像網站(mirror),即兩個網站的內容一樣但網頁對應的功能變數名稱不同。這樣會導致對同一份網頁爬蟲重覆抓取多次。為了避免這種情況,對於每一份抓取到的網頁,它首先需要進入ContentSeen模塊。該模塊會判斷網頁的內容是否和已下載過的某個網頁的內容一致,如果一致,則... ...


      Internet上的一些站點常常存在著鏡像網站(mirror),即兩個網站的內容一樣但網頁對應的功能變數名稱不同。這樣會導致對同一份網頁爬蟲重覆抓取多次。為了避免這種情況,對於每一份抓取到的網頁,它首先需要進入ContentSeen模塊。該模塊會判斷網頁的內容是否和已下載過的某個網頁的內容一致,如果一致,則該網頁不會再被送去進行下一步的處理。這樣的做法能夠顯著的降低爬蟲需要下載的網頁數。至於如果判斷兩個網頁的內容是否一致,一般的思路是這樣的:並不會去直接比較兩個網頁的內容,而是將網頁的內容經過計算生成FingerPrint(指紋),通常FingerPrint是一個固定長度的字元串,要比網頁的正文短很多。如果兩個網頁的FingerPrint一樣,則認為它們內容完全相同。

      為了完成這一模塊,首先我們需要一個強大的指紋演算法,將我們的網頁內容計算成指紋存入資料庫,下次直接判斷指紋在保存前通過指紋的對比即可成功完成去重覆操作。

      首先來看一下大名鼎鼎的Google公司使用的網頁去重覆演算法SimHash吧:

      GoogleMoses Charikar發表的一篇論文“detecting near-duplicates for web crawling”中提出了simhash演算法,專門用來解決億萬級別的網頁的去重任務。

      SimHash作為locality sensitive hash(局部敏感哈希)的一種:

      其主要思想是降維,將高維的特征向量映射成低維的特征向量,通過兩個向量的Hamming Distance來確定文章是否重覆或者高度近似。

      其中,Hamming Distance,又稱漢明距離,在資訊理論中,兩個等長字元串之間的漢明距離是兩個字元串對應位置的不同字元的個數。也就是說,它就是將一個字元串變換成 另外一個字元串所需要替換的字元個數。例如:1011101 與 1001001 之間的漢明距離是 2。至於我們常說的字元串編輯距離則是一般形式的漢明距離。

      如此,通過比較多個文檔的SimHash值的海明距離,可以獲取它們的相似度。

      詳情可以看這裡SimHash演算法

_______________________________________________________________________________________________

下麵我們來進行代碼實現:

using System;
using System.Collections.Generic;
using System.Linq;

namespace Crawler.Common
{
    public class SimHashAnalyser
    {

        private const int HashSize = 32;

        public static float GetLikenessValue(string needle, string haystack, TokeniserType type = TokeniserType.Overlapping)
        {
            var needleSimHash = GetSimHash(needle, type);
            var hayStackSimHash = GetSimHash(haystack, type);
            return GetLikenessValue(needleSimHash, hayStackSimHash);
        }

        public static float GetLikenessValue(int needleSimHash, int hayStackSimHash)
        {
            return (HashSize - GetHammingDistance(needleSimHash, hayStackSimHash)) / (float)HashSize;
        }

        private static IEnumerable<int> DoHashTokens(IEnumerable<string> tokens)
        {
            return tokens.Select(token => token.GetHashCode()).ToList();
        }

        private static int GetHammingDistance(int firstValue, int secondValue)
        {
            var hammingBits = firstValue ^ secondValue;
            var hammingValue = 0;
            for (var i = 0; i < 32; i++)
                if (IsBitSet(hammingBits, i))
                    hammingValue += 1;
            return hammingValue;
        }

        private static bool IsBitSet(int b, int pos)
        {
            return (b & (1 << pos)) != 0;
        }


        public static int GetSimHash(string input)
        {
            return GetSimHash(input, TokeniserType.Overlapping);
        }

        public static int GetSimHash(string input, TokeniserType tokeniserType)
        {
            ITokeniser tokeniser;
            if (tokeniserType == TokeniserType.Overlapping)
                tokeniser = new OverlappingStringTokeniser();
            else
                tokeniser = new FixedSizeStringTokeniser();

            var hashedtokens = DoHashTokens(tokeniser.Tokenise(input));
            var vector = new int[HashSize];
            for (var i = 0; i < HashSize; i++)
                vector[i] = 0;

            foreach (var value in hashedtokens)
                for (var j = 0; j < HashSize; j++)
                    if (IsBitSet(value, j))
                        vector[j] += 1;
                    else
                        vector[j] -= 1;
            var fingerprint = 0;
            for (var i = 0; i < HashSize; i++)
                if (vector[i] > 0)
                    fingerprint += 1 << i;
            return fingerprint;
        }

    }

    public interface ITokeniser
    {
        IEnumerable<string> Tokenise(string input);
    }

    public class FixedSizeStringTokeniser : ITokeniser
    {
        private readonly ushort _tokensize;
        public FixedSizeStringTokeniser(ushort tokenSize = 5)
        {
            if (tokenSize < 2)
                throw new ArgumentException("Token 不能超出範圍");
            if (tokenSize > 127)
                throw new ArgumentException("Token 不能超出範圍");
            _tokensize = tokenSize;
        }

        public IEnumerable<string> Tokenise(string input)
        {
            var chunks = new List<string>();
            var offset = 0;
            while (offset < input.Length)
            {
                chunks.Add(new string(input.Skip(offset).Take(_tokensize).ToArray()));
                offset += _tokensize;
            }
            return chunks;
        }

    }

    public class OverlappingStringTokeniser : ITokeniser
    {

        private readonly ushort _chunkSize;
        private readonly ushort _overlapSize;

        public OverlappingStringTokeniser(ushort chunkSize = 4, ushort overlapSize = 3)
        {
            if (chunkSize <= overlapSize)
                throw new ArgumentException("Chunck 必須大於 overlap");
            _overlapSize = overlapSize;
            _chunkSize = chunkSize;
        }

        public IEnumerable<string> Tokenise(string input)
        {
            var result = new List<string>();
            var position = 0;
            while (position < input.Length - _chunkSize)
            {
                result.Add(input.Substring(position, _chunkSize));
                position += _chunkSize - _overlapSize;
            }
            return result;
        }


    }

    public enum TokeniserType
    {
        Overlapping,
        FixedSize
    }
}

 

調用方法如下:

var s1 = "the cat sat on the mat.";
var s2 = "the cat sat on a mat.";

var similarity = SimHashAnalyser.GetLikenessValue(s1, s2);

Console.Clear();
Console.WriteLine("相似度: {0}%", similarity * 100);
Console.ReadKey();

 

輸出為:

相似度: 78.125%
接下來就是對ContentSeen模塊的簡單封裝:
using Crawler.Common;

namespace Crawler.Processing
{
    /// <summary>
    /// 對於每一份抓取到的網頁,它首先需要進入Content Seen模塊。該模塊會判斷網頁的內容是否和已下載過的某個網頁的內容一致,如果一致,則該網頁不會再被送去進行下一步的處理。
    /// </summary>
    public class ContentSeen
    {
        public static int GetFingerPrint(string html)
        {
            return SimHashAnalyser.GetSimHash(html);
        }

        public static float Similarity(int print1, int print2)
        {
            return SimHashAnalyser.GetLikenessValue(print1, print2);
        }

    }
}

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 網上看了好多博客,截取的精華 ...
  • shell script簡介 shell是解釋型語言,就是解釋器會一條一條的翻譯每一條語句並執行,對比之下,C語言是編譯型語言,編譯器把整個工程編譯成可執行文件才能執行 在沒有續行符( )的情況下,shell腳本的一條語句以"回車"為結束 任何一個shell腳本程式都必須在開頭用 標識使用的shel ...
  • echo 顯示後面的內容,預設選項表示將後面的內容原模原樣的顯示出來,可以配合Shell的管道與重定向使用實現對寫文件操作 $echo "this is echo" echo_content.txt $echo [ e] [內容字元串] 將內容中的轉義字元按照其含義顯示,支持的轉義字元如下: \a ...
  • 在安裝完ContextCapture軟體之後,大家懷著迫不及待的心情雙擊了運行快捷鍵。但是很遺憾的是,會產生下麵的提示視窗: 也許大家並不在意,就覺得關掉這個視窗不就行了。然而,頭疼的問題來了。這個視窗關了之後,軟體反而也關閉了!!!! 好了,既然問題出現了,那麼就需要有解決的方法! ——————— ...
  • 如果你初次使用Ubuntu,打開軟體中心看到那少的可憐的軟體一定十分失望,難道大名鼎鼎的Linux就這麼幾款軟體可用?當然不是,軟體中心只是Ubuntu提供的一個軟體庫,浩如煙海的Linux軟體其實都存儲在各個鏡像站里,掌握軟體管理命令才能充分使用Linux的便利功能。 apt cache和apt ...
  • 本地服務管理器視窗快捷鍵: services.msc ...
  • Linux系統NFS網路文件系統 NFS(network file system)網路文件系統,就是通過網路讓不同的主機系統之間可以共用文件或目錄,此種方法NFS客戶端使用掛載的方式讓共用文件或目錄到本地系統可掛載的目錄下 NFS實現是通過RPC服務來實現的 實現過程: 1、NFS RPC主要的功能 ...
  • ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...