[爬蟲學習筆記]基於 SimHash 的去重覆處理模塊ContentSeen的構建

来源:http://www.cnblogs.com/JiaoWoWeiZai/archive/2016/09/13/5869609.html
-Advertisement-
Play Games

Internet上的一些站點常常存在著鏡像網站(mirror),即兩個網站的內容一樣但網頁對應的功能變數名稱不同。這樣會導致對同一份網頁爬蟲重覆抓取多次。為了避免這種情況,對於每一份抓取到的網頁,它首先需要進入ContentSeen模塊。該模塊會判斷網頁的內容是否和已下載過的某個網頁的內容一致,如果一致,則... ...


      Internet上的一些站點常常存在著鏡像網站(mirror),即兩個網站的內容一樣但網頁對應的功能變數名稱不同。這樣會導致對同一份網頁爬蟲重覆抓取多次。為了避免這種情況,對於每一份抓取到的網頁,它首先需要進入ContentSeen模塊。該模塊會判斷網頁的內容是否和已下載過的某個網頁的內容一致,如果一致,則該網頁不會再被送去進行下一步的處理。這樣的做法能夠顯著的降低爬蟲需要下載的網頁數。至於如果判斷兩個網頁的內容是否一致,一般的思路是這樣的:並不會去直接比較兩個網頁的內容,而是將網頁的內容經過計算生成FingerPrint(指紋),通常FingerPrint是一個固定長度的字元串,要比網頁的正文短很多。如果兩個網頁的FingerPrint一樣,則認為它們內容完全相同。

      為了完成這一模塊,首先我們需要一個強大的指紋演算法,將我們的網頁內容計算成指紋存入資料庫,下次直接判斷指紋在保存前通過指紋的對比即可成功完成去重覆操作。

      首先來看一下大名鼎鼎的Google公司使用的網頁去重覆演算法SimHash吧:

      GoogleMoses Charikar發表的一篇論文“detecting near-duplicates for web crawling”中提出了simhash演算法,專門用來解決億萬級別的網頁的去重任務。

      SimHash作為locality sensitive hash(局部敏感哈希)的一種:

      其主要思想是降維,將高維的特征向量映射成低維的特征向量,通過兩個向量的Hamming Distance來確定文章是否重覆或者高度近似。

      其中,Hamming Distance,又稱漢明距離,在資訊理論中,兩個等長字元串之間的漢明距離是兩個字元串對應位置的不同字元的個數。也就是說,它就是將一個字元串變換成 另外一個字元串所需要替換的字元個數。例如:1011101 與 1001001 之間的漢明距離是 2。至於我們常說的字元串編輯距離則是一般形式的漢明距離。

      如此,通過比較多個文檔的SimHash值的海明距離,可以獲取它們的相似度。

      詳情可以看這裡SimHash演算法

_______________________________________________________________________________________________

下麵我們來進行代碼實現:

using System;
using System.Collections.Generic;
using System.Linq;

namespace Crawler.Common
{
    public class SimHashAnalyser
    {

        private const int HashSize = 32;

        public static float GetLikenessValue(string needle, string haystack, TokeniserType type = TokeniserType.Overlapping)
        {
            var needleSimHash = GetSimHash(needle, type);
            var hayStackSimHash = GetSimHash(haystack, type);
            return GetLikenessValue(needleSimHash, hayStackSimHash);
        }

        public static float GetLikenessValue(int needleSimHash, int hayStackSimHash)
        {
            return (HashSize - GetHammingDistance(needleSimHash, hayStackSimHash)) / (float)HashSize;
        }

        private static IEnumerable<int> DoHashTokens(IEnumerable<string> tokens)
        {
            return tokens.Select(token => token.GetHashCode()).ToList();
        }

        private static int GetHammingDistance(int firstValue, int secondValue)
        {
            var hammingBits = firstValue ^ secondValue;
            var hammingValue = 0;
            for (var i = 0; i < 32; i++)
                if (IsBitSet(hammingBits, i))
                    hammingValue += 1;
            return hammingValue;
        }

        private static bool IsBitSet(int b, int pos)
        {
            return (b & (1 << pos)) != 0;
        }


        public static int GetSimHash(string input)
        {
            return GetSimHash(input, TokeniserType.Overlapping);
        }

        public static int GetSimHash(string input, TokeniserType tokeniserType)
        {
            ITokeniser tokeniser;
            if (tokeniserType == TokeniserType.Overlapping)
                tokeniser = new OverlappingStringTokeniser();
            else
                tokeniser = new FixedSizeStringTokeniser();

            var hashedtokens = DoHashTokens(tokeniser.Tokenise(input));
            var vector = new int[HashSize];
            for (var i = 0; i < HashSize; i++)
                vector[i] = 0;

            foreach (var value in hashedtokens)
                for (var j = 0; j < HashSize; j++)
                    if (IsBitSet(value, j))
                        vector[j] += 1;
                    else
                        vector[j] -= 1;
            var fingerprint = 0;
            for (var i = 0; i < HashSize; i++)
                if (vector[i] > 0)
                    fingerprint += 1 << i;
            return fingerprint;
        }

    }

    public interface ITokeniser
    {
        IEnumerable<string> Tokenise(string input);
    }

    public class FixedSizeStringTokeniser : ITokeniser
    {
        private readonly ushort _tokensize;
        public FixedSizeStringTokeniser(ushort tokenSize = 5)
        {
            if (tokenSize < 2)
                throw new ArgumentException("Token 不能超出範圍");
            if (tokenSize > 127)
                throw new ArgumentException("Token 不能超出範圍");
            _tokensize = tokenSize;
        }

        public IEnumerable<string> Tokenise(string input)
        {
            var chunks = new List<string>();
            var offset = 0;
            while (offset < input.Length)
            {
                chunks.Add(new string(input.Skip(offset).Take(_tokensize).ToArray()));
                offset += _tokensize;
            }
            return chunks;
        }

    }

    public class OverlappingStringTokeniser : ITokeniser
    {

        private readonly ushort _chunkSize;
        private readonly ushort _overlapSize;

        public OverlappingStringTokeniser(ushort chunkSize = 4, ushort overlapSize = 3)
        {
            if (chunkSize <= overlapSize)
                throw new ArgumentException("Chunck 必須大於 overlap");
            _overlapSize = overlapSize;
            _chunkSize = chunkSize;
        }

        public IEnumerable<string> Tokenise(string input)
        {
            var result = new List<string>();
            var position = 0;
            while (position < input.Length - _chunkSize)
            {
                result.Add(input.Substring(position, _chunkSize));
                position += _chunkSize - _overlapSize;
            }
            return result;
        }


    }

    public enum TokeniserType
    {
        Overlapping,
        FixedSize
    }
}

 

調用方法如下:

var s1 = "the cat sat on the mat.";
var s2 = "the cat sat on a mat.";

var similarity = SimHashAnalyser.GetLikenessValue(s1, s2);

Console.Clear();
Console.WriteLine("相似度: {0}%", similarity * 100);
Console.ReadKey();

 

輸出為:

相似度: 78.125%
接下來就是對ContentSeen模塊的簡單封裝:
using Crawler.Common;

namespace Crawler.Processing
{
    /// <summary>
    /// 對於每一份抓取到的網頁,它首先需要進入Content Seen模塊。該模塊會判斷網頁的內容是否和已下載過的某個網頁的內容一致,如果一致,則該網頁不會再被送去進行下一步的處理。
    /// </summary>
    public class ContentSeen
    {
        public static int GetFingerPrint(string html)
        {
            return SimHashAnalyser.GetSimHash(html);
        }

        public static float Similarity(int print1, int print2)
        {
            return SimHashAnalyser.GetLikenessValue(print1, print2);
        }

    }
}

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 網上看了好多博客,截取的精華 ...
  • shell script簡介 shell是解釋型語言,就是解釋器會一條一條的翻譯每一條語句並執行,對比之下,C語言是編譯型語言,編譯器把整個工程編譯成可執行文件才能執行 在沒有續行符( )的情況下,shell腳本的一條語句以"回車"為結束 任何一個shell腳本程式都必須在開頭用 標識使用的shel ...
  • echo 顯示後面的內容,預設選項表示將後面的內容原模原樣的顯示出來,可以配合Shell的管道與重定向使用實現對寫文件操作 $echo "this is echo" echo_content.txt $echo [ e] [內容字元串] 將內容中的轉義字元按照其含義顯示,支持的轉義字元如下: \a ...
  • 在安裝完ContextCapture軟體之後,大家懷著迫不及待的心情雙擊了運行快捷鍵。但是很遺憾的是,會產生下麵的提示視窗: 也許大家並不在意,就覺得關掉這個視窗不就行了。然而,頭疼的問題來了。這個視窗關了之後,軟體反而也關閉了!!!! 好了,既然問題出現了,那麼就需要有解決的方法! ——————— ...
  • 如果你初次使用Ubuntu,打開軟體中心看到那少的可憐的軟體一定十分失望,難道大名鼎鼎的Linux就這麼幾款軟體可用?當然不是,軟體中心只是Ubuntu提供的一個軟體庫,浩如煙海的Linux軟體其實都存儲在各個鏡像站里,掌握軟體管理命令才能充分使用Linux的便利功能。 apt cache和apt ...
  • 本地服務管理器視窗快捷鍵: services.msc ...
  • Linux系統NFS網路文件系統 NFS(network file system)網路文件系統,就是通過網路讓不同的主機系統之間可以共用文件或目錄,此種方法NFS客戶端使用掛載的方式讓共用文件或目錄到本地系統可掛載的目錄下 NFS實現是通過RPC服務來實現的 實現過程: 1、NFS RPC主要的功能 ...
  • ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...