詳解HASH【string】

-Advertisement-

HASH意為（散列），是OI的常用演算法。我們常用哈希的原因是，hash可以快速（一般來說是O(段長)）的求出一個子段的hash值，然後就可以快速的判斷兩個串是否相同。今天先講string類的hash。可以發現，與一個string有關的HASH值不僅僅跟每個字元的個數有關，還和字元的位子有關。 ...

HASH意為（散列），是OI的常用演算法。

我們常用哈希的原因是，hash可以快速（一般來說是O(段長)）的求出一個子段的hash值，然後就可以快速的判斷兩個串是否相同。

今天先講string類的hash。

可以發現，與一個string有關的HASH值不僅僅跟每個字元的個數有關，還和字元的位子有關。

通過簡單的思考，我們可以構造如圖的模型：

寫一個比較正常的hash模板吧

const int EE = 97;
const int MOD = 100000007;
int HASH(string &p)
{
   int E = 1;
   int ret = 0;
   int tl = p.size();
   for (int i=0;i<tl;i++)
      ret += E*p[i], E *= EE;
   return ret;
}
題目來了：

KMP問題

題目描述

如題，給出兩個字元串s1和s2，其中s2為s1的子串，求出s2在s1中所有出現的位置。

輸入輸出格式

輸入格式：

第一行為一個字元串，即為s1

第二行為一個字元串，即為s2

輸出格式：

若幹行，每行包含一個整數，表示s2在s1中出現的位置

接下來1行，包括length(s2)個整數，表示首碼數組next[i]的值。

輸入輸出樣例

輸入樣例#1：

ABABABC
ABA

輸出樣例#1：

1
3

說明

時空限制：1000ms,128M

數據規模：

設s1長度為N，s2長度為M

對於30%的數據：N<=15，M<=5

對於70%的數據：N<=10000，M<=100

對於100%的數據：N<=1000000，M<=1000000

思路

首先說明：此題正解為KMP，不為hash。如果想知道KMP演算法，請百度一下。

但是我們學的可是“hash”呀，不能直接預處理，如果直接預處理的話，時間為O(n*m)，炸掉。

我們就可以遞推：

　　"已知長度為m的序列a[1]...a[m],現在已知"a[1]...a[m]"的hash值為K,欲求a[2]...a[m+1]的hash值。"

可以這一樣想："改變EE的賦值方式，反過來賦值，這樣的話可以直接刪去第一個'a[1]*EE^(m-1)',再乘一個'EE',往後再移一位，再加上一個a[m+1]."

那麼，轉移方程也很容易寫了，為HASH[i]=(HASH[i-1]-a[i-2]*E[1]%M+M)%M*EE%M+a[i-2+m];(HASH[i]表示a[i-1]到a[i+m-2]的hash值。

另附代碼:

#include<cstdio>
#include<cstring>
#include<iostream>
#include<algorithm>
using namespace std;
int n,k,len1,len2;
int next1[1000001];
char s1[1000001];
char s2[1000001];
long long HASH[1000001];
long long E[1000001],M=1234567898765;

long long EE = 97;

int init()
{
    long long Key=0;
    int ans=0;
    memset(E,0,sizeof(E));
    memset(HASH,0,sizeof(HASH));
    E[len2]=1;
    for (int i=len2-1;i>=1;i--)
        E[i]=E[i+1]*EE%M;
    for (int i=1;i<=len2;i++)
        HASH[1]=(HASH[1]+E[i]*(s1[i-1]))%M;
    for (int i=1;i<=len2;i++)
        Key=(Key+E[i]*(s2[i-1]))%M;
    if (HASH[1]==Key) ans++;
    for (int i=2;i<=len1-len2+1;i++)
    {
        HASH[i]=(HASH[i-1]-s1[i-2]*E[1]%M+M)%M*EE%M+s1[i-2+len2];
        if (HASH[i]==Key) ans++;
    }
    printf("%d\n",ans);
}
int main(){
    scanf("%s",s1) ;
    scanf("%s",s2) ;
    len1=strlen(s1);
    len2=strlen(s2);
    init();
    return 0;
}

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

ubuntu16.04編譯安裝mysql-boost-5.7.21並編譯成php擴展測試與使用

我之前的文章已經改造了自定義MVC框架中的工具類（驗證碼，圖片上傳，圖像處理，分頁）4個類，接下來，就要改造模型類，模型類肯定要連接資料庫，由於我的Ubuntu Linux是裸裝的php(目前只編譯了一個gd擴展），所以需要編譯安裝mysql，並把它編譯成擴展，這裡，我選用5.7版本帶boost的源 ...
02 Java類的載入機制

1、什麼是類的載入類的載入指的是將類的.class文件中的二進位數據讀入到記憶體中，將其放在運行時數據區的方法區內，然後在堆區創建一個java.lang.Class對象，用來封裝類在方法區內的數據結構。類的載入的最終產品是位於堆區中的Class對象，Class對象封裝了類在方法區內的數據結構，並向程 ...
【JavaWeb】圖書管理系統【總結】

感想該項目是目前為止，我寫過代碼量最多的項目了.....雖然清楚是沒有含金量的【跟著視頻來寫的】，但感覺自己也在進步中...... 寫的過程中，出了不少的問題.....非常多的Servlet，JSP看得眼花..... 現在，想把該項目好好梳理一下要點，於是有了這篇博文.... E R圖該項目涉及 ...
Verilog_Day2

Verilog_Day1 在CSDN博客上。http://blog.csdn.net/m0_38073085 第三章：書上基本知識每個Verilog程式包括4個主要部分：埠定義，I/O說明，內部信號聲明和功能定義。 input/output/inout都預設是wire型而不是reg型變數。 1 ...
python 垃圾回收機制的思考

一、前言 Python 是一門高級語言，使用起來類似於自然語言，開發的時候自然十分方便快捷，原因是Python在背後為我們默默做了很多事情，其中一件就是垃圾回收，來解決記憶體管理，記憶體泄漏的問題。記憶體泄漏：當程式不停運行，有一部分對象沒有作用，但所占記憶體沒有被釋放，伺服器記憶體隨時間越來越少，最終導致 ...
[Lua] 迭代器閉合函數與泛型for

首先看看一下閉合函數(closure)，見如下代碼：閉合函數可以用來實現迭代器(iterator)（迭代器用來遍歷集合，每調用一次函數，即返回集合中的下一個元素）。例如：遍歷一個table的時候，我們經常使用如下方式。我們可以用while遍歷集合，也可以用for，並且用for會容易很多，下麵看 ...
哈希表詳解

哈希表（Hash table，也叫散列表），是根據關鍵碼值(Key value)而直接進行訪問的數據結構。也就是說，它通過把關鍵碼值映射到表中一個位置來訪問記錄，以加快查找的速度。這個映射函數叫做散列函數，存放記錄的數組叫做散列表。順序搜索以及二叉樹搜索樹中，元素存儲位置和元素各關鍵碼之間沒有對應 ...
springBoot之配置文件的讀取以及過濾器和攔截器的使用

前言在之前的學習 "springBoot" 中，成功的實現了Restful風格的基本服務。但是想將之前的工程作為一個項目來說，那些是僅僅不夠的。可能還需要獲取自定義的配置以及添加過濾器和攔截器。至於為什麼將這些寫在一起，只是因為這些比較簡單而且也會經常用到，所以乾脆就一起寫出來了。讀取配置文件 ...