Trie樹與AC自動機(未完成)

来源:http://www.cnblogs.com/manziqi/archive/2017/12/22/Trie_and_Acautomation.html
-Advertisement-
Play Games

Trie樹與AC自動機 作為現階段的學習中個人應有的常識,AC自動機形象的來講就是在Trie樹上跑的一個KMP。由此,我們就先來談一談Trie樹。(有圖) 1. Trie樹 又稱單詞查找樹,字典樹,一般用於字元串的匹配。它利用公共的字元串首碼進行查詢,減少了無謂的操作,是空間換時間的經典演算法。舉例: ...


Trie樹與AC自動機


作為現階段的學習中個人應有的常識,AC自動機形象的來講就是在Trie樹上跑的一個KMP。由此,我們就先來談一談Trie樹。(有圖)

1. Trie樹

又稱單詞查找樹,字典樹,一般用於字元串的匹配。它利用公共的字元串首碼進行查詢,減少了無謂的操作,是空間換時間的經典演算法。舉例:

pic

此圖包含了{"to", "tea", "ted", "ten", "a", "i", "in", "inn"}這些字元串。

Trie樹的基本性質可以歸納為:

  1. 根節點不包含字元,除根節點意外每個節點只包含一個字元。
  2. 從根節點到某一個節點,路徑上經過的字元連接起來,為該節點對應的字元串。
  3. 每個節點的所有子節點包含的字元串不相同。

Trie樹有兩個基本操作,一為插入,二為刪除,且兩者複雜度均為\(O(len)\)(其中$len = $ 字元串長度)。

我們以對五個串aaaa,abb,aabbb,baa,bab的操作進行說明。

1.基本操作

1.插入

1. 插入aaaa

首先插入串aaaa。對樹中沒有的節點進行新建,連接。結果:

example1

對,就是這樣的簡單插入。(圖中紅色字母代表一個單詞的結尾)

2. 插入abb

再插入串abb。在插入時,已有的節點直接走過去,沒有的就插入再走過去。結果:

1.插入a

example2

2.插入b

example3

3.再插入b

example4

完成。

3.插入aabbb

不再贅述,此操作請認真思考。結果:

example5

4.插入baa

因為根節點的兒子中沒有b,所以我們要在根節點後掛上一個b。其餘的新建與第一個串一樣。結果:

example5

5.插入bab

與第二個串相同。結果:

example6

結束。

2.查詢

為了避免冗餘,我們用簡單的幾張圖片表示過程。以串aabbb為例:

example7

example8

example9

example9

example10

完成。

簡單的操作就是這些。但在實際應用中,往往不只是單純返回一個串,更常用的是返回此處是否有串,或是串的個數,抑或狀態。下麵我們以幾個題目做例子。

2.題目

1.洛谷P2580 於是他錯誤的點名開始了

大意:

給定\(n\)個字典串,再對\(m\)個模式串進行匹配,若匹配到,輸出\(O\),未匹配到,輸出\(WRONG\),若匹配到且之前已經被匹配,輸出\(REPEAT\)

解:真的是很基本的Trie樹的題,此題在這裡是做代碼範例用途。詳細解釋見代碼。(不要在意這神奇的代碼風格)

#include <iostream>
#define re register
const int MAXN = 1000001;
struct Trie{                //定義Trie樹的結構,因為當前節點後可能會有26個小寫字母,也就是26個後繼,所以數組開26大小。
    int next[26];
    bool exist, repeat;     //exist:是否是字元串結尾(當前位置是否有字元串);repeat:此字元串是否被查詢過。
}a[MAXN];
int top, n, m;
std::string str;
inline void Trie_insert() {
    int iter(0), now(0), tmp(0);        //iter:指向字元;now:指向節點。此兩者起指針作用。
    for (iter; str[iter]; ++iter) {     //遍歷當前插入字元串。
        tmp = str[iter] - 'a';          //將當前字母用數字表示。
        if(!a[now].next[tmp]) a[now].next[tmp] = ++top;     //如果當前節點沒有代表該字母的後繼,則新建節點。
        now = a[now].next[tmp];         //將指針向後移。
    }
    a[now].exist = true;                //當前節點代表字元串結尾。
    return ;
}
inline int Trie_search() {
    int iter(0), now(0), tmp(0);
    for (iter; str[iter]; ++iter) {     //遍歷當前查詢字元串。
        tmp = str[iter] - 'a';          //與上方操作相同。
        if(!a[now].next[tmp]) return 0; //如果當前節點沒有代表該字母的後繼,則說明查詢失敗,返回零。
        now = a[now].next[tmp];         //指針後移。
    }
    return a[now].exist ? (!a[now].repeat ? (a[now].repeat = 1) : 2) : 0;
  /*
        相當於:
        if(a[now].exist) {              //判斷是否存在
            if(a[now].repeat) return 2; //判斷是否查詢過
            else {a[now].repeat = 1; return 1;}
        }
        else return 0;
  */
}
int main() {
    std::ios::sync_with_stdio(false);
    std::cin >> n;
    for (re int i = 1; i <= n; ++i) std::cin >> str, Trie_insert();
    std::cin >> m;
    for (re int i = 1; i <= m; ++i) {
        std::cin >> str;
        switch(Trie_search()) {     //得到查詢的返回值。若是0,說明匹配未成功;是1,說明匹配成功;是2,說明匹配成功,且重覆匹配。
            case (0): {
                std::cout << "WRONG\n";
                break;
            }
            case (1): {
                std::cout << "OK\n";
                break;
            }
            default: {
                std::cout << "REPEAT\n";
            }
        }
    }
    return 0;
}

就是這樣。

2.洛谷P2922 [USACO08DEC] 秘密消息Secret Message

大意:

給定\(M(1 \leqslant M \leqslant 50000)\)個字典串,第\(i\)個字典串有\(Bi(1 \leqslant Bi \leqslant 10000)\)位。再給定N(\(1 \leqslant N \leqslant 50000\))個模式串,第\(i\)個模式串有\(Cj\)(\(1 \leqslant Cj \leqslant 10000\))位 (\((\sum_{i = 1}^{M}Bi + \sum_{j = 1}^{N}Cj) \leqslant 500000\))。對每個模式串\(j\),求有多少串與當前模式串有相同首碼。(包括長度長於,等於與小於模式串的字典串)

解:在插入沿途做經過的標記,標記當前字母被幾個字元串經過。在查詢時\(ans\)加上經過字母上的結束標記。查詢結束時,如果是走到字典串結尾而結束,\(ans\)加上結束標記,直接退出;如果是走到模式串結尾而結束,\(ans\)則不加結束標記,而是要加上經過標記,然後退出。

前面的加結束標記好理解,但為什麼字典串比模式串長時要加經過標記呢?因為字典串比模式串長,說明字典串以模式串為首碼,按題意求有多少串與當前模式串有相同首碼,又因為經過標記正好代表這些串的個數,當然要用經過標記了。

這一道題思維量並不大,也算一道入門題。

#include <cctype>
#include <cstdio>
const int N = 10000;
struct Node{
    int next[2], exist, passby;         //exist:結束標記;passby:經過標記。
}cow[500010];
int m, n, b, j, tot, top;
bool fl(0);
char buf[N], *p = buf, *end = buf;
inline char Get_char() {
    if(p == end) {
        if(feof(stdin)) return (0);
        p = buf; end = buf + fread(buf, 1, N, stdin);
    }
    return *(p++);
}
inline void Get_int(int &x) {
    x = 0; char c(0);
    while (!isdigit(c = Get_char()));
    do {x = (x << 1) + (x << 3) + (c ^ 48);}
    while (isdigit(c = Get_char()));
    return ;
}
inline void Insert(int lent) {
    int now(0), c(0);
    for (int i = 1; i <= lent; ++i) {
        Get_int(c);
        if(!cow[now].next[c]) cow[now].next[c] = ++top;
        cow[cow[now].next[c]].passby++;         //普通插入,只不過多了經過標記。
        now = cow[now].next[c];
    }
    cow[now].exist++;
    return ;
}
inline void Query(int lent) {
    int now(0), c(0); tot = 0; fl = false; int i;
    for (i = 1; i <= lent; ++i) {
        Get_int(c);
        if(!cow[now].next[c]) {fl = true; break;}   //標記第一種情況,即字典串比模式串短。
        now = cow[now].next[c];
        tot += cow[now].exist;                      //加結束標記。
    }
    for (i = i + 1; i <= lent; ++i)
        Get_int(c);
    if(fl) {printf("%d\n", tot);}
    else {printf("%d\n", tot - cow[now].exist + cow[now].passby);}  //第二種情況,即字典串比模式串長,則減掉之前加上的結束標記,加上經過標記。
    return ;
}
int main() {
    Get_int(m); Get_int(n);             //不要在意快讀。
    for (int i = 1; i <= m; ++i) {
        Get_int(b); Insert(b);          //插入操作。
    }
    for (int i = 1; i <= n; ++i) {
        Get_int(j); Query(j);           //查詢操作。
    }
    return 0;
}

3.待添加

2.AC自動機


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 解決完畢後效果圖: 好友列表Vector添加的時候進行判斷,如果有相同的則不添加 int flag=0; for (int i = 0; i < names.size(); i++) { if (name.equals(names.get(i))) { flag=1; } } if(flag==0) ...
  • 學Python這麼久了,第一次寫一個這麼多的代碼(我承認只有300多行,重覆的代碼挺多的,我承認我確實垃圾),但是也挺不容易的 自定義函數+裝飾器,每一個模塊寫的一個函數 很多地方能用裝飾器(邏輯跟不上,有的地方沒用),包括雙層裝飾器(不會),很多地方需要優化,重覆代碼太多 我還是把我的流程圖拿出來 ...
  • Supervisor是用Python開發的一套client/server架構的進程管理程式,能做到開機啟動,以daemon進程的方式運行程式,並可以監控進程狀態等等。 linux進程管理方式有傳統的rc.d、新興的upstart、systemd等,與這些相比,Supervisor有著自己的特點。 便 ...
  • 如題,具體效果及代碼如下: 1 print("你好你叫什麼名字?") 2 print("我叫張三") 3 print("你好,張三,我叫李四") 4 5 print("你好你叫什麼名字?",end="") 6 print("我叫張三!",end="") 7 print("你好,張三,我叫李四",en ...
  • 版本:3.4.10 問題:啟動 zkServer.cmd時報錯如下, 解決辦法: bin目錄下 zkEnv.cmd配置 修改為: 把雙引號放在外面。 此時運行zkServer.cmd 用zkCli.cmd連接成功: 成功! ...
  • 使用While迴圈時經常會犯的一些小錯誤。以及猜年齡程式的2種編寫方式。 ...
  • 為什麼要用插件 主要還是自動化的考慮,如果額外使用Dockerfile進行鏡像生成,可能會需要自己手動指定jar/war位置,並且打包和生成鏡像間不同步,帶來很多瑣碎的工作。 插件選擇 使用比較多的是spotify的插件:https://github.com/spotify/docker maven ...
  • 關於本文說明,本人原博客地址位於http://blog.csdn.net/qq_37608890,本文來自筆者於2017年12月06日 18:06:30所撰寫內容(http://blog.csdn.net/qq_37608890/article/details/78731169)。 本文根據最近學習 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...