Java實現Sunday百萬級數據量的字元串快速匹配演算法

来源:https://www.cnblogs.com/zhaosq/archive/2019/04/01/10578459.html
-Advertisement-
Play Games

背景 在平時的項目中,幾乎都會用到比較兩個字元串時候相等的問題,通常是用==或者equals()進行,這是在數據相對比較少的情況下是沒問題的,當資料庫中的數據達到幾十萬甚至是上百萬千萬的數據需要從中進行匹配的時候,傳統的方法顯示是不行的,影響匹配的效率,時間也會要很久,用戶體驗很差的,今天就要介紹一 ...


    背景

      在平時的項目中,幾乎都會用到比較兩個字元串時候相等的問題,通常是用==或者equals()進行,這是在數據相對比較少的情況下是沒問題的,當資料庫中的數據達到幾十萬甚至是上百萬千萬的數據需要從中進行匹配的時候,傳統的方法顯示是不行的,影響匹配的效率,時間也會要很久,用戶體驗很差的,今天就要介紹一種字元串匹配的演算法Sunday。接下來就詳細介紹了

     Sunday演算法是Daniel M.Sunday於1990年提出的字元串模式匹配。其核心思想是:在匹配過程中,模式串發現不匹配時,演算法能跳過儘可能多的字元以進行下一步的匹配,從而提高了匹配效率。相比於另外幾個著名的字元串匹配演算法,KMP以及BM演算法而言,Sunday演算法不僅理解起來比較容易,而且往往能有更好的速度。
   

     首先i,j兩個指針指示的位置(也就是從頭開始匹配),當發現失配的時候就判斷子串的後一位在母串的字元即空格(k標記處)是否在子串中存在?如果存在則將該位置和子串中的該字元對齊,在從頭開始匹配。如果不存在就將子串向後移動,和母串k+1處的字元對齊,再進行匹配。重覆上面的操作直到找到,或母串被找完結束。

  

  如上圖,這次比較還是失配,但是k位置的e在子串中出現了,而且第一個就是,最後一個也是,這時候一定要將子串中靠後出現的e和母串中的e對齊如下圖。 

再從i,j開始進行比較。。。。。 
代碼如下

package per.zh.tess4j;

/***
* 字元串快速匹配sunday演算法
* sunday與horspool優於strstr、BM、KMP,BM匹配速度相當於KMP的三倍
* (1)strstr():c語言的庫函數
* (2)KMP(Knuth-Morris-Pratt)演算法
* (3)BM(Boyer-Moore)演算法
* (4)Horspool演算法
* (5)Sunday演算法
* @author lenovo
* @date 2019年3月22日
* description:
*/
public class SundayTest {


  public static void main(String[] args) {
    String s="abcdebcdbcdegbcde";
    String p="bcdeg";
    Sunday(s, p);

  }


  //註意每次都是從後向前
  public static int contains(char[] str,char ch){
    for(int i=str.length-1;i>=0;i--){
      if(str[i]==ch){
        return i;
      }
    }
    return -1;
  }

   

  /**
  * 匹配字元串
  * @param s 目標字元串
  * @param p 需要匹配的字元串
  */

  public static void Sunday(String s,String p){
    char[] sarray = s.toCharArray();
    char[] parray = p.toCharArray();
    int slen=s.length();
    int plen=p.length();
    int i=0,j=0;
    while(i<=slen-plen+j){//這句話控制索引i,j的範圍
      if(sarray[i]!=parray[j]){//假如主串的sarry[i]與模式串的parray[j]不相等
      if(i==slen-plen+j){
        break;//假如主串的sarry[i]與模式串的parray[j]不相等,並且i=slen-plen+j,說明這已經
        //是在和主串中最後可能相等的字元段比較了,並且不相等,說明後面就再也沒有相等的了,所以
        //跳出迴圈,結束匹配
      }
      //假如是主串的中間欄位與模式串匹配,且結果不匹配
      //則就從模式串的最後面開始,(註意是從後向前)向前遍歷,找出模式串的後一位在對應的母串的字元是否在子串中存在
     int pos=contains(parray, sarray[i+plen-j]);
     if(pos==-1){//表示不存在
       i=i+plen+1-j;
       j=0;
     }else{
      i=i+plen-pos-j;
      j=0;
    }
   }else{//假如主串的sarry[i]與模式串的parray[j]相等,則繼續下麵的操作
       if(j==plen-1){//判斷模式串的索引j是不是已經到達模式串的最後位置,
        //j==plen-1證明在主串中已經找到一個模式串的位置,
        //且目前主串尾部的索引為i,主串首部的索引為i-j,列印模式串匹配的第一個位置
        System.out.println("the start pos is "+(i-j)+" the end pos is "+i);
        //然後主串右移一個位置,再和模式串的首字元比較,從而尋找下一個匹配的位置
        i=i-j+1;
        j=0;
      }else{
        //假如模式串的索引j!=plen-1,說明模式串還沒有匹配完,則i++,j++繼續匹配,
        i++;
        j++;
      }
    }
   }
 }


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0"> <meta http-equiv ...
  • 一、TypeScript的特點 1.支持ES6規範 2.強大的IDE支持(集成開發環境) 1. 允許為變數指定類型,減少你在開發階段犯錯誤的幾率。 2. 語法提示,在IDE編寫代碼時,它會根據你所處的上下文把你能用的類,變數,方法,關鍵字給你提示出來。 3. 重構,方便的修改變數,方法,文件的名字, ...
  • 工廠模式 當我們創建一個對象比較複雜時且客戶端不關心於實例對象的創建過程時我們可以用工廠模式 類型: 簡單工廠模式 工廠方法模式 抽象工廠模式 簡單工廠模式 工廠方法模式 抽象工廠模式 簡單工廠模式 簡單工廠模式是屬於創建型模式,又叫做靜態工廠方法(Static Factory Method)模式, ...
  • 概念背景 現實世界中的實體被看成對象,對象之間可能存在著聯繫或關係,基於對象之間可能存在的關係,引入了對象關係的概念。 對象關係的定義 對象之間存在的關係稱為對象關係。 對象關係的分類 根據對象之間存在的關係的性質,對象關係分為 1)關聯關係 2)聚合關係 3)繼承關係 其中聚合關係又可分為 1)組 ...
  • 在上一篇文章里我通過具體場景總結了“.net面向對象的設計原則”,其中也多次提到一些設計模式方面的技術,可想而知,設計模式在我們的開發過程中也是必不可少的。今天我們就來簡單交流下設計模式。對於設計模式的介紹呢,網上流行這麼一句話“想要搞好對象,必須要熟知套路”,所以百度中說設計模式簡介時“設計模式一 ...
  • 簡單理解 單例模式是指進程生命期內,某個類型只實例化一個對象。這是一種通過語言特性實現的編程約束。如果沒有約束,那麼多人協同編碼時,就會出現非預期的情況。 下麵以記憶體池做例子,假設其類型名為 。記憶體池的本意是統一管理全局記憶體,優化記憶體分配,提升性能,記錄記憶體分配信息方便追溯問題,需要全局只有一個實例 ...
  • 本片文章主要介紹外觀模式。 外觀模式:為子系統中一組介面提供一個一致的界面,此模式定義了一個高層介面,這個介面使得這一子系統更加容易使用。 我們先看下結構圖: 下麵我們就以這個結構圖寫個簡單的例子: 首先是四個子系統的代碼。 然後是外觀類,它需要瞭解所有的子系統的方法或屬性,進行組合,以備外界調用。 ...
  • 文件打開模式 | 打開模式 | 執行操作 | | | | | 'r' | 以只讀方式打開文件(預設) | | 'w' | 以寫入的方式打開文件,會覆蓋已存在的文件 | | 'x' | 如果文件已經存在,使用此模式打開將引發異常 | | 'a' | 以寫入模式打開,如果文件存在,則在末尾追加寫入 | ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...