【Java必修課】判斷String是否包含子串的四種方法及性能對比

来源:https://www.cnblogs.com/larrydpk/archive/2020/03/10/12459386.html
-Advertisement-
Play Games

1 簡介 判斷一個字元串是否包含某個特定子串是常見的場景,比如判斷一篇文章是否包含敏感辭彙、判斷日誌是否有 信息等。本文將介紹四種方法併進行性能測試。 2 四種方法 2.1 JDK原生方法String.indexOf 在 的函數中,提供了 方法,返回子串 第一次出現的位置,如果不存在則返回 1。例子 ...


1 簡介

判斷一個字元串是否包含某個特定子串是常見的場景,比如判斷一篇文章是否包含敏感辭彙、判斷日誌是否有ERROR信息等。本文將介紹四種方法併進行性能測試。

2 四種方法

2.1 JDK原生方法String.indexOf

String的函數中,提供了indexOf(subStr)方法,返回子串subStr第一次出現的位置,如果不存在則返回-1。例子如下:

//包含Java
assertEquals(7, "Pkslow Java".indexOf("Java"));
//如果包含多個,返回第一次出現位置
assertEquals(0, "Java Java".indexOf("Java"));
//大小寫敏感
assertEquals(-1, "Google Guava".indexOf("guava"));

2.2 JDK原生方法String.contains

最直觀判斷的方法是contains(subStr),返回類型為boolean,如果包含返回true,不包含則返回false。例子如下:

//包含Java
assertTrue("code in Java".contains("Java"));
//大小寫敏感,不包含GO
assertFalse("Let's go".contains("GO"));
//轉為大寫後包含
assertTrue("Let's go".toUpperCase().contains("GO"));

實際上,Stringcontains方法是通過調用indexOf方法來判斷的,源碼如下:

public boolean contains(CharSequence s) {
  return indexOf(s.toString()) > -1;
}

2.3 JDK原生正則匹配Pattern

通過強大的正則匹配來判斷,雖然有點殺雞用牛刀的感覺,但也不是不能用,例子如下:

Pattern pattern = Pattern.compile("Java");
//包含Java
Matcher matcher1 = pattern.matcher("Python, Java, Go, C++");
assertTrue(matcher1.find());
//不包含Java
Matcher matcher2 = pattern.matcher("Python, C, Go, Matlab");
assertFalse(matcher2.find());

2.4 Apache庫StringUtils.contains

Apache的commons-lang3提供許多開箱即用的功能,StringUtils就提供了許多與字元串相關的功能,例子如下:

//包含sub
assertTrue(StringUtils.contains("String subString", "sub"));
//大小寫敏感
assertFalse(StringUtils.contains("This is Java", "java"));
//忽略大小寫
assertTrue(StringUtils.containsIgnoreCase("This is Java", "java"));

3 性能對比

我們使用JMH工具來對四種方法進行性能測試,Maven引入代碼如下:

<dependency>
  <groupId>org.openjdk.jmh</groupId>
  <artifactId>jmh-core</artifactId>
  <version>${openjdk.jmh.version}</version>
</dependency>
<dependency>
  <groupId>org.openjdk.jmh</groupId>
  <artifactId>jmh-generator-annprocess</artifactId>
  <version>${openjdk.jmh.version}</version>
</dependency>

測試代碼如下:

@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.NANOSECONDS)
public class StringContainsPerformanceTest {
    @State(Scope.Thread)
    public static class MyState {
        private String text = "If you want to be smart; read. If you want to be really smart; read a lot.";
        Pattern pattern = Pattern.compile("read");
    }

    @Benchmark
    public int indexOf(MyState state) {
        return state.text.indexOf("read");
    }

    @Benchmark
    public boolean contains(MyState state) {
       return state.text.contains("read");
    }

    @Benchmark
    public boolean stringUtils(MyState state) {
        return StringUtils.contains(state.text, "read");
    }

    @Benchmark
    public boolean pattern(MyState state) {
        return state.pattern.matcher(state.text).find();
    }

    public static void main(String[] args) throws Exception {
        Options options = new OptionsBuilder()
                .include(StringContainsPerformanceTest.class.getSimpleName())
                .threads(6)
                .forks(1)
                .warmupIterations(3)
                .measurementIterations(6)
                .shouldFailOnError(true)
                .shouldDoGC(true)
                .build();
        new Runner(options).run();
    }
}

測試結果如下:

Benchmark    Mode  Cnt    Score    Error  Units
contains     avgt    6   11.331 ±  1.435  ns/op
indexOf      avgt    6   11.250 ±  1.822  ns/op
pattern      avgt    6  101.196 ± 12.047  ns/op
stringUtils  avgt    6   29.046 ±  3.873  ns/op

最快的就是indexOf方法,其次是contains方法,二者應該沒有實際區別,contains是調用indexOf來實現的。Apache的StringUtils為第三方庫,相對慢一些。最慢的是使用了正則的Pattern的方法,這不難理解,正則引擎的匹配是比較耗性能的。

4 總結

本文介紹了判斷一個字元串是否包含某個特定子串的四種方法,並通過性能測試進行了對比。其中性能最好的是String的indexOf方法和contains方法,建議使用contains方法,性能好,跟indexOf相比,更直觀,更不容易犯錯。畢竟讓每個人時刻記住返回-1代表不存在也不是一件容易的事。

但是,使用indexOfcontains方法都需要註意做判空處理,這時StringUtils的優勢就體現出來了。


歡迎關註公眾號<南瓜慢說>,將持續為你更新...

file

多讀書,多分享;多寫作,多整理。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • [TOC] python–策略模式 前言 策略模式作為一種軟體設計模式,指對象有某個行為,但是在不同的場景中,該行為有不同的實現演算法。 策略模式: 定義了一族演算法(業務規則); 封裝了每個演算法; 這族的演算法可互換代替(interchangeable) 不會影響到使用演算法的客戶. 結構圖 一. 應用 ...
  • MonkeyPatchWarning: Monkey-patching ssl after ssl has already been imported may lead to errors 調整一下導入順序 import gevent from gevent import monkey monkey ...
  • RecursionError: maximum recursion depth exceeded while calling a Python object 超過了Python的最大遞歸深度。 import sys sys.setrecursionlimit(按需定義次數) ...
  • 參考:https://stackoverflow.com/questions/38237777/django-timezone-now-vs-timezone-now ...
  • 獲取系統硬體 裡面的參數是啥意思自己去查吧,沒怎麼深入去瞭解 ...
  • 一、使用UML表示InputStream和OutputStream的繼承結構圖 二、使用UML表示Reader和Writer的繼承結構圖 三、FileInputStream舉例 package com.bjpowernode.java_learning; import java.io.*; ​ pu ...
  • 前言 考慮一個功能業務,在 程式中向指定的某個用戶進行實時通訊 在Web運用的 通訊功能中(如線上客服),為保證點對點通訊.而這個看似簡單的根據用戶尋到起 通道實際會碰到不少問題 1. web程式中的 協議是無狀態的 2. 一般項目中 服務和 項目是獨立部署的 3. 連接存在重連的情況,而 對象每次 ...
  • 1. Spring依賴註入方式 今天這裡主要講解一下Spring框架中的依賴註入的多種方式及相關的一系列配置,這也是Spring這款輕量級DI、IOC的Bean容器框架的核心魅力所在。 Spring依賴註入方式這裡著重說明一下構造器參數註入、多類型(Arrays、Set、List、Map、Prope ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...