Java提取文本文檔中的所有網址(小案例介紹正則基礎知識)

来源:https://www.cnblogs.com/baijinqiang/archive/2019/06/21/11067033.html
-Advertisement-
Play Games

正則表達式基礎以及Java中使用正則查找 定義: 正則表達式是一些用來匹配和處理文本的字元串 正則的基礎(先大致瞭解下) 1. 正則表達式的作用 1. 查找特定的信息(搜索) 2. 替換一些文本(替換) 2. 正則基礎知識 1. 元字元 . 匹配除換行符(\n)以外的任何單個字元 w 匹配字母、數字 ...


正則表達式基礎以及Java中使用正則查找

定義: 正則表達式是一些用來匹配和處理文本的字元串

正則的基礎(先大致瞭解下)

1. 正則表達式的作用

  1. 查找特定的信息(搜索)

  2. 替換一些文本(替換)

2. 正則基礎知識

1. 元字元

  • . 匹配除換行符(\n)以外的任何單個字元
  • w 匹配字母、數字、下劃線、漢字
  • s 匹配任意空白字元(包括空格、製表符、換頁符等)
  • d 匹配數字,匹配單詞的開始或結束
  • ^ 匹配字元串的開始
  • $ 匹配字元串的結束

例子:

#匹配abc開頭的字元串  
^abd

#匹配8位數字的QQ號
^dddddddd$

#匹配以153開頭的11位數字手機號  
^153dddddddd$  

2. 重覆限定符

  • * 重覆0次或更多次
  • + 重覆1次或更多次
  • ? 重覆0次或1次
  • {n} 重覆n次
  • {n,} 重覆n次或更多次
  • {n,m} 重覆n到m次
#匹配8位數字QQ號    
^d{8}$

#匹配153開頭11位手機號  
^(153)d{8}$

#匹配身份證號第7到14位(出生日期)    
^d{7,14}$  

#匹配以a開頭的,0個或者多個以b結尾的字元串
^ab*$

3. 分組

#匹配字元串中包含0到多個ab開頭
^(ab)*$

4. 條件或

正則用【|】表示或,當滿足分支里任何一種條件時,就會匹配成功

#匹配手機號中聯通的手機(聯通號段130/131/132等)
^(130|131|132)d{8}$

5. 區間

正則提供‘[]’表示區間條件

  • [0-9] 限定0到9
  • [a-z] 限定a-z
  • [165] 限定某些數字

Java中使用正則表達式

這裡會說一個例子:在一段txt文檔中找出所有的網址

Java與正則

1. 這裡有一段100000000(自己數,我也不知道幾個0)行的文本,如圖

原始文檔

2. 高手寫好的匹配url的正則(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]當然還有n多種方式

3. Java代碼獻上

正則表達式匹配使用方式

/**
 * 參數1 regex:我們的正則字元串
 * 參數2 就是一大段文本,這裡用data表示
 */
private String filterSpecialStr(String regex, String data) {
    //sb存放正則匹配的結果
    StringBuffer sb = new StringBuffer();
    //編譯正則字元串
    Pattern p = Pattern.compile(regex);
    //利用正則去匹配
    Matcher matcher = p.matcher(data);
    //如果找到了我們正則里要的東西
    while (matcher.find()) {
        //保存到sb中,"\r\n"表示找到一個放一行,就是換行
        sb.append(matcher.group() + "\r\n");
    }
    return sb.toString();
}

4. 這裡增加兩個文件的讀寫

Java讀取文本文件

private String readFile(String pathName) {
    //讀取到的文件內容放到這個sb里
    StringBuffer sb = new StringBuffer();
    //The Java 7 try-with-resources syntax (Automatic Resource Management) is nice (這種寫法是Java7的一種語法,自動管理資源,不理解自行百度)
    try (BufferedReader br = new BufferedReader(new FileReader(pathName))) {
        String line;
        while ((line = br.readLine()) != null) {
            sb.append(line + "\r\n");
        }
        System.out.println("讀取文件完成");
    } catch (IOException e) {
        e.printStackTrace();
    }
    return sb.toString();
    }

Java寫入文本文件

private void writeFile(String pathName, String data) {
    try {
        //文件不存在的話新建,存在覆蓋
        File file = new File(pathName);
        file.createNewFile();
        //The Java 7 try-with-resources syntax (Automatic Resource Management) is nice
        try (BufferedWriter bw = new BufferedWriter(new FileWriter(file))) {
            bw.write(data);
            bw.flush();
            System.out.println("文件寫入完成");
        } catch (IOException e) {
            e.printStackTrace();
        }
    } catch (IOException e) {
        e.printStackTrace();
    }
}

5. 執行結果

測試代碼

把文檔.txt讀取到Java中,然後處理完,最後寫到我指定的文件中

public static void main(String[] args) {
    //0. 準備好正則
    String regex = "(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]";
    //1. 讀取文檔
    String data = readFile("F:\\test\\文檔.txt");
    //2. 正則查找
    String needData = filterSpecialStr(regex, data);
    //3. 寫到某個文件中
    writeFile("F:\\test\\needData.txt", needData);
}

結果

過濾之後的文檔


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.首先先安裝python3,安裝完成python3後自然就有了pip 2.然後使用pip install scapy 安裝scapy,如果提示升級pip就先升級pip,升級完pip後再使用這個命令安裝scapy 3.安裝完之後如果再cmd下能敲scapy,但是提示報錯,去這個網站下載源碼https ...
  • "上一篇" 中我們初步體驗了google benchmark的使用,在本文中我們將更進一步深入瞭解google benchmark的常用方法。 本文索引 向測試用例傳遞參數 簡化多個類似測試用例的生成 使用參數生成器 向測試用例傳遞參數 之前我們的測試用例都只接受一個 類型的參數,如果我們需要給測試 ...
  • 這個月經歷了好多事,一忙就把更新的事給忘了 但是絕對沒有偷懶,格鬥游戲進展神速 8號給我媽下葬回來就研究結婚的事, 因為種種原因,今年先不舉辦婚禮了,其它的照常,後天就去拍婚紗照 媳婦現在還在一邊組裝她買的非常麻煩的禮糖盒子...至少要150人份的 格鬥游戲進展 1:增加2P,並且實現了兩個人換位置 ...
  • 一、冒泡排序介紹 冒泡排序(英語:Bubble Sort)是一種簡單的排序演算法。它重覆地遍歷要排序的數列,一次比較兩個元素,如果他們的順序錯誤就把他們交換過來。遍曆數列的工作是重覆地進行直到沒有再需要交換,也就是說該數列已經排序完成。這個演算法的名字由來是因為越小的元素會經由交換慢慢“浮”到數列的頂端 ...
  • python,flask, ...
  • 在Python中,有這兩個概念容易讓人混淆。第一個是可迭代對象(Iterable),第二個是迭代器(Iterator),第三個是生成器(Generator),這裡暫且不談生成器。 可迭代對象 列表、元組、字元串、字典等都是可迭代對象,可以使用for迴圈遍歷出所有元素的都可以稱為可迭代對象(Itera ...
  • 嵌套 ? 一系列字典存儲在列表or列表作為值存儲在字典or字典中套字典 1. 字典列表 這樣手動一個一個輸入太費勁,讓其自動生成多個: 但此時生成的數量是很多了,可都具有一樣的特征,怎麼辦呢? 通過切片修改部分外星人的特征,就可生成具有不同特征的外星人。 2. 在字典中存儲列表 多個鍵值對時: 運行 ...
  • 一、Cache緩存簡介 從Spring3開始定義Cache和CacheManager介面來統一不同的緩存技術; Cache介面為緩存的組件規範定義,包含緩存的各種操作集合; Cache介面下Spring提供了各種緩存的實現; 如RedisCache,EhCacheCache ,ConcurrentM ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...