Java爬蟲系列二:使用HttpClient抓取頁面HTML

来源:https://www.cnblogs.com/sam-uncle/archive/2019/05/23/10908567.html
-Advertisement-
Play Games

爬蟲要想爬取需要的信息,首先第一步就要抓取到頁面html內容,然後對html進行分析,獲取想要的內容。上一篇隨筆《Java爬蟲系列一:寫在開始前》中提到了HttpClient可以抓取頁面內容。 今天就來介紹下抓取html內容的工具:HttpClient。 圍繞下麵幾個點展開: 什麼是HttpClie ...


爬蟲要想爬取需要的信息,首先第一步就要抓取到頁面html內容,然後對html進行分析,獲取想要的內容。上一篇隨筆《Java爬蟲系列一:寫在開始前》中提到了HttpClient可以抓取頁面內容。

今天就來介紹下抓取html內容的工具:HttpClient。

圍繞下麵幾個點展開:

  1. 什麼是HttpClient

  2. HttpClient入門實例

  3. 複雜應用
  4. 結束語

一、什麼是HttpClient

度娘說:

HttpClient 是Apache Jakarta Common 下的子項目,可以用來提供高效的、最新的、功能豐富的支持 HTTP 協議的客戶端編程工具包,並且它支持 HTTP 協議最新的版本和建議。
以下列出的是 HttpClient 提供的主要的功能,要知道更多詳細的功能可以參見 HttpClient 的官網:
(1)實現了所有 HTTP 的方法(GET,POST,PUT,HEAD 等)
(2)支持自動轉向
(3)支持 HTTPS 協議
(4)支持代理伺服器等

這裡面提到了官網,那就順便說下它官網上的一些東西。

根據百度給出的HomePage是這個:http://hc.apache.org/httpclient-3.x/,但是進入後你會發現有句話

大意是:Commons HttpClient這個項目已經不再維護了,它已經被Apache HttpComponents替代了。也就是說我們以後要用的話就用新的。點這個Apache HttpComponents的鏈接進去能看到它最新的版本是4.5,而且有快速上手的例子和專業的說明文檔。有興趣並且英文好的朋友可以好好研究下哦 ~~

額~~那個~~我的英文不好,就不按照官網的來了,直接給出我自己在網上學的練習案例~~

 

二、HttpClient入門實例

  1. 新建一個普通的maven項目:名字隨便起,我的叫:httpclient_learn
  2. 修改pom文件,引入依賴
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.8</version>
    </dependency>

     

  3. 新建java類
    package httpclient_learn;
    
    import java.io.IOException;
    
    import org.apache.http.HttpEntity;
    import org.apache.http.HttpStatus;
    import org.apache.http.client.ClientProtocolException;
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.client.utils.HttpClientUtils;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
    import org.apache.http.util.EntityUtils;
    
    public class HttpClientTest {
        
        public static void main(String[] args) {
            //1.生成httpclient,相當於該打開一個瀏覽器
            CloseableHttpClient httpClient = HttpClients.createDefault();
            CloseableHttpResponse response = null;
            //2.創建get請求,相當於在瀏覽器地址欄輸入 網址
            HttpGet request = new HttpGet("https://www.cnblogs.com/");
            try {
                //3.執行get請求,相當於在輸入地址欄後敲回車鍵
                response = httpClient.execute(request);
                
                //4.判斷響應狀態為200,進行處理
                if(response.getStatusLine().getStatusCode() == HttpStatus.SC_OK) {
                    //5.獲取響應內容
                    HttpEntity httpEntity = response.getEntity();
                    String html = EntityUtils.toString(httpEntity, "utf-8");
                    System.out.println(html);
                } else {
                    //如果返回狀態不是200,比如404(頁面不存在)等,根據情況做處理,這裡略
                    System.out.println("返回狀態不是200");
                    System.out.println(EntityUtils.toString(response.getEntity(), "utf-8"));
                }
            } catch (ClientProtocolException e) {
                e.printStackTrace();
            } catch (IOException e) {
                e.printStackTrace();
            } finally {
                //6.關閉
                HttpClientUtils.closeQuietly(response);
                HttpClientUtils.closeQuietly(httpClient);
            }
        }
    }

     

  4. 執行代碼,我們會發現列印出來的其實就是首頁完整的html代碼
    <!DOCTYPE html>
    <html lang="zh-cn">
    <head>
        //Java開發老菜鳥備註:由於內容太多,具體不再貼出來了
    </head>
    <body>
      //Java開發老菜鳥備註:由於內容太多,具體內容不再貼出來了
    </body> </html>

    操作成功!

好了,到這裡就完成了一個簡單的小例子。

爬一個網站不過癮,再來一打。接下來我們換個網站:https://www.tuicool.com/,你會發現結果是這樣的:

返回狀態不是200
<!DOCTYPE html>
<html>
    <head>
          <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
    </head>
    <body>
        <p>系統檢測親不是真人行為,因系統資源限制,我們只能拒絕你的請求。如果你有疑問,可以通過微博 http://weibo.com/tuicool2012/ 聯繫我們。</p>
    </body>
</html>

爬蟲程式被識別了,怎麼辦呢? 彆著急,慢慢往下看

三、複雜應用

第二個網站訪問不了,是因為網站有反爬蟲的處理,怎麼繞過他呢?

1.最簡單的是對請求頭進行偽裝,看代碼,加上紅框裡面的內容後再執行

你會發現返回結果變了,有真內容了(紅字警告先不管它,我們起碼獲取到了html內容)

那代碼中新加的那段內容是哪裡來的呢?

請打開谷歌瀏覽器的F12,對就是這裡了:

當然我們還可以設置請求的其他頭信息,如cookie等

2.上面說的是偽裝成瀏覽器,其實如果你偽裝了之後,如果短時間內一直多次訪問的話,網站會對你的ip進行封殺,這個時候就需要換個ip地址了,使用代理IP

網上有一些免費的代理ip網站,比如xici

我們選擇那些存活時間久並且剛剛被驗證的ip,我這裡選擇了“112.85.168.223:9999”,代碼如下

//2.創建get請求,相當於在瀏覽器地址欄輸入 網址
        HttpGet request = new HttpGet("https://www.tuicool.com/");
        //設置請求頭,將爬蟲偽裝成瀏覽器
        request.setHeader("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36");
        HttpHost proxy = new HttpHost("112.85.168.223", 9999);
        RequestConfig config = RequestConfig.custom().setProxy(proxy).build();
        request.setConfig(config);

執行代碼,能正常返回html結果。如果代理ip剛好不能用的話,會報錯,如下顯示連接超時,這個時候需要更換一個新的代理ip

3.另外,程式被識別出來很大原因是短時間內做了太多訪問,這個是正常人不會有的頻率,因此我們也可以放慢爬取的速度,讓程式sleep一段時間再爬下一個也是一種反 反爬蟲的簡單方法。

 

四、結束語

這篇簡單介紹了下httpclient和它的官網,並用代碼說明瞭如何使用它,也提到瞭如果遇到反爬蟲的話我們還可以用一些簡單的反反爬蟲方法進行應對。

對於其他複雜的反反爬蟲的方法我還沒有研究過,就是用這幾種結合使用。 比如在爬取了一段時間後,網站需要輸入驗證碼來驗證是人在操作,我沒有去管如何突破驗證碼的事兒,而是獲取代理ip池然後在遇到驗證碼的時候逐個換新的ip,這樣就可以躲過了驗證碼。如果有其他方法,歡迎留言哦

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 編註: 架構決定的系統的穩定性,擴展性和併發性,架構的演進是從簡單到複雜,從單一到複合持續改進的過程,也是經驗的積累和技術的結晶。 初始階段架構 初始階段的小型系統、應用程式、資料庫、文件等所有的資源都在一臺伺服器上。通俗稱為LAMP。 特征:應用程式、資料庫、文件等所有的資源都在一臺伺服器上。 描 ...
  • saltstack項目實戰 項目架構規劃 後端web伺服器使用Nginx+Php作為站點,通過HAproxy做負載均衡,Keepalived做高可用 項目環境準備 說明: 關閉防火牆、selinux、時間同步等 host綁定 軟體安裝 參考地址 1)Master上軟體安裝 2)Minion上軟體安裝 ...
  • OO第三單元作業總結——JML 第三單元的主題是JML規格的學習,其中的三次作業也是圍繞JML規格的實現所展開的(雖然感覺作業中最難的還是如何正確適用數據結構以及如何正確地對於時間複雜度進行優化)。 關於JML語言 JML語言概述 JML是Java Modeling Language的縮寫,意思是J ...
  • 引子 群里發了一個總共1千元的拼手氣紅包,共10個。靜兒點進去,額,搶到了0.05元。這個不甘心啊。退出來重新打開了這個紅包,你猜怎樣?顯示我搶到了0.05元! 這就是冪等(idempotence),不管多少次請求某一個資源,對資源都具有相同的影響。冪等性是系統的介面對外一種承諾,承諾只要調用介面成 ...
  • 下圖是8拍迴環字突發傳輸:地址將在 32 位元組邊界處迴環因此地址 0x3C 之後的地址是 0x20。下圖是8增量半字突發傳輸,所以地址每次增加 2 個位元組並且突發在遞增因此地址連續增加通過了 16 位元組邊界。 ...
  • JavaScript是一種鬆散類型的客戶端腳本語言,在用戶瀏覽器中執行。JavaScript與html元素(DOM元素)交互,以生成互動式Web用戶界面。 JavaScript實施ECMAScript標準,其中包括基於ECMA-262規範以及其他不基於ECMAScript標準的特性。 ...
  • 必須放一個表情包,太魔性了! 第1題: 修改以下Python代碼,使得下麵的代碼調用類A的show方法? 原始代碼 面試要點: 類繼承,只要通過 方法指定類對象就可以了。 修改代碼 第2題:修改以下Python代碼,使得代碼能夠運行 原始代碼 面試要點: 是方法對象,為了能讓對象實例能被直接調用,需 ...
  • 1.配置tomcat數據源: # 數據源基本配置spring.datasource.url=jdbc:mysql://localhost:3306/shoptest?useUnicode=true&characterEncoding=UTF-8spring.datasource.username=r ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...