Jsoup使用隨記

来源:http://www.cnblogs.com/lanshangyi/archive/2016/12/12/6165516.html
-Advertisement-
Play Games

這段時間工作比較空閑,在網上找資料學習的時候看到數據抓取這一塊,來了興趣 用jsoup實現數據抓取著實方便,唯一美中不足的是官方API是英文版的,對我這樣英語水平不好的程式員來說著實困擾,只能一點點的去實踐 所以有了這篇隨記,以後用的時候好回頭溫習溫習 Jsoup的一系列解析html操作是基於Doc ...


這段時間工作比較空閑,在網上找資料學習的時候看到數據抓取這一塊,來了興趣

用jsoup實現數據抓取著實方便,唯一美中不足的是官方API是英文版的,對我這樣英語水平不好的程式員來說著實困擾,只能一點點的去實踐

所以有了這篇隨記,以後用的時候好回頭溫習溫習

Jsoup的一系列解析html操作是基於Document這個實例對象的,實例化方式有很多種,通過url,通過文件,通過字元串。

這裡我用的是url的方式,用來解析一個網站上的某些內容

eg:

Document doc = Jsoup.connect(url).get();

這個是官方提供的實例化方法,然而我使用的時候控制台報錯

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=403, URL=XXX

後來網上找了一下原因:

有些網站的伺服器在響應http請求的時候,需要客戶端提交的信息比較完善,而在Jsoup的Connection類中這個Header就是完善請求信息用的。

我們的瀏覽器在請求網頁的時候會在請求的頭部head中發送一些數據,比如瀏覽器類型,版本,語言等等。當我們用Jsoup去完成請求網頁的工作時,最好也要完善請求包頭信息,完成這個工作的就是header方法。

在實例化的時候加上

Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").get();

就能解決這個報錯問題

doc操作方法,大部分跟JavaScript中的差不多,見名知意

getElementsByTag() : 獲取某個節點

getElementsByClass() : 獲取某個class中的節點

getElementById() : 獲取某個id中的節點

等等

通過這些方法返回的是Element對象

通過Element對象可以繼續往下操作

children() : 獲取子節點,這個我試過,獲取到的只是第一個子節點

text() : 獲取文本

attr() : 獲取該節點的屬性值

放上一段代碼片:

Document docu = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").get();
Elements ele = docu.getElementsByClass("text");  //獲取class為text的節點內容
for(Element e : ele){  //迴圈
Elements uurl = e.children();
String t = uurl.text(); //獲取標題
String hr = uurl.attr("href"); //獲取鏈接
Document docum = Jsoup.connect(hr).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").get();  //根據上一步獲取的鏈接,執行解析該鏈接的html
Element elem = docum.getElementById("contentText");
Elements elems = elem.getElementsByTag("p");
String text = elems.text(); //獲取內容
}

代碼片段是用來抓取某網站的數據

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • KMP演算法是字元串模式匹配當中最經典的演算法,原來大二學數據結構的有講,但是當時只是記住了原理,但不知道代碼實現,今天終於是完成了KMP的代碼實現。原理KMP的原理其實很簡單,給定一個字元串和一個模式串,然後找模式串在給定字元串中的位置。將兩個字元串轉換為字元數組,然後從兩個數組的開始位置"i","j ...
  • Error Handling with Exceptions ___ The ideal time to catch an error is at compile time, before you even try to run the program. The rest of the proble ...
  • 今天跑程式的時候莫名其妙的出現了下麵的一個異常: java.lang.NoSuchMethodException:com.ca.agent.model.mybatis.ApprovalInforCangra.setSubDate([Ljava.lang.String;) 這類異常信息在以前是處理過的 ...
  • 本節我們介紹如何在Java中以二進位位元組的方式來處理文件,介紹主要的流,包括它們的功能、用法、原理和使用場景,最後,我們總結一些簡單的實用方法。 ...
  • 伺服器端:server_server.py 伺服器端:user_users.py 客戶端:server_client.py ...
  • bin目錄: lib目錄: common.py src目錄: users_business.py admin_business.py Story_start.py ...
  • 一,作業要求 開發簡單的FTP 1,用戶登錄 2,上傳/下載文件 3,不同用戶家目錄不同 4,查看當前目錄下文件 5,充分使用面向對象 二,程式文件清單 ![屏幕快照 2016 12 12 下午5.07.08.png 69.3kB][1] Folder目錄:用戶上傳文件家目錄 db目錄:伺服器端的用 ...
  • 需求:爬取【安居客—廣州—新樓盤】的數據,具體到每個樓盤的詳情頁的若幹欄位。 難點:樓盤類型各式各樣:住宅 別墅 商住 商鋪 寫字樓,不同樓盤欄位的名稱不一樣。然後同一種類型,比如住宅,又分為不同的情況,比如分為期房在售,現房在售,待售,尾盤。其他類型也有類似情況。所以欄位不能設置固定住。 解決方案 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...