Jsoup使用隨記_ZenDei技術網路在線

Jsoup使用隨記

-Advertisement-

這段時間工作比較空閑，在網上找資料學習的時候看到數據抓取這一塊，來了興趣用jsoup實現數據抓取著實方便，唯一美中不足的是官方API是英文版的，對我這樣英語水平不好的程式員來說著實困擾，只能一點點的去實踐所以有了這篇隨記，以後用的時候好回頭溫習溫習 Jsoup的一系列解析html操作是基於Doc ...

這段時間工作比較空閑，在網上找資料學習的時候看到數據抓取這一塊，來了興趣

用jsoup實現數據抓取著實方便，唯一美中不足的是官方API是英文版的，對我這樣英語水平不好的程式員來說著實困擾，只能一點點的去實踐

所以有了這篇隨記，以後用的時候好回頭溫習溫習

Jsoup的一系列解析html操作是基於Document這個實例對象的，實例化方式有很多種，通過url，通過文件，通過字元串。

這裡我用的是url的方式，用來解析一個網站上的某些內容

eg:

Document doc = Jsoup.connect(url).get();

這個是官方提供的實例化方法，然而我使用的時候控制台報錯

org.jsoup.HttpStatusException: HTTP error fetching URL. Status=403, URL=XXX

後來網上找了一下原因：

有些網站的伺服器在響應http請求的時候，需要客戶端提交的信息比較完善，而在Jsoup的Connection類中這個Header就是完善請求信息用的。

我們的瀏覽器在請求網頁的時候會在請求的頭部head中發送一些數據，比如瀏覽器類型，版本，語言等等。當我們用Jsoup去完成請求網頁的工作時，最好也要完善請求包頭信息，完成這個工作的就是header方法。

在實例化的時候加上

Document doc = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").get();

就能解決這個報錯問題

doc操作方法，大部分跟JavaScript中的差不多，見名知意

getElementsByTag() : 獲取某個節點

getElementsByClass() : 獲取某個class中的節點

getElementById() : 獲取某個id中的節點

等等

通過這些方法返回的是Element對象

通過Element對象可以繼續往下操作

children() : 獲取子節點，這個我試過，獲取到的只是第一個子節點

text() : 獲取文本

attr() : 獲取該節點的屬性值

放上一段代碼片：

Document docu = Jsoup.connect(url).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").get();
Elements ele = docu.getElementsByClass("text"); //獲取class為text的節點內容
for(Element e : ele){ //迴圈
Elements uurl = e.children();
String t = uurl.text(); //獲取標題
String hr = uurl.attr("href"); //獲取鏈接
Document docum = Jsoup.connect(hr).userAgent("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.31 (KHTML, like Gecko) Chrome/26.0.1410.64 Safari/537.31").get(); //根據上一步獲取的鏈接，執行解析該鏈接的html
Element elem = docum.getElementById("contentText");
Elements elems = elem.getElementsByTag("p");
String text = elems.text(); //獲取內容
}

代碼片段是用來抓取某網站的數據

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

KMP演算法

KMP演算法是字元串模式匹配當中最經典的演算法，原來大二學數據結構的有講，但是當時只是記住了原理，但不知道代碼實現，今天終於是完成了KMP的代碼實現。原理KMP的原理其實很簡單，給定一個字元串和一個模式串，然後找模式串在給定字元串中的位置。將兩個字元串轉換為字元數組，然後從兩個數組的開始位置"i"，"j ...
Thinking in Java——筆記(12)

Error Handling with Exceptions ___ The ideal time to catch an error is at compile time, before you even try to run the program. The rest of the proble ...
Struts2中Date日期轉換的問題

今天跑程式的時候莫名其妙的出現了下麵的一個異常： java.lang.NoSuchMethodException:com.ca.agent.model.mybatis.ApprovalInforCangra.setSubDate([Ljava.lang.String;) 這類異常信息在以前是處理過的 ...
電腦程式的思維邏輯 (57) - 二進位文件和位元組流

本節我們介紹如何在Java中以二進位位元組的方式來處理文件，介紹主要的流，包括它們的功能、用法、原理和使用場景，最後，我們總結一些簡單的實用方法。 ...
Python07新版作業源碼：開發簡單的FTP（僅供參考）

伺服器端：server_server.py 伺服器端：user_users.py 客戶端：server_client.py ...
Python07舊版作業源碼：虛擬人生（僅供參考）

bin目錄： lib目錄： common.py src目錄： users_business.py admin_business.py Story_start.py ...
Python07新版作業思路：開發簡單的FTP

一，作業要求開發簡單的FTP 1，用戶登錄 2，上傳／下載文件 3，不同用戶家目錄不同 4，查看當前目錄下文件 5，充分使用面向對象二，程式文件清單 ![屏幕快照 2016 12 12 下午5.07.08.png 69.3kB][1] Folder目錄：用戶上傳文件家目錄 db目錄：伺服器端的用 ...
【scrapy實踐】_爬取安居客_廣州_新樓盤數據

需求：爬取【安居客—廣州—新樓盤】的數據，具體到每個樓盤的詳情頁的若幹欄位。難點：樓盤類型各式各樣：住宅別墅商住商鋪寫字樓，不同樓盤欄位的名稱不一樣。然後同一種類型，比如住宅，又分為不同的情況，比如分為期房在售，現房在售，待售，尾盤。其他類型也有類似情況。所以欄位不能設置固定住。解決方案 ...