Jsoup查找dom元素

来源:http://www.cnblogs.com/csy666/archive/2017/02/19/6414655.html
-Advertisement-
Play Games

package com.open1111.jsoup; import org.apache.http.HttpEntity;import org.apache.http.client.methods.CloseableHttpResponse;import org.apache.http.clien ...


package com.open1111.jsoup;

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class Demo02 {//

public static void main(String[] args) throws Exception{
CloseableHttpClient httpclient = HttpClients.createDefault(); // 創建httpclient實例
HttpGet httpget = new HttpGet("http://www.cnblogs.com/"); // 創建httpget實例

CloseableHttpResponse response = httpclient.execute(httpget); // 執行get請求
HttpEntity entity=response.getEntity(); // 獲取返回實體
String content=EntityUtils.toString(entity, "utf-8");//設置content編碼
response.close(); // 關閉流和釋放系統資源

Document doc=Jsoup.parse(content); // 解析網頁 得到文檔對象
Elements elements=doc.getElementsByTag("title"); // 獲取tag是title的所有DOM元素
Element element=elements.get(0); // 獲取第1個元素
String title=element.text(); // 返回元素的文本
System.out.println("網頁標題是:"+title);

Element element2=doc.getElementById("site_nav_top"); // 獲取id=site_nav_top的DOM元素
String navTop=element2.text(); // 返回元素的文本
System.out.println("口號:"+navTop);

Elements itemElements=doc.getElementsByClass("post_item"); // 根據樣式名稱來查詢DOM
System.out.println("=======輸出post_item==============");
for(Element e:itemElements){//for加強迴圈
System.out.println(e.html());
System.out.println("-------------");
}

Elements widthElements=doc.getElementsByAttribute("width"); // 根據屬性名稱來查詢DOM
System.out.println("=======輸出with的DOM==============");
for(Element e:widthElements){
System.out.println(e.toString());
System.out.println("-------------");
}

Elements targetElements=doc.getElementsByAttributeValue("target", "_blank");//根據屬性名和屬性值來獲取dom元素
System.out.println("=======輸出target-_blank的DOM==============");
for(Element e:targetElements){
System.out.println(e.toString());
System.out.println("-------------");
}

}
}


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 分享一篇關於linux文件系統inode講解得比較清晰的文章~ inode是一個重要概念,是理解Unix/Linux文件系統和硬碟儲存的基礎。 我覺得,理解inode,不僅有助於提高系統操作水平,還有助於體會Unix設計哲學,即如何把底層的複雜性抽象成一個簡單概念,從而大大簡化用戶介面。 下麵就是我 ...
  • 獲取資源: cd /usr/local/src/ wget http://cn2.php.net/distributions/php-5.4.45.tar.bz2 tar jxvf php-5.4.45.tar.bz2 環境配置: rpm -ivh 'http://www.lishiming.net ...
  • 本文為搭建過程中隨筆隨記,僅供參考。 本人也是初識linux系統的新手,很多搭建過程中,也是學習的過程,邊搭建邊搜索相關的資料。 部署Seafile伺服器(使用MySQL) 安裝配置MySQL,具體過程不再描述。 研究Seafile伺服器手冊,地址: 閱讀研究相應的文檔,依據步驟一步步搭建。 前幾步 ...
  • 1.獲取源碼包 cd /usr/local/src/ ls wget http://mirrors.cnnic.cn/apache/httpd/httpd-2.4.25.tar.gz 2.解壓、編譯、安裝 tar zxvf httpd-2.4.25.tar.gz cd httpd-2.4.25 ca ...
  • 1. 自己實現一個資源管理類 Item 13中介紹了 “資源獲取之時也是初始化之時(RAII)”的概念,這個概念被當作資源管理類的“脊柱“,也描述了auto_ptr和tr1::shared_ptr是如何用堆資源來表現這個概念的。然而並不是所有資源都是在堆上創建的,對於這種資源,像auto_ptr和t ...
  • Condition Condition介面描述了可能會與鎖有關聯的條件變數。這些變數在用法與使用Object.wait訪問的隱式監視器類似,但提供了更強大的功能。需要特別指出的是,單個Lock可能與多個Condition對象關聯。為了避免相容性問題,Condition方法的名稱與對應的Object版 ...
  • 本來不想寫的網上的東西羅嗦死了 ...
  • 首先引入下麵這段生產者和消費者的程式,店員類作為生產產品和消費產品的中介,其中的數據product為共用數據,產品最多只能囤積5個,當產品達到5個還在生產時,就會提示“產品已滿!”,類似地,如果產品只有0個了還在消費,會提示“缺貨!”: 運行程式,結果如下: 這是一種不好的情況,因為當產品已滿時,還 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...