我用java爬蟲爬了一個圖片網站

来源:https://www.cnblogs.com/liran123/archive/2020/03/27/12585061.html
-Advertisement-
Play Games

我用java爬蟲爬了一個圖片網站 最近想建立個網站,不想搞技術博客之類的網站了,因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什麼網站好玩呢? 看到一個圖片網站還不錯,裡面好多圖片(當然有xxx圖片了....)哈哈,其實就是閑的,同時也介紹一下java爬蟲的相關用法把 ...


我用java爬蟲爬了一個圖片網站

最近想建立個網站,不想搞技術博客之類的網站了,因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什麼網站好玩呢?

看到一個圖片網站還不錯,裡面好多圖片(當然有xxx圖片了....)哈哈,其實就是閑的,同時也介紹一下java爬蟲的相關用法把。

1、首先呢,爬蟲應該就是兩種了,一種是動態的介面請求返回的數據,這種json解析或者其他解析一下獲取自己需要的數據就可以了。

2、還有就是靜態html的網頁之類的。這種就需要解析html dom節點的數據。其實通俗點就是類似於 jquery 選擇器,html數據解析成dom節點的數據,java裡面有現成的類庫

 

看下我根據爬取的圖片生成的網站效果把(代碼近期準備開源,隨便搞搞)

原網站:https://www.yeitu.com/meinv/ 

生成的網站:http://91bt.online/

說明一下,這個博客網站,是修改的 https://github.com/WinterChenS/my-site

 

 

  

需要的maven依賴,版本號自己去maven搜把

    <!--網頁爬取-->
        <!--  http   -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
         
        </dependency>

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>

        </dependency>

 

接著介紹一下用法,

① 比如:爬取一個圖片靜態頁面: https://www.yeitu.com/meinv/xinggan/20180919_14722.html

  我們正常用jquery獲取這個靜態頁面的標題(需要自己看dom節點的結構,用選擇器獲取)

 

 

 ② 接著,我們怎麼用代碼爬取這個呢?

用httpclient工具類,寫一個get請求方法,最終返回一個string的html網頁內容

       
       String url="https://www.yeitu.com/meinv/xinggan/20180919_14722.html";
       HttpGet get = new HttpGet(url);// 設置參數 Builder customReqConf = RequestConfig.custom(); customReqConf.setConnectTimeout(connTimeout); customReqConf.setSocketTimeout(socketTimeout); customReqConf.setConnectionRequestTimeout(requestTimeout); get.setConfig(customReqConf.build()); get.addHeader("Connection", "Close"); HttpResponse res; // 執行 Http 請求. if (url.startsWith("https")) { // 執行 Https 請求. client = createSSLInsecureClient(); res = client.execute(get); } else { // 執行 Http 請求. client = HttpClientUtil.client; res = client.execute(get); } return EntityUtils.toString(res.getEntity(), charset);

③、接著把 html內容轉換一下

 Document documentInner = Jsoup.parse(htmlInner);

//這個就是圖片中的jquery的選擇器
//$(".img_box").children("a").children("img").attr("alt");
//下麵就是對應jsoup框架寫法
String firstAlt = documentInner.select(".img_box").select("a").select("img").attr("alt");

 

總結一下,就是把jquery對應選擇器的寫法,寫成jsoup框架的寫法轉換一下下。其實也沒轉換什麼東西,自己操作一下就比較清晰了

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 新手學vue還是react?下麵本篇文章給大家分析一下。有一定的參考價值,正在學習或者有需要的朋友可以參考一下,希望對大家有所幫助。 出身背景: react是facebook團隊開發,2013.3月發佈。目前版本15.5.4(初始版本是13開頭),社區較成熟,擁有更大的生態圈 vue是Evan Yo ...
  • 工作中我們經常會有向別人描述項目內容,解釋某一個功能的運作過程等情況。除了文字描述外,配合圖的方式來說明,增加了問題的具象化能力,方便溝通和對方理解。我剛開始一直想用一種圖來表述所有內容,但是實際上沒有一種圖可以做到,即使可以做到,那麼會使得這種圖變得複雜,也不符合人類的接受能力。用對應的圖說明對應 ...
  • 圖解Java設計模式之模板模式 豆漿製作問題 模板方法模式基本介紹 模板方法模式原理類圖 模板方法模式解決豆漿製作問題 模板方法模式的鉤子方法 模板方法模式在Spring框架中的源碼分析 模板方法模式的註意事項和細節 豆漿製作問題 1)製作豆漿的流程 選材 – 》添加配料 --》浸泡 --》放到豆漿 ...
  • 目錄 . 一、基本概念 . 1、背景 . 2、簡介 . 3、特點 . 4、基礎模型 . 5、Apollo 的四個維度 . 6、本地緩存 . 7、客戶端設計 . 8、總體設計 . 9、可用性考慮 . 二、Apollo 配置中心創建項目與配置 . 1、登錄 Apollo . 2、修改與增加部門數據 . ...
  • 實現步驟 1.導包:import java.util.Scanner; 2.Scanner類的實例化:Scanner scan = new Scanner(System.in); 3.調用Scanner類的相關方法(next() nextInt())獲取指定類型的變數; 註意:在控制台,如果輸入的類 ...
  • 一、分類 順序結構:程式從上而下依次執行 分支結構:if-else if-else、switch-case 迴圈結構:while迴圈、for迴圈、do-while迴圈、增強for迴圈 二、具體說明 1.分支結構 1.1if分支結構 說明 1.else結構是可選的; 2.if-else結構可以嵌套使用 ...
  • 原文鏈接:http://www.yiidian.com/servlet/servlet how work.html 接下來我們有必要瞭解下Servlet的工作原理,這樣才能更好地理解Servlet。本文我們將以之前開發過的Servlet程式來講解Servlet的內部細節。 1 Servlet基本執行 ...
  • 1. 方法 註:class(類)是具有相同的屬性和方法的對象的集合。 2. 例子 (1)數據/集合類型 str(object=''); str(object=b'', encoding='utf-8', errors='strict') int(x, base=10) float(x=0) comp ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...