我用java爬蟲爬了一個圖片網站

来源:https://www.cnblogs.com/liran123/archive/2020/03/27/12585061.html
-Advertisement-
Play Games

我用java爬蟲爬了一個圖片網站 最近想建立個網站,不想搞技術博客之類的網站了,因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什麼網站好玩呢? 看到一個圖片網站還不錯,裡面好多圖片(當然有xxx圖片了....)哈哈,其實就是閑的,同時也介紹一下java爬蟲的相關用法把 ...


我用java爬蟲爬了一個圖片網站

最近想建立個網站,不想搞技術博客之類的網站了,因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什麼網站好玩呢?

看到一個圖片網站還不錯,裡面好多圖片(當然有xxx圖片了....)哈哈,其實就是閑的,同時也介紹一下java爬蟲的相關用法把。

1、首先呢,爬蟲應該就是兩種了,一種是動態的介面請求返回的數據,這種json解析或者其他解析一下獲取自己需要的數據就可以了。

2、還有就是靜態html的網頁之類的。這種就需要解析html dom節點的數據。其實通俗點就是類似於 jquery 選擇器,html數據解析成dom節點的數據,java裡面有現成的類庫

 

看下我根據爬取的圖片生成的網站效果把(代碼近期準備開源,隨便搞搞)

原網站:https://www.yeitu.com/meinv/ 

生成的網站:http://91bt.online/

說明一下,這個博客網站,是修改的 https://github.com/WinterChenS/my-site

 

 

  

需要的maven依賴,版本號自己去maven搜把

    <!--網頁爬取-->
        <!--  http   -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
         
        </dependency>

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>

        </dependency>

 

接著介紹一下用法,

① 比如:爬取一個圖片靜態頁面: https://www.yeitu.com/meinv/xinggan/20180919_14722.html

  我們正常用jquery獲取這個靜態頁面的標題(需要自己看dom節點的結構,用選擇器獲取)

 

 

 ② 接著,我們怎麼用代碼爬取這個呢?

用httpclient工具類,寫一個get請求方法,最終返回一個string的html網頁內容

       
       String url="https://www.yeitu.com/meinv/xinggan/20180919_14722.html";
       HttpGet get = new HttpGet(url);// 設置參數 Builder customReqConf = RequestConfig.custom(); customReqConf.setConnectTimeout(connTimeout); customReqConf.setSocketTimeout(socketTimeout); customReqConf.setConnectionRequestTimeout(requestTimeout); get.setConfig(customReqConf.build()); get.addHeader("Connection", "Close"); HttpResponse res; // 執行 Http 請求. if (url.startsWith("https")) { // 執行 Https 請求. client = createSSLInsecureClient(); res = client.execute(get); } else { // 執行 Http 請求. client = HttpClientUtil.client; res = client.execute(get); } return EntityUtils.toString(res.getEntity(), charset);

③、接著把 html內容轉換一下

 Document documentInner = Jsoup.parse(htmlInner);

//這個就是圖片中的jquery的選擇器
//$(".img_box").children("a").children("img").attr("alt");
//下麵就是對應jsoup框架寫法
String firstAlt = documentInner.select(".img_box").select("a").select("img").attr("alt");

 

總結一下,就是把jquery對應選擇器的寫法,寫成jsoup框架的寫法轉換一下下。其實也沒轉換什麼東西,自己操作一下就比較清晰了

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 新手學vue還是react?下麵本篇文章給大家分析一下。有一定的參考價值,正在學習或者有需要的朋友可以參考一下,希望對大家有所幫助。 出身背景: react是facebook團隊開發,2013.3月發佈。目前版本15.5.4(初始版本是13開頭),社區較成熟,擁有更大的生態圈 vue是Evan Yo ...
  • 工作中我們經常會有向別人描述項目內容,解釋某一個功能的運作過程等情況。除了文字描述外,配合圖的方式來說明,增加了問題的具象化能力,方便溝通和對方理解。我剛開始一直想用一種圖來表述所有內容,但是實際上沒有一種圖可以做到,即使可以做到,那麼會使得這種圖變得複雜,也不符合人類的接受能力。用對應的圖說明對應 ...
  • 圖解Java設計模式之模板模式 豆漿製作問題 模板方法模式基本介紹 模板方法模式原理類圖 模板方法模式解決豆漿製作問題 模板方法模式的鉤子方法 模板方法模式在Spring框架中的源碼分析 模板方法模式的註意事項和細節 豆漿製作問題 1)製作豆漿的流程 選材 – 》添加配料 --》浸泡 --》放到豆漿 ...
  • 目錄 . 一、基本概念 . 1、背景 . 2、簡介 . 3、特點 . 4、基礎模型 . 5、Apollo 的四個維度 . 6、本地緩存 . 7、客戶端設計 . 8、總體設計 . 9、可用性考慮 . 二、Apollo 配置中心創建項目與配置 . 1、登錄 Apollo . 2、修改與增加部門數據 . ...
  • 實現步驟 1.導包:import java.util.Scanner; 2.Scanner類的實例化:Scanner scan = new Scanner(System.in); 3.調用Scanner類的相關方法(next() nextInt())獲取指定類型的變數; 註意:在控制台,如果輸入的類 ...
  • 一、分類 順序結構:程式從上而下依次執行 分支結構:if-else if-else、switch-case 迴圈結構:while迴圈、for迴圈、do-while迴圈、增強for迴圈 二、具體說明 1.分支結構 1.1if分支結構 說明 1.else結構是可選的; 2.if-else結構可以嵌套使用 ...
  • 原文鏈接:http://www.yiidian.com/servlet/servlet how work.html 接下來我們有必要瞭解下Servlet的工作原理,這樣才能更好地理解Servlet。本文我們將以之前開發過的Servlet程式來講解Servlet的內部細節。 1 Servlet基本執行 ...
  • 1. 方法 註:class(類)是具有相同的屬性和方法的對象的集合。 2. 例子 (1)數據/集合類型 str(object=''); str(object=b'', encoding='utf-8', errors='strict') int(x, base=10) float(x=0) comp ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...