我用java爬蟲爬了一個圖片網站

-Advertisement-

我用java爬蟲爬了一個圖片網站最近想建立個網站，不想搞技術博客之類的網站了，因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什麼網站好玩呢？看到一個圖片網站還不錯，裡面好多圖片（當然有xxx圖片了....）哈哈，其實就是閑的，同時也介紹一下java爬蟲的相關用法把 ...

我用java爬蟲爬了一個圖片網站

最近想建立個網站，不想搞技術博客之類的網站了，因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什麼網站好玩呢？

看到一個圖片網站還不錯，裡面好多圖片（當然有xxx圖片了....）哈哈，其實就是閑的，同時也介紹一下java爬蟲的相關用法把。

1、首先呢，爬蟲應該就是兩種了，一種是動態的介面請求返回的數據，這種json解析或者其他解析一下獲取自己需要的數據就可以了。

2、還有就是靜態html的網頁之類的。這種就需要解析html dom節點的數據。其實通俗點就是類似於 jquery 選擇器，html數據解析成dom節點的數據,java裡面有現成的類庫

看下我根據爬取的圖片生成的網站效果把(代碼近期準備開源，隨便搞搞)

原網站：https://www.yeitu.com/meinv/

生成的網站：http://91bt.online/

說明一下，這個博客網站，是修改的 https://github.com/WinterChenS/my-site

需要的maven依賴，版本號自己去maven搜把

  　　<!--網頁爬取-->
        <!--  http   -->
        <dependency>
            <groupId>org.apache.httpcomponents</groupId>
            <artifactId>httpclient</artifactId>
         
        </dependency>

        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>

        </dependency>

接著介紹一下用法，

① 比如：爬取一個圖片靜態頁面： https://www.yeitu.com/meinv/xinggan/20180919_14722.html

　　我們正常用jquery獲取這個靜態頁面的標題（需要自己看dom節點的結構，用選擇器獲取）

② 接著，我們怎麼用代碼爬取這個呢？

用httpclient工具類，寫一個get請求方法,最終返回一個string的html網頁內容

 　　　　　　
　　　　　　　String　url="https://www.yeitu.com/meinv/xinggan/20180919_14722.html";
　　　　　　　HttpGet get = new HttpGet(url);// 設置參數
            Builder customReqConf = RequestConfig.custom();
            customReqConf.setConnectTimeout(connTimeout);
            customReqConf.setSocketTimeout(socketTimeout);
            customReqConf.setConnectionRequestTimeout(requestTimeout);
            get.setConfig(customReqConf.build());
            get.addHeader("Connection", "Close");
            HttpResponse res;
            // 執行 Http 請求.
            if (url.startsWith("https")) {
                // 執行 Https 請求.
                client = createSSLInsecureClient();
                res = client.execute(get);
            } else {
                // 執行 Http 請求.
                client = HttpClientUtil.client;
                res = client.execute(get);
            }
            return EntityUtils.toString(res.getEntity(), charset);

③、接著把 html內容轉換一下

 Document documentInner = Jsoup.parse(htmlInner);

//這個就是圖片中的jquery的選擇器
 //$(".img_box").children("a").children("img").attr("alt");
//下麵就是對應jsoup框架寫法

 String firstAlt = documentInner.select(".img_box").select("a").select("img").attr("alt");

總結一下，就是把jquery對應選擇器的寫法，寫成jsoup框架的寫法轉換一下下。其實也沒轉換什麼東西，自己操作一下就比較清晰了

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

web前端開發學，新手學習前端應該先學vue還是react？

新手學vue還是react？下麵本篇文章給大家分析一下。有一定的參考價值，正在學習或者有需要的朋友可以參考一下，希望對大家有所幫助。出身背景： react是facebook團隊開發，2013.3月發佈。目前版本15.5.4（初始版本是13開頭），社區較成熟，擁有更大的生態圈 vue是Evan Yo ...
怎麼用相應的圖來描述系統

工作中我們經常會有向別人描述項目內容，解釋某一個功能的運作過程等情況。除了文字描述外，配合圖的方式來說明，增加了問題的具象化能力，方便溝通和對方理解。我剛開始一直想用一種圖來表述所有內容，但是實際上沒有一種圖可以做到，即使可以做到，那麼會使得這種圖變得複雜，也不符合人類的接受能力。用對應的圖說明對應 ...
圖解Java設計模式之模板模式

圖解Java設計模式之模板模式豆漿製作問題模板方法模式基本介紹模板方法模式原理類圖模板方法模式解決豆漿製作問題模板方法模式的鉤子方法模板方法模式在Spring框架中的源碼分析模板方法模式的註意事項和細節豆漿製作問題 1）製作豆漿的流程選材 – 》添加配料 --》浸泡 --》放到豆漿 ...
SpringBoot 集成 Apollo 配置中心

目錄 . 一、基本概念 . 1、背景 . 2、簡介 . 3、特點 . 4、基礎模型 . 5、Apollo 的四個維度 . 6、本地緩存 . 7、客戶端設計 . 8、總體設計 . 9、可用性考慮 . 二、Apollo 配置中心創建項目與配置 . 1、登錄 Apollo . 2、修改與增加部門數據 . ...
6.Java基本語法-----Scanner類的使用

實現步驟 1.導包：import java.util.Scanner; 2.Scanner類的實例化：Scanner scan = new Scanner(System.in); 3.調用Scanner類的相關方法（next() nextInt()）獲取指定類型的變數；註意：在控制台，如果輸入的類 ...
5.Java基本語法-----流程式控制制

一、分類順序結構：程式從上而下依次執行分支結構：if-else if-else、switch-case 迴圈結構：while迴圈、for迴圈、do-while迴圈、增強for迴圈二、具體說明 1.分支結構 1.1if分支結構說明 1.else結構是可選的； 2.if-else結構可以嵌套使用 ...
分析Servlet運行原理

原文鏈接：http://www.yiidian.com/servlet/servlet how work.html 接下來我們有必要瞭解下Servlet的工作原理，這樣才能更好地理解Servlet。本文我們將以之前開發過的Servlet程式來講解Servlet的內部細節。 1 Servlet基本執行 ...
Python_常見內置函數

1. 方法註：class（類）是具有相同的屬性和方法的對象的集合。 2. 例子（1）數據/集合類型 str(object=''); str(object=b'', encoding='utf-8', errors='strict') int(x, base=10) float(x=0) comp ...