論如何優雅地使用爬蟲摸魚

-Advertisement-

最近手上項目空了下來，沒什麼事做。博客博客不想寫，文章文章不想看。於是乾脆看點小說吧，但是上班時間，大家都在認認真真敲代碼，自己拿出手機看小說又不是很好（其實主要是數據線壞了，在公司沒發充電），電腦上瀏覽器看，更是不行。於是想了想，乾脆就自己爬著看吧，把內容列印在IDE的控制台，想一想這波操作就很騷 ...

最近手上項目空了下來，沒什麼事做。博客博客不想寫，文章文章不想看。於是乾脆看點小說吧，但是上班時間，大家都在認認真真敲代碼，自己拿出手機看小說又不是很好（其實主要是數據線壞了，在公司沒發充電），電腦上瀏覽器看，更是不行。於是想了想，乾脆就自己爬著看吧，把內容列印在IDE的控制台，想一想這波操作就很騷，於是說動就動。

爬蟲選擇

由於本人是一枚正經的Javaer，所以爬蟲當然也要用Java咯。Java下也有幾款比較好的爬蟲軟體，如nutch、crawler4j 等。但是我只是爬個網頁，看個小說而已啊。於是就選了個Jsoup，直接解析Html信息，從中提取小說內容。

其實選擇Jsoup還有個原因就是我好歹寫過一陣子jQuery，對jQuery語法比較熟悉。因為Jsoup語法與jQuery語法非常一致。

開始動工

添加maven依賴

<dependency>
    <groupId> org.jsoup </groupId>
    <artifactId> jsoup </artifactId>
    <version> 1.9.2 </version>
</dependency>

爬取頁面信息

Jsoup的爬取方式十分簡單，是通過獲取html文檔到本地，然後再用jQuery的解析方式做的DOM解析。

public class BiQuGeCrawler extends AbstractCrawler {

    @Override
    public String getPage(String url) {
        try {
            page = Jsoup.connect(url).get();

            this.getNext();
            this.getLast();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return this.getContent();
    }

    @Override
    protected String getContent(){
        Element cntEl = page.getElementById("content");
        // 八個空格，（製表符號）
        return cntEl.text().replaceAll("        ", "\n");
    }

    protected void getNext() {
        Element ul = page.getElementsByClass("page_chapter").get(0).child(0);
        Element nextHref = ul.child(2).child(0);
        nextUrl = nextHref.attr("abs:href");
    }

    protected void getLast() {
        Element ul = page.getElementsByClass("page_chapter").get(0).child(0);
        Element lastHref = ul.child(0).child(0);
        lastUrl = lastHref.attr("abs:href");
    }
}

獲取小說正文內容及前一頁、後一頁鏈接等關鍵信息。

設置翻頁及退出

每次抓取完頁面後，監聽控制台輸入值，進行翻頁、退出操作。

public class Function {

    // app配置
    private AppConfig config;
    // 爬蟲類
    private AbstractCrawler crawler;

    public Function(String firstUrl){
        config = new AppConfig();
        crawler =  CrawlerFactory.build(config.sourceType);
        startView(firstUrl);
    }

    // 頁面瀏覽
    private void startView(String pageUrl){
        String content = crawler.getPage(pageUrl);
        System.out.println(content);
        this.inputListener();
    }

    // 開始瀏覽
    private void inputListener(){
        System.out.println("*************");
        System.out.println("* L 上一頁   *");
        System.out.println("* Q 退出     *");
        System.out.println("* 其他 下一頁 *");
        System.out.println("*************");
        Scanner sc = new Scanner(System.in);
        String input = sc.nextLine();
        if ("l".equalsIgnoreCase(input)){
            // 上一頁
            startView(crawler.lastUrl);
        } else if ("q".equalsIgnoreCase(input)){
            // 退出
        } else {
            // 下一頁
            startView(crawler.nextUrl);
        }
    }
}

如上，整個摸魚神器的關鍵代碼就已經完成了，具體的完整代碼，可以查看我的github項目

Run一下

首先配置需要看的小說網頁信息及個人操作習慣設置。然後通過運行main方法。即可運行。

後續支持

OK，到此爬蟲已經能夠正常爬取小說內容了。並且已經實現翻頁、退出等基本功能。後續將支持更多小說來源如 縱橫綜合網 等網站。以及更多的功能如 日誌混淆、 日誌格式化 、斷點續看 等功能。

本文章涉及的代碼已托管到github，歡迎各位客官使用https://github.com/weechang/ReadingCrawler

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

SpringMVC----@RequestMapping__修飾類

1.概述 1.1 SpringMVC使用@RequestMapping註解為控制器指定可以處理哪些URL請求； 1.2 在控制器的類定義及方法定義處都可以標註@RequestMapping； 1.2.1　類定義處標註：提供初步的請求映射信息。相對於WEB應用的根目錄； 1.2.2　方法處標註：　提供 ...
python開發中容易犯的錯誤整合

寫在前面長期更新的博文。多數是一些比較隱蔽的問題。歡迎留言補充。 pip並不是那麼安逸 pip安裝對於開發者來說確實是一種解放。可以自動安裝依賴包，但執行最簡單的pip安裝命令時，並不是所有的依賴都會安裝。有一些是模塊可選擇的，比如gunicorn在選擇非同步框架時。有一些因為調用的層次較多，忽視了 ...
MyBatis(3)-映射文件

本次博文有疑問，請先看MyBatis(1)-簡單入門和 MyBatis(2)-全局配置文件! 如在有疑問，請留言或者咨詢博主，博主每天都在！謝謝！映射文件：主要是在xxxmapper.xml文件里的配置映射文件指導這MyBatis如何進行資料庫的增刪該查，有著很重要的意義。下麵開始進入正題 ...
簡單說說SpringMVC

距離上一次開發SpringMVC項目已經過去了大半年，有些細節已經開始遺忘，今天複習一下先從標簽說起：和struts有各種配置文件不同，spring用標簽開發。 1.@Controller在SpringMVC中，控制器Controller負責處理由DispatcherServlet分發的請求他把 ...
【JDBC】一、JDBC連接資料庫

一、JDBC連接資料庫步驟第一步：載入驅動第二步：連接資料庫第三步：使用語句操作資料庫第四步：關閉資料庫連接，釋放資源二、在項目里配置資料庫驅動三、載入資料庫驅動四、連接及關閉資料庫 1.DriverManager驅動管理類，主要負責獲取一個資料庫的連接 2.MySQL資料庫的連接地址 ...
淺嘗Spring Cloud Sleuth

Spring Cloud Sleuth提供了分散式追蹤(distributed tracing)的一個解決方案。其基本思路是在服務調用的請求和響應中加入ID，標明上下游請求的關係。利用這些信息，可以方便地分析服務調用鏈路和服務間的依賴關係。 Only Sleuth 在Spring Tool Suit ...
VSCode的Python擴展下程式運行的幾種方式與環境變數管理

在VSCode中編寫Python程式時，由於有些地方要使用環境變數，但是發現設置的環境變數有時不起作用，花了點時間研究了一下，過程不表，直接說結論。首先，環境變數的設置，Python擴展中有三種方式：其次，VSCode的Python擴展有四種程式運行方式，針對不同的運行方式，起作用的環境變數分別 ...
python編程練習

1.創建一個文件，文件的第一行寫入0，再創建20個任務線程，他們同時打開文件並將文件第一行讀出來，加1寫回去（將文件原有值覆蓋掉）請保證20個任務線程完成後，文件中的第一行一定是20！ 2.完成一個cs架構程式，服務端一旦接受到客戶端請求文件路徑後，判斷此文件是否存在，如果存在，將文件內容發送給客戶 ...