JAVA超級簡單的爬蟲例子（1）

-Advertisement-

爬取整個頁面的數據，併進行有效的提取信息,註釋都有就不廢話了：上一張自己爬取的圖片，並用fusioncharts生成報表(一般抓取的是int類型的數據的話，生成報表可以很直觀) ...

爬取整個頁面的數據，併進行有效的提取信息,註釋都有就不廢話了：

public class Reptile {
   
   public static void main(String[] args) {       
    String url1="";          //傳入你所要爬取的頁面地址
    InputStream is=null;     //創建輸入流用於讀取流
    BufferedReader br=null;  //包裝流,加快讀取速度
    StringBuffer html=new StringBuffer(); //用來保存讀取頁面的數據.
    String  temp=""; //創建臨時字元串用於保存每一次讀的一行數據，然後html調用append方法寫入temp;
    try {
        URL url2 = new URL(url1); //獲取URL;
        is = url2.openStream();   //打開流，準備開始讀取數據;
        br= new BufferedReader(new InputStreamReader(is)); //將流包裝成字元流，調用br.readLine()可以提高讀取效率，每次讀取一行;
        while ((temp = br.readLine()) != null) {//讀取數據,調用br.readLine()方法每次讀取一行數據,並賦值給temp,如果沒數據則值==null,跳出迴圈;
        html.append(temp); //將temp的值追加給html,這裡註意的時String跟StringBuffere的區別前者不是可變的後者是可變的;
        }
        //System.out.println(html); //列印出爬取頁面的全部代碼;
        if(is!=null)        //接下來是關閉流,防止資源的浪費;
        {
            is.close();
            is=null;
        }
        Document doc=Jsoup.parse(html.toString());  //通過Jsoup解析頁面,生成一個document對象;
        Elements elements=doc.getElementsByClass("XX");//通過class的名字得到（即XX）,一個數組對象Elements裡面有我們想要的數據,至於這個div的值呢你打開瀏覽器按下F12就知道了;
        for (Element element:elements) {
            System.out.println(element.text()); //列印出每一個節點的信息;你可以選擇性的保留你想要的數據,一般都是獲取個固定的索引;        
        }            
    } catch (MalformedURLException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    } catch (IOException e) {
        // TODO Auto-generated catch block
        e.printStackTrace();
    }
    
    
    
}

上一張自己爬取的圖片，並用fusioncharts生成報表(一般抓取的是int類型的數據的話，生成報表可以很直觀)

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

半自動化代碼生成工具和自動化代碼生成工具

公司自己塔建的半自動化代碼生成項目用法：把csv文件放到src/resources/csv下，運行GenMain.java，生成的代碼在target/output下。對GenMain.java進行適當的修改，可以控制生成的代碼有哪些，Pojo，Dao，Srv，ISrv，Action，PageJ ...
Yii2使用駝峰命名的形式訪問控制器

yii2在使用的時候，訪問控制器的時候，如果控制器的名稱是駝峰命名法，那訪問的url中要改成橫線的形式。例如：最近在做某渠道的直連的時候，他們提供的文檔上明確指出介面的形式：剛開始以為YII2中肯定有這樣的設置，然後就去google了下，發現都說不行，自己去看了下，果然，框架裡面直接是寫死的：（ ...
ajax 三級聯動寫法

主頁面代碼處理頁面代碼 ...
1、實現介面的抽象類——適配器；2、代理公司的方法——功能更強大的包裝類

1、實現介面的抽象類——適配器即用了介面，又用了抽象類，關鍵是Window win=new MyWindow(); MyWindow子類並沒有直接實現Window介面，而是通過中間的抽象類建立了橋梁 2、代理公司的方法——功能更強大的包裝類自己要錢的能力太弱小，通過強大的代理來完成要錢，包裝類 ...
學習一門新語言需要瞭解的基礎-11 參數傳遞

本節內容 - C參數複製，返回值 - Go參數複製，返回值 - 優化模式對參數傳遞的影響 ...
Social Net ZOJ - 3649

Social Net ZOJ - 3649 題意：反正原題題意我是看不懂... 參考：http://www.cnblogs.com/names-yc/p/4922867.html 給出一幅圖，求最大生成樹，輸出邊權之和，併在這棵樹上進行查詢操作：給出兩個結點編號x和y，求從x到y的路徑上，由每個結 ...
Java 基礎 -- 泛型、集合、IO、反射

1. 對於泛型類而言，你若沒有指明其類型，預設為Object； 2. 在繼承泛型類以及介面的時候可以指明泛型的類型，也可以不指明； 3. 泛型也資料庫中的應用：寫一個 DAO 類對資料庫中的數據進行增刪改查其類型聲明為 <T> 。每張表對應一個類，對應每一張表實現一個類繼承該 DAO 類並指明 D ...
Java學習筆記10---訪問許可權修飾符如何控製成員變數、成員方法及類的訪問範圍

1.Java有三種訪問許可權修飾符，分別為public、protected、private，還有一種為預設許可權修飾符的情況，記為default。其中，可以由public和default來修飾類；這四種修飾符都可以修飾成員變數和成員方法。每一種修飾符對應不同的訪問範圍，下麵以下圖為例詳細說明。圖1 p ...