最近一直在做java爬蟲,有些感悟心得,分享給大家;

来源:http://www.cnblogs.com/xjh1514614/archive/2017/09/15/7527923.html
-Advertisement-
Play Games

首先,看完這篇文章,不能保證你成為大神,但是卻可以讓你懂得什麼是爬蟲,如何使用爬蟲,如何利用http協議,侵入別人的系統,當然只是一些簡單的教程,拿到一些簡單的數據; 先上代碼,在一步一步講解: 這是一個工具類,不用詳細看,網上哪裡都能找到發送http請求的工具類,少包自己導 package com ...


首先,看完這篇文章,不能保證你成為大神,但是卻可以讓你懂得什麼是爬蟲,如何使用爬蟲,如何利用http協議,侵入別人的系統,當然只是一些簡單的教程,拿到一些簡單的數據;

先上代碼,在一步一步講解:

這是一個工具類,不用詳細看,網上哪裡都能找到發送http請求的工具類,少包自己導

package com.df.util;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;

import org.apache.log4j.Logger;
import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;

import com.df.controller.DFContorller;

public class HttpPosts {
    private final static Logger logger = Logger.getLogger(DFContorller.class);
    public static String sendPost(String url, String param) {
        PrintWriter out = null;
        BufferedReader in = null;
        String result = "";
        try {
            URL realUrl = new URL(url);
            // 打開和URL之間的連接
            URLConnection conn = realUrl.openConnection();
            // 設置通用的請求屬性
            conn.setRequestProperty("accept", "*/*");
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 發送POST請求必須設置如下兩行
            conn.setDoOutput(true);
            conn.setDoInput(true);
            // 獲取URLConnection對象對應的輸出流
            out = new PrintWriter(conn.getOutputStream());
            // 發送請求參數
            out.print(param);
            // flush輸出流的緩衝
            out.flush();
            // 定義BufferedReader輸入流來讀取URL的響應
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(),"utf-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            logger.info("發送 POST 請求出現異常!"+e);
            e.printStackTrace();
        }
        //使用finally塊來關閉輸出流、輸入流
        finally{
            try{
                if(out!=null){
                    out.close();
                }
                if(in!=null){
                    in.close();
                }
            }
            catch(IOException ex){
                ex.printStackTrace();
            }
        }
        return result;
    }  
    
    
      public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url + "?" + param;
                URL realUrl = new URL(urlNameString);
                // 打開和URL之間的連接
                URLConnection connection = realUrl.openConnection();
                // 設置通用的請求屬性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
                // 建立實際的連接
                connection.connect();
                // 獲取所有響應頭欄位
                Map<String, List<String>> map = connection.getHeaderFields();
                // 遍歷所有的響應頭欄位
                for (String key : map.keySet()) {
                    System.out.println(key + "--->" + map.get(key));
                }
                // 定義 BufferedReader輸入流來讀取URL的響應
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream(),"utf-8"));
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("發送GET請求出現異常!" + e);
                e.printStackTrace();
            }
            // 使用finally塊來關閉輸入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
       }      
}

---------------------------------------分割線

 

下麵進入主題:首先你要先進入,你要去爬取網站的登錄頁面,查看頁面源碼,找到登錄請求發送的方法名;一般來所,小型網站會直接寫在from錶面action裡面,很容易找得到,中型的網站就不會寫的這麼直接了,找起來要費些功夫,可能在js裡面,也可能不在這個頁面,推薦使用抓包工具登陸一次,看抓到的請求信息,大型的網站,本人爬取過的京東商城後臺,用游覽器自帶的f12,抓不到登錄的信息,一閃即逝,最後想了很多招才搞到京東的登錄介面;實現爬去;拿到了登錄介面地址後;上代碼

String data=HttpPosts.sendGet(登錄地址(不帶參數;String類型地址),參數(如:user_id=6853&export=112));(返回的登錄狀態,一般是json格式,他會高數你是否登錄成功,有的是true,有的是1,視情況而定)選擇get還是post,模仿登錄頁面的請求

然後再來一個請求獲取cookie

Connection conn = Jsoup.connect("登錄後頁面的地址");  
          conn.method(Method.GET);  
          conn.followRedirects(false);  
          Response response = conn.execute();  
          System.out.println(response.cookies());

再講cookie動態傳入get或者post方法裡面替換到寫死的cookie;因為是測試所以寫死了cookie,可以寫成動態的;

之後再掉你要訪問登錄之後的頁面,主頁,或者是數據頁面,裡面一定要攜帶cookie,和http請求的基本參數信息,不然一定會被攔截的。

String data=HttpPosts.sendGet(登錄地址(不帶參數;String類型地址),參數(如:user_id=6853&export=112));訪問方法同上;這回給你返回的就是他們的頁面了,如何你找到了對面的某個數據介面,那就可以直接訪問他,返回的就直接是數據,不然你還要解析,他的頁面,很麻煩 的。解析頁面一般用jsoup。

其實這個等於另類的入侵,不需要知道對方的介面文檔,用程式利用http協議直接訪問對方的伺服器,

拿到你想要的東西。當然有驗證碼的情況下,是很難的。這是爬蟲基礎。只是一帶而過,講的有些片面,不到之處多多海涵;

請為我點贊 thankyou

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 函數的冒泡排序: 本質是,讓元素換位置,逐個比較最終排序。 例1:實現a1,a2值互換: 冒泡排序: 遞歸: 在函數內部可以調用其他函數。如果一個函數在內部調用自己,這個函數就是遞歸函數。 例: 函數裝飾器: 裝飾器的目的:當要修改一段代碼時,而不進行內部的修改,這就需要在外部加裝飾器來達到效果。 ...
  • 詳細鏈接 : https://www.kancloud.cn/animal/riji/317872 詳細鏈接 : https://www.kancloud.cn/animal/riji/317872 詳細鏈接 : https://www.kancloud.cn/animal/riji/317872 ...
  • PHP+MySql+Ajax實現年月日的三級聯動 <!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <script src="bootstrap/js/jquery-1.11.2.min.js"></script> ...
  • 這裡說下最近項目中我們的解決方案,主要用到commons-lang3-3.1.jar這個包的org.apache.commons.lang3.StringEscapeUtils.escapeHtml4()這個方法。 解決過程主要在用戶輸入和顯示輸出兩步:在輸入時對特殊字元如<>" ' & 轉義,在輸 ...
  • 前幾天實現了vmmap類似的功能,就是每次記憶體分配釋放,都將其調用堆棧信息保存起來 已經生成了兩個文件,alloc.mapping和address.mapping,剩下的就是編寫工具解析這兩個文件了. 後續要做的:1.無需編譯,直接dll註入,開啟單獨線程寫上述兩個文件;2.編寫gui工具,指定時間... ...
  • 插入排序 の implementation 插入排序就像打賭的時候,比如雙扣。抽牌的時候,一次拿一張牌,這張牌和之前的牌一張張比較。選擇把這張牌插入什麼位置,排好順序的位置後打牌更順。要不然得一個一個找到時麻煩。也不利於打牌的大局觀。看下圖 假設第一次抽到梅花7, 不用排序。因為只有一張 接著抽到梅 ...
  • 溫度PID控制時, 有多個溫度測量點, 但最終只有一個溫度作為反饋值參與PID控制, 我們有時會採用平均值法, 計算所有溫度的平均值來作為PID的反饋值. 但在某一路溫度探頭斷線的情況下, 溫度值為零, 這時平均值就會小很多.像這種情況下中值法比較有效. 原理如下: 對於一組溫度, 模擬量轉換為數字... ...
  • 編譯:Lemon,原文作者:Ernst Haagsman 公眾號:Python數據之道(ID:PyDataRoad) pycharm:2017.3版即將新增科學計算模式 在JetBrains將發佈的新版本PyCharm中,考慮到越來越多的Python開發者進行數據科學相關開發,即將發佈的PyChar ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...