最近一直在做java爬蟲,有些感悟心得,分享給大家;

来源:http://www.cnblogs.com/xjh1514614/archive/2017/09/15/7527923.html
-Advertisement-
Play Games

首先,看完這篇文章,不能保證你成為大神,但是卻可以讓你懂得什麼是爬蟲,如何使用爬蟲,如何利用http協議,侵入別人的系統,當然只是一些簡單的教程,拿到一些簡單的數據; 先上代碼,在一步一步講解: 這是一個工具類,不用詳細看,網上哪裡都能找到發送http請求的工具類,少包自己導 package com ...


首先,看完這篇文章,不能保證你成為大神,但是卻可以讓你懂得什麼是爬蟲,如何使用爬蟲,如何利用http協議,侵入別人的系統,當然只是一些簡單的教程,拿到一些簡單的數據;

先上代碼,在一步一步講解:

這是一個工具類,不用詳細看,網上哪裡都能找到發送http請求的工具類,少包自己導

package com.df.util;

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.OutputStreamWriter;
import java.io.PrintWriter;
import java.net.HttpURLConnection;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;
import java.util.Map;

import org.apache.log4j.Logger;
import org.jsoup.Connection;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;

import com.df.controller.DFContorller;

public class HttpPosts {
    private final static Logger logger = Logger.getLogger(DFContorller.class);
    public static String sendPost(String url, String param) {
        PrintWriter out = null;
        BufferedReader in = null;
        String result = "";
        try {
            URL realUrl = new URL(url);
            // 打開和URL之間的連接
            URLConnection conn = realUrl.openConnection();
            // 設置通用的請求屬性
            conn.setRequestProperty("accept", "*/*");
            conn.setRequestProperty("connection", "Keep-Alive");
            conn.setRequestProperty("user-agent",
                    "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
            // 發送POST請求必須設置如下兩行
            conn.setDoOutput(true);
            conn.setDoInput(true);
            // 獲取URLConnection對象對應的輸出流
            out = new PrintWriter(conn.getOutputStream());
            // 發送請求參數
            out.print(param);
            // flush輸出流的緩衝
            out.flush();
            // 定義BufferedReader輸入流來讀取URL的響應
            in = new BufferedReader(
                    new InputStreamReader(conn.getInputStream(),"utf-8"));
            String line;
            while ((line = in.readLine()) != null) {
                result += line;
            }
        } catch (Exception e) {
            logger.info("發送 POST 請求出現異常!"+e);
            e.printStackTrace();
        }
        //使用finally塊來關閉輸出流、輸入流
        finally{
            try{
                if(out!=null){
                    out.close();
                }
                if(in!=null){
                    in.close();
                }
            }
            catch(IOException ex){
                ex.printStackTrace();
            }
        }
        return result;
    }  
    
    
      public static String sendGet(String url, String param) {
            String result = "";
            BufferedReader in = null;
            try {
                String urlNameString = url + "?" + param;
                URL realUrl = new URL(urlNameString);
                // 打開和URL之間的連接
                URLConnection connection = realUrl.openConnection();
                // 設置通用的請求屬性
                connection.setRequestProperty("accept", "*/*");
                connection.setRequestProperty("connection", "Keep-Alive");
                connection.setRequestProperty("user-agent",
                        "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
                connection.setRequestProperty("Cookie","PHPSESSID=27roc4d0ccd2cg4jbht80k8km2");
                // 建立實際的連接
                connection.connect();
                // 獲取所有響應頭欄位
                Map<String, List<String>> map = connection.getHeaderFields();
                // 遍歷所有的響應頭欄位
                for (String key : map.keySet()) {
                    System.out.println(key + "--->" + map.get(key));
                }
                // 定義 BufferedReader輸入流來讀取URL的響應
                in = new BufferedReader(new InputStreamReader(
                        connection.getInputStream(),"utf-8"));
                String line;
                while ((line = in.readLine()) != null) {
                    result += line;
                }
            } catch (Exception e) {
                System.out.println("發送GET請求出現異常!" + e);
                e.printStackTrace();
            }
            // 使用finally塊來關閉輸入流
            finally {
                try {
                    if (in != null) {
                        in.close();
                    }
                } catch (Exception e2) {
                    e2.printStackTrace();
                }
            }
            return result;
       }      
}

---------------------------------------分割線

 

下麵進入主題:首先你要先進入,你要去爬取網站的登錄頁面,查看頁面源碼,找到登錄請求發送的方法名;一般來所,小型網站會直接寫在from錶面action裡面,很容易找得到,中型的網站就不會寫的這麼直接了,找起來要費些功夫,可能在js裡面,也可能不在這個頁面,推薦使用抓包工具登陸一次,看抓到的請求信息,大型的網站,本人爬取過的京東商城後臺,用游覽器自帶的f12,抓不到登錄的信息,一閃即逝,最後想了很多招才搞到京東的登錄介面;實現爬去;拿到了登錄介面地址後;上代碼

String data=HttpPosts.sendGet(登錄地址(不帶參數;String類型地址),參數(如:user_id=6853&export=112));(返回的登錄狀態,一般是json格式,他會高數你是否登錄成功,有的是true,有的是1,視情況而定)選擇get還是post,模仿登錄頁面的請求

然後再來一個請求獲取cookie

Connection conn = Jsoup.connect("登錄後頁面的地址");  
          conn.method(Method.GET);  
          conn.followRedirects(false);  
          Response response = conn.execute();  
          System.out.println(response.cookies());

再講cookie動態傳入get或者post方法裡面替換到寫死的cookie;因為是測試所以寫死了cookie,可以寫成動態的;

之後再掉你要訪問登錄之後的頁面,主頁,或者是數據頁面,裡面一定要攜帶cookie,和http請求的基本參數信息,不然一定會被攔截的。

String data=HttpPosts.sendGet(登錄地址(不帶參數;String類型地址),參數(如:user_id=6853&export=112));訪問方法同上;這回給你返回的就是他們的頁面了,如何你找到了對面的某個數據介面,那就可以直接訪問他,返回的就直接是數據,不然你還要解析,他的頁面,很麻煩 的。解析頁面一般用jsoup。

其實這個等於另類的入侵,不需要知道對方的介面文檔,用程式利用http協議直接訪問對方的伺服器,

拿到你想要的東西。當然有驗證碼的情況下,是很難的。這是爬蟲基礎。只是一帶而過,講的有些片面,不到之處多多海涵;

請為我點贊 thankyou

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 函數的冒泡排序: 本質是,讓元素換位置,逐個比較最終排序。 例1:實現a1,a2值互換: 冒泡排序: 遞歸: 在函數內部可以調用其他函數。如果一個函數在內部調用自己,這個函數就是遞歸函數。 例: 函數裝飾器: 裝飾器的目的:當要修改一段代碼時,而不進行內部的修改,這就需要在外部加裝飾器來達到效果。 ...
  • 詳細鏈接 : https://www.kancloud.cn/animal/riji/317872 詳細鏈接 : https://www.kancloud.cn/animal/riji/317872 詳細鏈接 : https://www.kancloud.cn/animal/riji/317872 ...
  • PHP+MySql+Ajax實現年月日的三級聯動 <!DOCTYPE html><html> <head> <meta charset="UTF-8"> <title></title> <script src="bootstrap/js/jquery-1.11.2.min.js"></script> ...
  • 這裡說下最近項目中我們的解決方案,主要用到commons-lang3-3.1.jar這個包的org.apache.commons.lang3.StringEscapeUtils.escapeHtml4()這個方法。 解決過程主要在用戶輸入和顯示輸出兩步:在輸入時對特殊字元如<>" ' & 轉義,在輸 ...
  • 前幾天實現了vmmap類似的功能,就是每次記憶體分配釋放,都將其調用堆棧信息保存起來 已經生成了兩個文件,alloc.mapping和address.mapping,剩下的就是編寫工具解析這兩個文件了. 後續要做的:1.無需編譯,直接dll註入,開啟單獨線程寫上述兩個文件;2.編寫gui工具,指定時間... ...
  • 插入排序 の implementation 插入排序就像打賭的時候,比如雙扣。抽牌的時候,一次拿一張牌,這張牌和之前的牌一張張比較。選擇把這張牌插入什麼位置,排好順序的位置後打牌更順。要不然得一個一個找到時麻煩。也不利於打牌的大局觀。看下圖 假設第一次抽到梅花7, 不用排序。因為只有一張 接著抽到梅 ...
  • 溫度PID控制時, 有多個溫度測量點, 但最終只有一個溫度作為反饋值參與PID控制, 我們有時會採用平均值法, 計算所有溫度的平均值來作為PID的反饋值. 但在某一路溫度探頭斷線的情況下, 溫度值為零, 這時平均值就會小很多.像這種情況下中值法比較有效. 原理如下: 對於一組溫度, 模擬量轉換為數字... ...
  • 編譯:Lemon,原文作者:Ernst Haagsman 公眾號:Python數據之道(ID:PyDataRoad) pycharm:2017.3版即將新增科學計算模式 在JetBrains將發佈的新版本PyCharm中,考慮到越來越多的Python開發者進行數據科學相關開發,即將發佈的PyChar ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...