python爬蟲踩坑教程

来源:https://www.cnblogs.com/linjiaqin/archive/2019/04/27/10780307.html
-Advertisement-
Play Games

我們的目標是爬取下麵這個個網址上的2010~2018年的數據 http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2015-12-31 獲取我們需要的表格中的某些列的數據​ (這是我從我的微信公眾號幫過來的文章) 第一步,我們首先用谷歌瀏覽器查 ...


我們的目標是爬取下麵這個個網址上的2010~2018年的數據

http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2015-12-31

獲取我們需要的表格中的某些列的數據​

(這是我從我的微信公眾號幫過來的文章)

第一步,我們首先用谷歌瀏覽器查看網頁源碼,但是可以說現在的數據都是js動態傳輸不可能會在原始網頁上顯示​,所以這一步其實是沒用的。

第二步,我們分析網頁元素,ctrl+shift+c

依然沒有多大用,因為每一頁只顯示20條數據,而且我們發現點下一頁的時候,網頁網址並沒有跳轉或改變

這時只能看network元素了

 

我們知道了數據都是通過這個鏈接去獲取的http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=1&callback=hxbase_json11556366554151

通過嘗試發現,有用的參數只有page和count

page表示第幾頁,count表示每頁採集多少條數據

第三步,現在我們開始寫代碼

第一次我們遇到了403錯誤,因為我們直接發送url,沒有對頭部進行代理設置,所以被反爬了​。

第二次,糾結urllib2和urllib和requests用哪個

1)下麵是urllib的使用

import urllib.request
req = urllib.Request(url)
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","stockdata.stock.hexun.com")
#使用read()方法才能讀取到位元組而不是httpresopnse
#同時out必須是寫入str而不是位元組
content = urllib.request.urlopen(req).read()
發現read方法得到的只是位元組而不是字元串,然後我就不知道怎麼辦了,放棄​。,使用requests

2)Requests

requests模塊的介紹: 能夠幫助我們發起請求獲取響應

response常見的屬性:

response.text 響應體 str類型

respones.content 響應體 bytes類型

response.status_code 響應狀態碼

response.request.headers 響應對應的請求頭

response.headers 響應頭

response.request._cookies 響應對應請求的cookie

response.cookies 響應的cookie(經過了set-cookie動作)

解決網頁的解碼問題:

response.content.decode()

response.content.decode("GBK")

基本使用:

1.requests.get(url,headers,params,cookies,proxies)

    headers:字典 請求頭

    cookies: 字典 攜帶的cookie

    params: 字典 url地址的參數

    proxies: 字典 代理ip

2.requests.post(url,data,headers)

    data: 字典 請求體

requests發送post請求使用requests.post方法,帶上請求體,其中請求體需要時字典的形式,傳遞給data參數接收

在requests中使用代理,需要準備字典形式的代理,傳遞給proxies參數接收

 

第三次,試了一下post方法,除了200,什麼都沒返回,說明和network上顯示的一樣,只能get方法。

 

第四次,得到的json數據,想要用load方法去解析json,可惜網頁得到的json格式不是正宗的,比如key沒有雙引號,只能用正則表達式去處理

JSON到字典轉化:
》》》dictinfo = json.loads(json_str) 輸出dict類型
字典到JSON轉化:
》》》jsoninfo = json.dumps(dict)輸出str類型
比如:
info = {'name' : 'jay', 'sex' : 'male', 'age': 22}
jsoninfo = simplejson.dumps(info)
print jsoninfo 


Unicode到字典的轉化:
》》》 json.loads()
比如:
import json
str = '{"params":{"id":222,"offset":0},{"nodename":"topic"}'
params = json.loads(str)
print params['params']['id']

 

原始json數據

 

hxbase_json1(
{
  sum:3591,
  list:[
  {
  Number:'21',
  StockNameLink:'stock_bg.aspx?code=002498&date=2016-12-31',
  industry:'���¹ɷ�(002498)',
  stockNumber:'20.98',
  industryrate:'76.92',
  Pricelimit:'B',
  lootingchips:'10.93',
  Scramble:'15.00',
  rscramble:'23.00',
  Strongstock:'7.01',
  Hstock:' <a href="http://www.cninfo.com.cn/finalpage/2017-04-27/1203402047.PDF" target="_blank"><img alt="" src="img/table_btn1.gif"/></a>',
  Wstock:'<a href="http://stockdata.stock.hexun.com/002498.shtml" target="_blank"><img alt="" src="img/icon_02.gif"/></a>',
  Tstock:'<img "="" alt="" code="" codetype="" onclick="addIStock(\'002498\',\'1\');" src="img/icon_03.gif"/>'
  },
  {Number:'22',
  StockNameLink:'stock_bg.aspx?code=002543&amp;date=2016-12-31',
  industry:'��͵���(002543)',
  ....}
  ]
 })
 

正則表達式

p1 = re.compile(r'[{](.*)[}]', re.S)   #最大匹配

p2 = re.compile(r'[{](.*?)[}]', re.S) #最小匹配

res = re.findall(p1, r.text)  

得到的是一個len為1 的list,是最外層{}裡面的內容

res = re.findall(p2, res[0]) 

得到的是一個len為最裡層{}數目 的list,是最裡層{}裡面的內容

 

第五次,編碼問題

outfile = open(filename, 'w', encoding='utf-8') 

​打開的時候指定編碼方式,解決

 

代碼

#coding=utf-8
import requests
from bs4 import BeautifulSoup
import json
import re


date=["2010","2011","2012","2013","2014","2015","2016","2017","2018"]
#url = r'http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2'
firsturl = r'http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date='
dayurl ="-12-31"
num = 0

header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",
"Host":"stockdata.stock.hexun.com"}


for num in range(2,6):
    print("start year :",date[num])
    filename = 'D:\\company'+date[num]+'.txt'
    print("store file is:", filename)
    outfile = open(filename, 'w', encoding='utf-8')      
    pagenum = 1
    content = ""
    for pagenum in range(1,40):

        url = firsturl + date[num] + dayurl + "&count=100&page=" + str(pagenum)
        print(url)


        r = requests.get(url, headers=header)

        p1 = re.compile(r'[{](.*)[}]', re.S) 
        p2 = re.compile(r'[{](.*?)[}]', re.S) 
        res = re.findall(p1, r.text)

        # print("len:",len(res))
        # print(res)
        res = re.findall(p2, res[0])
        print("len:",len(res))
        if (len(res) == 0):
            print("this page had not enough 100 datas, proving this year fininshed")
            break

        for i in res:
            content += date[num] + "\t"
            para = i.split(",")
            for j in para:
                #print(j)
                attr = j.split(":")
                #print(attr[1])
                if ((attr[0] == 'Number') | (attr[0] == "industry")|(attr[0] == "industryrate")\
                    |(attr[0] =="Pricelimit") | (attr[0] == "stockNumber")\
                    |(attr[0] =="lootingchips") | (attr[0] == "Scramble") \
                    |(attr[0] =="rscramble") | (attr[0] == "Strongstock")):
                    content += attr[1][1:-1] + "\t"
            content+="\n"
    #print(content)

    print(date[num],"done")
    outfile.write(content)
    outfile.close()

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1 九九乘法表 2 登錄程式 3,購物車程式 ...
  • php簡介,php歷史,php後端工程師職業前景,php技術方向,php後端工程師職業體系介紹。 php是世界上使用最廣泛的web開發語言,是超文本預處理器,是一種通用的開源腳本語言,語法吸收了c語言,Java語言,和Perl的特點,利於學習,使用廣泛,主要適用於web開發,PHP做出來的動態頁面與 ...
  • ```python import pymysql import requests conn = pymysql.connect(host="localhost",user="root",passwd="root",db="CDL",charset="utf8") cursor = conn.curs ...
  • 本人微信公眾號,歡迎掃碼關註! 使用jdbc拼接條件查詢語句時如何防止sql註入 最近公司的項目在上線時需要進行安全掃描,但是有幾個項目中含有部分老代碼,操作資料庫時使用的是jdbc,並且竟然好多都是拼接的SQL語句,真是令人抓狂。 在具體改造時,必須使用PreparedStatement來防止SQ ...
  • 4.26自我總結 一.程式語言 1.機械語言 由於0和1組成 優點:執行效率快 缺點:操作麻煩繁瑣 2.彙編語言 比機械語言好點 優點:比機械語言操作方便 缺點,執行慢 3.高級語言 主要兩個,java是編譯性語言,python是解釋性語言 二.python的安裝和環境變數設置 1.python的安 ...
  • Python基礎之元組的知識,包括 元組初識,元組操作函數,元組其他擴展。其中,元組初識包括 認識元組,元組的作用和定義語法,定義元組和取值;元組操作函數 包括 查看元組操作函數,取值和取索引,統計計數;元組其他擴展 包括 元組 迴圈遍歷,元組應用場景,元組和格式化字元串,元組和列表之間的轉換等 ...
  • 一.內聯函數 內聯函數和普通函數的使用方法沒有本質區別,我們來看一個例子,下麵展示了內聯函數的使用方法: 從上面我們可以看到我們定義一個內聯函數只需要在普通函數的前面加上關鍵字inline就可以了,利用內聯函數的優勢則是可以讓程式不需要跳轉到另一個位置執行代碼,直接遇到我們所定義的函數就可以進行執行 ...
  • 數組反轉也是Java的基礎。 數組反轉要求掌握的是: 1)、創建一個數組,在記憶體中申請一塊空間。 2)、實例化數組。 3)、對數組的瞭解。如:數組的長度,數組的下標,數組的表示方法。 4)、數組的交換。 5)、數組的輸出。 數組反轉讓我們更好的瞭解數組的下標,和迴圈語句。要清楚數組的下標變化和數值的 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...