針對源代碼和檢查元素不一致的網頁爬蟲——利用Selenium、PhantomJS、bs4爬取12306的列車途徑站信息

来源:https://www.cnblogs.com/hsh17/archive/2019/06/28/11105184.html
-Advertisement-
Play Games

針對多動態網頁的數據爬取,利用Selenium和bs4,csv庫存儲數據。 ...


整個程式的核心難點在於上次豆瓣爬蟲針對的是靜態網頁,源代碼和檢查元素內容相同;而在12306的查找搜索過程中,其網頁發生變化(出現了查找到的數據),這個過程是動態的,使得我們在審查元素中能一一對應看到的表格數據沒有顯示在源代碼中。這也是這次12306爬蟲和上次豆瓣書單爬蟲的最大不同點。

查找相關資料,我選擇使用Selenium的PhantomJS模擬瀏覽器爬取源代碼,這樣獲取到的datas包含了我需要的(查找搜索出的)途徑站數據。

暫時把整個程式分為了這幾個部分:(1)提取列車Code和No信息;(2)找到url規律,根據Code和No變化實現多個網頁數據爬取;(3)使用PhantomJS模擬瀏覽器爬取源代碼;(3)用bs4解析源代碼,獲取所需的途徑站數據;(4)用csv庫存儲獲得的數據。

整體使用面向過程的書寫方式。

(1)values_get()函數實現了從已有存儲了列車信息的csv中逐次提取Code和No。(在這裡有點刻意追求面向過程的函數,設置了每次提取都openfile再close。所以使用了tell一次readline完的游標位置,再seek次游標位置到下一次提取位置,實現關閉file後仍然可以接著上一次結束的seek位置繼續操作)

(2)olddriver()函數包含PhantomJS和bs4兩個部分。利用format來控制多個url,用PhantomJS、driver代替requests爬取網頁源代碼driver.get(url)。service_args可以配置模擬瀏覽器(優化加速),set_page_load_timeout()和set_script_timeout()+try except('window.stop()')設置超時(還未用上,存疑),最後用driver.quit()關閉使用完的PhantomJS避免記憶體爆炸。*這裡存在很多優化模擬瀏覽器的方法,除了上述的配置、超時、quit,還包括在迴圈外提前打開PhantomJS來實現程式運行時間加速等方法,筆者還未理解透這些方法。這裡貼出優化的參考鏈接:①https://blog.csdn.net/weixin_40284075/article/details/87190040https://www.jianshu.com/p/8ec70859ae03還有PhantomJS的使用攻略①https://www.cnblogs.com/miqi1992/p/8093958.htmlhttps://www.cnblogs.com/lizm166/p/8360388.html

為什麼使用已經被Selenium拋棄的PhantomJS而不使用Headless Chrome?筆者也曾嘗試過使用無頭chrome,但爬到的源代碼仍不包含我所需tbody數據。

丟失數據的源代碼長這樣(它只有tbody標簽,沒有標簽內的數據)。

而檢查元素里可以看到所需數據出現在tbody內:

雖然用PhantomJS確實可以爬取到所需的tbody數據,但是在後來迴圈url爬取多個列車信息時,可能是因為網站有反爬蟲措施,或是PhantomJS的不穩定,導致了經常會出現丟失數據的情況(PhantomJS的作用失效了)。所以我添加了一句if datas==[],遞歸olddriver()來確保能爬到這班列車的信息。如圖,失敗率仍然很高。

(3)最後是data_write_csv()寫入數據到csv,這裡用csv庫直接把列表變為了csv文件(列表中的多個列表就是多行數據),以後多嘗試用一下csv庫,還是很好用的。

(4)在主程式調用各個函數時,要註意global全局變數的使用、函數return參數給其他函數使用。

(5)最後是幾點自己的建議和猜想。首先如果12306真的有反爬蟲,我們可以嘗試像requests一樣的偽裝(在driver里沒刻意偽裝)或是換其他的網站來爬取。其次多註意:爬取網頁查詢搜索數據的方法,網頁跳轉等(或簡易成爬取多個網頁數據,如本例)。還有PhantomJS和headless Chrome,按理來說headless Chrome不會出現這樣的錯誤。最後是提升爬蟲運行速度的方法,(這次的爬取速度實在太慢了,10條信息平均要3分鐘才能成功獲得),除了對模擬瀏覽器的配置和優化,以及代碼本身的優化(如file文件一直開著,不提取一次數據就開關file一次),我們是否可以嘗試其他的源代碼.get(url)獲取方式?嘗試多線程加速?嘗試雲伺服器?

上代碼↓

  1 import urllib3
  2 #import requests
  3 from selenium import webdriver
  4 from bs4 import BeautifulSoup
  5 import csv
  6 import time
  7 
  8 start = time.time()
  9 
 10 def values_get():#通過設置游標來實現:從上一次結束的地方繼續讀取
 11     file = open('Code.csv','r')
 12     global seekloc#全局游標
 13     file.seek(seekloc)#設置游標位置
 14     line = file.readline()
 15     '''
 16     if line == '':
 17         break
 18     '''
 19     if line == '':
 20         seekloc = -1
 21     twovalue = line.strip('\n').split(',')#csv轉化為list
 22     code, no = twovalue[0], twovalue[1]
 23     seekloc = file.tell()#讀取結束時游標的位置
 24     file.close()
 25     return code, no#code是列車號,no是長串
 26 
 27 def olddriver():
 28 
 29     #下文中將PhantomJS移除迴圈未果,任選擇在迴圈中打開。
 30     service_args=[]#PhantomJS優化
 31     service_args.append('--load-images=no')  ##關閉圖片載入
 32     driver = webdriver.PhantomJS(service_args=service_args)
 33 
 34     driver.set_page_load_timeout(10)  # 設置頁面載入超時
 35     driver.set_script_timeout(10)  # 設置頁面非同步js執行超時
 36     
 37     url = f'https://kyfw.12306.cn/otn/queryTrainInfo/init?train_no={no}&station_train_code={code}&date=2019-07-16'
 38     try:
 39         driver.get(url)
 40         data = driver.page_source
 41     except:
 42         print('Timeout!')
 43         driver.execute_script('window.stop()')
 44     driver.quit()#這句可讓PhantomJS關閉
 45     #return data
 46 
 47 #def beauti4soup():
 48     #global data
 49     soup = BeautifulSoup(data,'lxml')
 50     table_datas = soup.find('table',{'id':'queryTable'})
 51     datas = table_datas.findAll('tbody')[1].findAll('tr')
 52     if datas == []:
 53         print('Failed... Restart!')
 54         olddriver()
 55         #beauti4soup()
 56     else:
 57         print("It's OK! ")
 58     midways = []
 59     for data in datas:
 60         midway = data.find('div',{'class':'t-station'}).get_text()#單個列車的信息爬取
 61         midways.append(midway)
 62     answer.append(midways)
 63     return answer
 64 
 65 def data_write_csv(file_name,datas):
 66     file_csv = open(file_name,'w+')
 67     #writer = csv.writer(file_csv,delimiter=',',quotechar=' ',quoting=csv.QUOTE_MINIMAL)csv庫用法存疑
 68     writer = csv.writer(file_csv)
 69     for data in datas:
 70         writer.writerow(data)
 71 
 72 
 73 #---主程式開始---#
 74 
 75 seekloc = 0#初始化游標
 76 values_get()#運行一次values_get()把csv無用的第一行過濾掉
 77 answer = []#存儲所有途徑站信息的list
 78 '''
 79 #這裡三行嘗試將PhantomJS放在迴圈外,提前開啟,減少載入時間。
 80 #結果:運行時間確實大幅減短,但遇到一次failed之後就一直failed。
 81 #參考鏈接:https://blog.csdn.net/qingwuh/article/details/81583801
 82 service_args=[]#PhantomJS優化
 83 service_args.append('--load-images=no')  ##關閉圖片載入
 84 driver = webdriver.PhantomJS(service_args=service_args)
 85 '''
 86 j = 1
 87 while True:#迴圈爬取
 88     code, no = values_get()
 89     if j > 10:#十個一迴圈的測試
 90         break
 91     #if seekloc == -1:
 92     #    break
 93     answer = olddriver()
 94     j += 1 
 95 
 96 data_write_csv('Route.csv',answer)#存儲數據 
 97 
 98 #---主程式結束---#
 99 end = time.time()
100 print('Running time: {} Seconds'.format(end-start))
101 print("=================================")

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在springMVC controller中返回json數據出現亂碼問題,因為沒有進行編碼,只需要簡單的註解就可以了 在@RequestMapping()中加入produces="text/html;charset=UTF-8"屬性即可,如下: ...
  • 1.Java 發展史 1991年01月 Sun公司成立了Green項目小組,專攻智能家電的嵌入式控制系統 1991年02月 放棄C++,開 發新語言,命名為“Oak” 1991年06月 JamesGosling開發了Oak的解釋器 1992年01月 Green完成了Green操作系 統、Oak語言、 ...
  • 本文續接上一章ArrayList原理及使用,對ArrayList中的常用方法subList進行了剖析,從源碼的角度對通過subList方法得到的集合和原集合有何關係,有何不同點,從而避免工作中遇到各種坑 ...
  • 原文鏈接: "https://www.cnblogs.com/mddblog/p/11105450.html" 如果已經比較熟悉,可以跳過整體介紹,直接看常見問題部分 整體介紹 方法交換是runtime的重要體現,也是"消息語言"的核心。OC給開發者開放了很多介面,讓開發者也能全程參與這一過程。 原 ...
  • 安裝環境: 6台 centos7.4 在各個節點下載官網release包,可以自己去官網找: wget http://download.redis.io/releases/redis-5.0.5.tar.gz 解壓:tar -zxvf redis-5.0.5.tar.gz 進入目錄:cd redis ...
  • css樣式表使用 javafx中的css樣式,與html的有些不一樣,javafx中的css,是以 這種樣子的,具體可以參考文檔 "JavaFx css官方文檔" javafx中,css樣式有兩種使用方法 直接在fxml中使用 fxml引用css文件 fxml直接使用樣式 在某個控制項中使用style ...
  • Java面向對象編程有三大特性,它們是封裝、繼承和多態。 封裝: 字面上來說就是將一個東西包裹起來,這樣會掩飾掉內部的細節。怎麼樣?這麼一說是不是有點想法。 將類封裝起來,只提供想提供的方法介面,而不需要提供具體實現細節,這樣一來使得程式更加健壯。 另一方面比方說項目做到一半換人了,老闆現在要求吧代 ...
  • 多線性方程組的Gauss-Seidel迭代演算法的Python實現 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...