針對多動態網頁的數據爬取,利用Selenium和bs4,csv庫存儲數據。 ...
整個程式的核心難點在於上次豆瓣爬蟲針對的是靜態網頁,源代碼和檢查元素內容相同;而在12306的查找搜索過程中,其網頁發生變化(出現了查找到的數據),這個過程是動態的,使得我們在審查元素中能一一對應看到的表格數據沒有顯示在源代碼中。這也是這次12306爬蟲和上次豆瓣書單爬蟲的最大不同點。
查找相關資料,我選擇使用Selenium的PhantomJS模擬瀏覽器爬取源代碼,這樣獲取到的datas包含了我需要的(查找搜索出的)途徑站數據。
暫時把整個程式分為了這幾個部分:(1)提取列車Code和No信息;(2)找到url規律,根據Code和No變化實現多個網頁數據爬取;(3)使用PhantomJS模擬瀏覽器爬取源代碼;(3)用bs4解析源代碼,獲取所需的途徑站數據;(4)用csv庫存儲獲得的數據。
整體使用面向過程的書寫方式。
(1)values_get()函數實現了從已有存儲了列車信息的csv中逐次提取Code和No。(在這裡有點刻意追求面向過程的函數,設置了每次提取都openfile再close。所以使用了tell一次readline完的游標位置,再seek次游標位置到下一次提取位置,實現關閉file後仍然可以接著上一次結束的seek位置繼續操作)
(2)olddriver()函數包含PhantomJS和bs4兩個部分。利用format來控制多個url,用PhantomJS、driver代替requests爬取網頁源代碼driver.get(url)。service_args可以配置模擬瀏覽器(優化加速),set_page_load_timeout()和set_script_timeout()+try except('window.stop()')設置超時(還未用上,存疑),最後用driver.quit()關閉使用完的PhantomJS避免記憶體爆炸。*這裡存在很多優化模擬瀏覽器的方法,除了上述的配置、超時、quit,還包括在迴圈外提前打開PhantomJS來實現程式運行時間加速等方法,筆者還未理解透這些方法。這裡貼出優化的參考鏈接:①https://blog.csdn.net/weixin_40284075/article/details/87190040②https://www.jianshu.com/p/8ec70859ae03還有PhantomJS的使用攻略①https://www.cnblogs.com/miqi1992/p/8093958.html②https://www.cnblogs.com/lizm166/p/8360388.html
為什麼使用已經被Selenium拋棄的PhantomJS而不使用Headless Chrome?筆者也曾嘗試過使用無頭chrome,但爬到的源代碼仍不包含我所需tbody數據。
丟失數據的源代碼長這樣(它只有tbody標簽,沒有標簽內的數據)。
而檢查元素里可以看到所需數據出現在tbody內:
雖然用PhantomJS確實可以爬取到所需的tbody數據,但是在後來迴圈url爬取多個列車信息時,可能是因為網站有反爬蟲措施,或是PhantomJS的不穩定,導致了經常會出現丟失數據的情況(PhantomJS的作用失效了)。所以我添加了一句if datas==[],遞歸olddriver()來確保能爬到這班列車的信息。如圖,失敗率仍然很高。
(3)最後是data_write_csv()寫入數據到csv,這裡用csv庫直接把列表變為了csv文件(列表中的多個列表就是多行數據),以後多嘗試用一下csv庫,還是很好用的。
(4)在主程式調用各個函數時,要註意global全局變數的使用、函數return參數給其他函數使用。
(5)最後是幾點自己的建議和猜想。首先如果12306真的有反爬蟲,我們可以嘗試像requests一樣的偽裝(在driver里沒刻意偽裝)或是換其他的網站來爬取。其次多註意:爬取網頁查詢搜索數據的方法,網頁跳轉等(或簡易成爬取多個網頁數據,如本例)。還有PhantomJS和headless Chrome,按理來說headless Chrome不會出現這樣的錯誤。最後是提升爬蟲運行速度的方法,(這次的爬取速度實在太慢了,10條信息平均要3分鐘才能成功獲得),除了對模擬瀏覽器的配置和優化,以及代碼本身的優化(如file文件一直開著,不提取一次數據就開關file一次),我們是否可以嘗試其他的源代碼.get(url)獲取方式?嘗試多線程加速?嘗試雲伺服器?
上代碼↓
1 import urllib3 2 #import requests 3 from selenium import webdriver 4 from bs4 import BeautifulSoup 5 import csv 6 import time 7 8 start = time.time() 9 10 def values_get():#通過設置游標來實現:從上一次結束的地方繼續讀取 11 file = open('Code.csv','r') 12 global seekloc#全局游標 13 file.seek(seekloc)#設置游標位置 14 line = file.readline() 15 ''' 16 if line == '': 17 break 18 ''' 19 if line == '': 20 seekloc = -1 21 twovalue = line.strip('\n').split(',')#csv轉化為list 22 code, no = twovalue[0], twovalue[1] 23 seekloc = file.tell()#讀取結束時游標的位置 24 file.close() 25 return code, no#code是列車號,no是長串 26 27 def olddriver(): 28 29 #下文中將PhantomJS移除迴圈未果,任選擇在迴圈中打開。 30 service_args=[]#PhantomJS優化 31 service_args.append('--load-images=no') ##關閉圖片載入 32 driver = webdriver.PhantomJS(service_args=service_args) 33 34 driver.set_page_load_timeout(10) # 設置頁面載入超時 35 driver.set_script_timeout(10) # 設置頁面非同步js執行超時 36 37 url = f'https://kyfw.12306.cn/otn/queryTrainInfo/init?train_no={no}&station_train_code={code}&date=2019-07-16' 38 try: 39 driver.get(url) 40 data = driver.page_source 41 except: 42 print('Timeout!') 43 driver.execute_script('window.stop()') 44 driver.quit()#這句可讓PhantomJS關閉 45 #return data 46 47 #def beauti4soup(): 48 #global data 49 soup = BeautifulSoup(data,'lxml') 50 table_datas = soup.find('table',{'id':'queryTable'}) 51 datas = table_datas.findAll('tbody')[1].findAll('tr') 52 if datas == []: 53 print('Failed... Restart!') 54 olddriver() 55 #beauti4soup() 56 else: 57 print("It's OK! ") 58 midways = [] 59 for data in datas: 60 midway = data.find('div',{'class':'t-station'}).get_text()#單個列車的信息爬取 61 midways.append(midway) 62 answer.append(midways) 63 return answer 64 65 def data_write_csv(file_name,datas): 66 file_csv = open(file_name,'w+') 67 #writer = csv.writer(file_csv,delimiter=',',quotechar=' ',quoting=csv.QUOTE_MINIMAL)csv庫用法存疑 68 writer = csv.writer(file_csv) 69 for data in datas: 70 writer.writerow(data) 71 72 73 #---主程式開始---# 74 75 seekloc = 0#初始化游標 76 values_get()#運行一次values_get()把csv無用的第一行過濾掉 77 answer = []#存儲所有途徑站信息的list 78 ''' 79 #這裡三行嘗試將PhantomJS放在迴圈外,提前開啟,減少載入時間。 80 #結果:運行時間確實大幅減短,但遇到一次failed之後就一直failed。 81 #參考鏈接:https://blog.csdn.net/qingwuh/article/details/81583801 82 service_args=[]#PhantomJS優化 83 service_args.append('--load-images=no') ##關閉圖片載入 84 driver = webdriver.PhantomJS(service_args=service_args) 85 ''' 86 j = 1 87 while True:#迴圈爬取 88 code, no = values_get() 89 if j > 10:#十個一迴圈的測試 90 break 91 #if seekloc == -1: 92 # break 93 answer = olddriver() 94 j += 1 95 96 data_write_csv('Route.csv',answer)#存儲數據 97 98 #---主程式結束---# 99 end = time.time() 100 print('Running time: {} Seconds'.format(end-start)) 101 print("=================================")