一、動態HTML 1.爬蟲跟反爬蟲 2.動態HTML連載 (1)JavaScript (2)jQuery (3)Ajax (4)DHTML (5)Python採集動態數據 從JavaScript代碼入手採集;Python第三方庫運行JavaScript,直接採集你在瀏覽器中看到的頁面 二、Sele ...
一、動態HTML
1.爬蟲跟反爬蟲
2.動態HTML連載
(1)JavaScript
(2)jQuery
(3)Ajax
(4)DHTML
(5)Python採集動態數據
從JavaScript代碼入手採集;Python第三方庫運行JavaScript,直接採集你在瀏覽器中看到的頁面
二、Selenium + PhantomJS
1.Selenium:web自動化測試工具
(1)自動載入頁面;(2)獲取數據;(3)截屏
(4)官方文檔:http://selenium-python.readthedocs.io/index.html
2.PhantomJS
(1)基於WebKit的無界面的瀏覽器
(2)官方網站:http://phantomjs.org/download.html
3.Selenium庫有一個WebDriver的API
4.WebDriver可以跟頁面上的元素進行各種交互,用它可以來進行爬取
"""
通過webdriver操作模擬進行查找
"""
from selenium import webdriver
import time
#通過keys模擬鍵盤
from selenium.webdriver.common.keys import Keys
#操作哪個瀏覽器就對哪個瀏覽器建立一個實例
#自動按照環境變數查找相應的瀏覽器
driver = webdriver.PhantomJS()#這個就是瀏覽器的實例
#如果瀏覽器沒有相應的環境瀏覽器,需要指定瀏覽器位置
driver.get("http://www.baidu.com")#去訪問這個網站,然後獲取返回的數據
#通過函數查找title標簽
print("Title:{0}".format(driver.title))
5.Chrome + Chromedriver
下載Chrome:下載和安裝
Chromdriver安裝
五、源碼
Reptile14_1_DHTML.py
https://github.com/ruigege66/PythonReptile/blob/master/Reptile14_1_DHTML.py
2.CSDN:https://blog.csdn.net/weixin_44630050
3.博客園:https://www.cnblogs.com/ruigege0000/
4.歡迎關註微信公眾號:傅里葉變換,個人公眾號,僅用於學習交流,後臺回覆”禮包“,獲取大數據學習資料