python爬蟲常用庫_ZenDei技術網路在線

python爬蟲常用庫

-Advertisement-

請求庫： 1. requests 這個庫是爬蟲最常用的一個庫 2. Selenium Selenium 是一個自動化測試工具，利用它我們可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作對於一些用JS做誼染的頁面來說，這種抓取方式是非常有效的。 3.ChomeDrive 安裝了這個庫，才能驅動Chr ...

請求庫：

1. requests 這個庫是爬蟲最常用的一個庫

2. Selenium Selenium 是一個自動化測試工具，利用它我們可以驅動瀏覽器執行特定的動作，如點擊、下拉等操作對於一些用JS做誼染的頁面來說，這種抓取方式是非常有效的。

3.ChomeDrive 安裝了這個庫，才能驅動Chrome瀏覽器完成相應的操作

4.GeckoDriver 使用W3C WebDriver相容客戶端與基於Gecko的瀏覽器進行交互的代理。

5.PhantomJS PhantomJS 是一個無界面、可腳本編程的 WebKit 瀏覽器引擎，它原生支持多種Web標準：Dom操作，css選擇器，json，Canvas以及SVG。

6.aiohttp 之前接收requests庫是一個阻塞式HTTP請求庫，當我們發送一個請求後。程式會一直等待伺服器響應，直到伺服器響應後，程式才會最下一步處理。其實，這個過程比較耗時間。如果程式可以在等待的過程中做一些其他的事情，如進行請求的調度，響應的處理等，那麼爬蟲的效率就會比之前的那種方式有很大的提升。而aiohttp就是這樣一個提供非同步web服務的庫。使用說這個庫用起來還是相當方便的。

解析庫：

1.lxml lxml是python的一個解析庫，這個庫支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受廣大程式員的熱愛

2.Beautiful Soup Beautiful Soup也是python里一個HTML或XMl的解析庫，它可以很方便的懂網頁中提取數據，擁有強大的API和多種解析方式。

3.pyquery 同樣是一個強大的網頁解析工具，它提供了和 jQuery 類似的語法來解析HTML 文梢，

資料庫：

1.mysql 資料庫

2.MongoDB Mo goDB 是由＋＋語言編寫的非關係型資料庫，是一個基於分散式文件存儲的開源資料庫系統內容存儲形式類似 JSON 對象，它的欄位值可以包含其他文檔、數組及文檔數組，非常靈活

3.Redis 是一個基於存的高效的非關係型資料庫，

存儲庫：

1.PyMySOL

2.PyMongo

3.redis-py

4.RedisDump

web庫：

1.Flask 是一個輕量級的Web服務程式，它簡單，易用，靈活

2.Tornado 是一個支持非同步的Web框架，通過使用非阻塞I/O流，可以支持成千上萬的開放式連接。

APP爬取相關庫：

1.Charles 是一個網路抓包工具，相比 Fiddler，其功能更為強大且跨平臺支持得更好。

2.mitmproxy 是一個支持HTTP和HTTPS的抓包工具，類似於Fiddler，Charles的功能，只不過它通過控制台的形式操作。

3.Android

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Python中的幽靈—編碼方式

首先要搞懂本地操作系統編碼與系統編碼的區別： 1. 本地操作系統編碼方式與操作系統有關，Linux預設編碼方式為utf 8，Windows預設編碼方式為gbk； 2. 系統編碼方式與編譯器or解釋器有關，Python3解釋器預設編碼方式為unicode。 3. 編碼方式不僅僅代表編碼，也包括解碼，因 ...
[Spring cloud 一步步實現廣告系統] 15. 使用開源組件監聽Binlog 實現增量索引準備

MySQL Binlog簡介什麼是binlog? 一個二進位日誌，用來記錄對數據發生或潛在發生更改的SQL語句，並以而進行的形式保存在磁碟中。 binlog 的作用？最主要有3個用途：數據複製（主從同步） Mysql 的Master Slave協議，讓Slave可以通過監聽binlog實現數據 ...
運算符重載和深淺拷貝

對於某些運算符號(+,-,*,/....)，我們不滿足與它原有的操作方式，而是要在對特有對象(如負數的加減)進行使用，但是編譯器會不允許這樣做，因為會與操作符原本的類型不匹配而導致操作失敗。因此我們需要對運算符進行重載，即賦予它新的意義，從而滿足我們的使用需求。如complex_a和complex ...
python 之前端開發（HTTP協議、head標簽、img標簽、a標簽、列表標簽）

第十一章前端開發 11.1 HTTP 1.1引入了許多關鍵性能優化：keepalive連接，請求流水線，chunked編碼傳輸，位元組範圍請求等 1、keepalive連接: 2、Pipelining（請求流水線） 3、chunked編碼傳輸 4、位元組範圍請求 get 和 post 的區別： 1、參數 ...
記我的一次 Java 服務性能優化

前段時間我們的服務遇到了性能瓶頸，由於前期需求太急沒有註意這方面的優化，到了要還技術債的時候就非常痛苦了。在很低的 QPS 壓力下伺服器 load 就能達到 10-20，CPU 使用率 60% 以上，而且在每次流量峰值時介面都會大量報錯，雖然使用了服務熔斷框架 Hystrix，但熔斷後服務卻... ...
python3基礎之“小練習（3）”

如有不足，歡迎指正！ ...
小白之旅13-1

一. 異常 1.1 概念 Java程式在運行時期發生的問題就是異常。在Java中，把異常封裝成了一個類。當發生了某些問題時，系統會自動創建對應的異常對象並拋出該異常相關的信息。 1.2 異常的體系 Throwable Error：用於指示合理的應用程式不應該試圖捕獲的嚴重問題 Exception ...
.lib .dll 區別介紹、使用（dll的兩種引入方式）

.lib .dll文件都是程式可直接引用的文件，前者就是所謂的庫文件，後者是動態鏈接庫（Dynamic Link Library)也是一個庫文件。而.pdb則可以理解為符號表文件。動態庫在沒有lib文件時，也可以通過顯示鏈接進行引用。 ...