又面試了Python爬蟲工程師，碰到這麼幾道面試題，Python面試題No9

-Advertisement-

第1題：動態載入又對及時性要求很高怎麼處理？如何知道一個網站是動態載入的數據？用火狐或者谷歌瀏覽器打開你網頁，右鍵查看頁面源代碼，ctrl +F 查詢輸入內容，源代碼裡面並沒有這個值，說明是動態載入數據。 1. Selenium+Phantomjs 2. 儘量不使用 sleep 而使用 Web ...

第1題：動態載入又對及時性要求很高怎麼處理？

如何知道一個網站是動態載入的數據？
用火狐或者谷歌瀏覽器打開你網頁，右鍵查看頁面源代碼，ctrl +F 查詢輸入內容，源代碼裡面並沒有這個值，說明是動態載入數據。

Selenium+Phantomjs
儘量不使用 sleep 而使用 WebDriverWait

第2題：python 爬蟲有哪些常用框架？

序號	框架名稱	描述	官網
1	Scrapy	Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程式中。用這個框架可以輕鬆爬下來如亞馬遜商品信息之類的數據。	https://scrapy.org/
2	PySpider	pyspider 是一個用python實現的功能強大的網路爬蟲系統，能在瀏覽器界面上進行腳本的編寫，功能的調度和爬取結果的實時查看，後端使用常用的資料庫進行爬取結果的存儲，還能定時設置任務與任務優先順序等。	https://github.com/binux/pyspider
3	Crawley	Crawley可以高速爬取對應網站的內容，支持關係和非關係資料庫，數據可以導出為JSON、XML等。	http://project.crawley-cloud.com/
4	Portia	Portia是一個開源可視化爬蟲工具，可讓您在不需要任何編程知識的情況下爬取網站！簡單地註釋您感興趣的頁面，Portia將創建一個蜘蛛來從類似的頁面提取數據。	https://github.com/scrapinghub/portia
5	Newspaper	Newspaper可以用來提取新聞、文章和內容分析。使用多線程，支持10多種語言等。	https://github.com/codelucas/newspaper
6	Beautiful Soup	Beautiful Soup 是一個可以從HTML或XML文件中提取數據的Python庫.它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間	https://www.crummy.com/software/BeautifulSoup/bs4/doc/
7	Grab	Grab是一個用於構建Web刮板的Python框架。藉助Grab，您可以構建各種複雜的網頁抓取工具，從簡單的5行腳本到處理數百萬個網頁的複雜非同步網站抓取工具。Grab提供一個API用於執行網路請求和處理接收到的內容，例如與HTML文檔的DOM樹進行交互。	http://docs.grablib.org/en/latest/#grab-spider-user-manual
8	Cola	Cola是一個分散式的爬蟲框架，對於用戶來說，只需編寫幾個特定的函數，而無需關註分散式運行的細節。任務會自動分配到多台機器上，整個過程對用戶是透明的。	沒找著~
9	很多	看自己積累	多百度

第3題： Scrapy 的優缺點?

優點：scrapy 是非同步的

採取可讀性更強的 xpath 代替正則強大的統計和 log 系統，同時在不同的 url 上爬行支持 shell 方式，方便獨立調試寫 middleware,方便寫一些統一的過濾器，通過管道的方式存入資料庫。

缺點：基於 python 的爬蟲框架，擴展性比較差

基於 twisted 框架，運行中的 exception 是不會幹掉 reactor，並且非同步框架出錯後是不會停掉其他任務的，數據出錯後難以察覺。

第4題： scrapy 和 request?

scrapy 是封裝起來的框架，他包含了下載器，解析器，日誌及異常處理，基於多線程， twisted 的方式處理，對於固定單個網站的爬取開發，有優勢，但是對於多網站爬取，併發及分散式處理方面，不夠靈活，不便調整與括展。
request 是一個 HTTP 庫，它只是用來，進行請求，對於 HTTP 請求，他是一個強大的庫，下載，解析全部自己處理，靈活性更高，高併發與分散式部署也非常靈活，對於功能可以更好實現。

第5題：描述下 scrapy 框架運行的機制？

從 start_urls 里獲取第一批 url 併發送請求，請求由引擎交給調度器入請求隊列，獲取完畢後，調度器將請求隊列里的請求交給下載器去獲取請求對應的響應資源，並將響應交給自己編寫的解析方法做提取處理，如果提取出需要的數據，則交給管道文件處理；
如果提取出 url，則繼續執行之前的步驟（發送 url 請求，並由引擎將請求交給調度器入隊列…)，直到請求隊列里沒有請求，程式結束。

第6題：實現模擬登錄的方式有哪些？

使用一個具有登錄狀態的 cookie，結合請求報頭一起發送，可以直接發送 get 請求，訪問登錄後才能訪問的頁面。
先發送登錄界面的 get 請求，在登錄頁面 HTML 里獲取登錄需要的數據（如果需要的話），然後結合賬戶密碼，再發送 post 請求，即可登錄成功。然後根據獲取的 cookie信息，繼續訪問之後的頁面。

第7題：你遇到過的反爬蟲的策略？

BAN IP
BAN USERAGENT
BAN COOKIES
驗證碼驗證
javascript渲染
ajax非同步傳輸
等.......

後續面試問題

你常用的反反爬蟲的方案？
你用過多線程和非同步嗎？除此之外你還用過什麼方法來提高爬蟲效率？
有沒有做過增量式抓取？
對Python爬蟲框架是否有瞭解？

她專科學歷
27歲從零開始學習c，c++，python編程語言
29歲編寫百例教程
30歲掌握10種編程語言，
用自學的經歷告訴你，學編程就找夢想橡皮擦

歡迎關註她的公眾號，非本科程式員

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

ｃｏｄｅｆｏｒｃｅｓ　７１２A. Memory and Crow

2019-05-18 08:48:27 加油，加油，堅持！！！這道題我沒有想出公式推導，只是按照模擬題來做，第５個樣例超時樣例超時，方法錯誤 https://www.cnblogs.com/ECJTUACM-873284962/p/6375011.html AC代碼：我的代碼： ...
如何入門Python爬蟲？爬蟲原理及過程詳解

如何入門Python爬蟲？爬蟲原理及過程詳解，“入門”是良好的動機，但是可能作用緩慢。如果你手裡或者腦子裡有一個項目，那麼實踐起來你會被目標驅動，而不會像學習模塊一樣慢慢學習。 ...
13. Scala函數式編程(高級部分)

13.1 偏函數(partial function) 13.1.1 需求 -> 思考一個集合val list = List(1,2,3,4,"abc")，完成如下要求 1) 將集合list中的所有數字+1，並返回一個新的集合 2) 要求忽略掉非數字的元素，即返回的新的集合形式為(2,3,4,5) ...
7天學完Java基礎之4/7

靜態static 如果一個成員變數使用了static關鍵字，那麼這個變數不再屬於對象自己，而是屬於所在的類，多個對象共用同一份數據靜態static 關鍵字修飾成員變數靜態static關鍵字修飾成員方法一旦使用static修飾成員方法，那麼這就成為了靜態方法，靜態方法不屬於對象，而是屬於類的如 ...
死磕 java同步系列之JMM（Java Memory Model）

硬體記憶體架構？ Java記憶體模型？記憶體間交互的操作有哪些？原子性、可見性、有序性？先行發生原則有哪些？ ...
hibernate詳解一

hibernate介紹 hibernate是一個開源的輕量級的框架， hibernate框架應用在javaee三層結構中的dao層框架，在dao層對資料庫進行crud操作，使用hibernate框架實現crud操作； hibernate底層就是jdbc,hibernate對jdbc進行了封裝；使用h ...
python logging with yaml

Recently, I was made a service which can provide a simple way to get best model. so, i spent lot of time to read source code of auto-sklearn, auto-skl ...
Java面試題總結之Java基礎(三)

1、JAVA 語言如何進行異常處理，關鍵字：throws,throw,try,catch,finally分別代表什麼意義？在try 塊中可以拋出異常嗎？答：Java 通過面向對象的方法進行異常處理，把各種不同的異常進行分類，並提供了良好的介面。在Java 中，每個異常都是一個對象，它是Throwa ...