2020十大Python面試題,你會幾個?

来源:https://www.cnblogs.com/chengxuyuanaa/archive/2020/04/17/12719939.html
-Advertisement-
Play Games

0 遇到過得反爬蟲策略以及解決方法? 1.通過headers反爬蟲 2.基於用戶行為的發爬蟲:(同一IP短時間內訪問的頻率) 3.動態網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成) 4.對部分數據進行加密處理的(數據是亂碼) 解決方法: 對於基本網頁的抓取可以自定義header ...


 



0 遇到過得反爬蟲策略以及解決方法?

1.通過headers反爬蟲 2.基於用戶行為的發爬蟲:(同一IP短時間內訪問的頻率) 3.動態網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成) 4.對部分數據進行加密處理的(數據是亂碼)

解決方法:

對於基本網頁的抓取可以自定義headers,添加headers的數據 使用多個代理ip進行抓取或者設置抓取的頻率降低一些, 動態網頁的可以使用selenium + phantomjs 進行抓取 對部分數據進行加密的,可以使用selenium進行截圖,使用python自帶的pytesseract庫進行識別,但是比較慢最直接的方法是找到加密的方法進行逆向推理。

1 urllib 和 urllib2 的區別?

  • urllib 和urllib2都是接受URL請求的相關模塊,但是urllib2可以接受一個Request類的實例來設置URL請求的headers,urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字元串。
  • urllib提供urlencode()方法用來GET查詢字元串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

2 列舉網路爬蟲所用到的網路數據包,解析包?

  • 網路數據包 urllib、urllib2、requests
  • 解析包 re、xpath、beautiful soup、lxml

3 簡述一下爬蟲的步驟?

  1. 確定需求;
  2. 確定資源;
  3. 通過url獲取網站的返回數據;
  4. 定位數據;
  5. 存儲數據。

4 遇到反爬機制怎麼處理?

反爬機制:

headers方向 判斷User-Agent、判斷Referer、判斷Cookie。 將瀏覽器的headers信息全部添加進去 註意:Accept-Encoding;gzip,deflate需要註釋掉

5 常見的HTTP方法有哪些?

  • GET:請求指定的頁面信息,返回實體主體;
  • HEAD:類似於get請求,只不過返回的響應中沒有具體的內容,用於捕獲報頭;
  • POST:向指定資源提交數據進行處理請求(比如表單提交或者上傳文件),。數據被包含在請求體中。
  • PUT:從客戶端向服務端傳送數據取代指定的文檔的內容;
  • DELETE:請求刪除指定的頁面;
  • CONNNECT:HTTP1.1協議中預留給能夠將連接方式改為管道方式的代理伺服器;
  • OPTIONS:允許客戶端查看伺服器的性能; TRACE:回顯伺服器的請求,主要用於測試或者診斷。

6 說一說redis-scrapy中redis的作用?

它是將scrapy框架中Scheduler替換為redis資料庫,實現隊列管理共用。

優點:

  1. 可以充分利用多台機器的帶寬;
  2. 可以充分利用多台機器的IP地址。

7 遇到的反爬蟲策略以及解決方法?

  1. 通過headers反爬蟲:自定義headers,添加網頁中的headers數據。
  2. 基於用戶行為的反爬蟲(封IP):可以使用多個代理IP爬取或者將爬取的頻率降低。
  3. 動態網頁反爬蟲(JS或者Ajax請求數據):動態網頁可以使用 selenium + phantomjs 抓取。
  4. 對部分數據加密處理(數據亂碼):找到加密方法進行逆向推理。

8 如果讓你來防範網站爬蟲,你應該怎麼來提高爬取的難度 ?

  1. 判斷headers的User-Agent;
  2. 檢測同一個IP的訪問頻率;
  3. 數據通過Ajax獲取;
  4. 爬取行為是對頁面的源文件爬取,如果要爬取靜態網頁的html代碼,可以使用jquery去模仿寫html。

9 scrapy分為幾個組成部分?分別有什麼作用?

分為5個部分;Spiders(爬蟲類),Scrapy Engine(引擎),Scheduler(調度器),Downloader(下載器),Item Pipeline(處理管道)。

  • Spiders:開發者自定義的一個類,用來解析網頁並抓取指定url返回的內容。
  • Scrapy Engine:控制整個系統的數據處理流程,併進行事務處理的觸發。
  • Scheduler:接收Engine發出的requests,並將這些requests放入到處理列隊中,以便之後engine需要時再提供。
  • Download:抓取網頁信息提供給engine,進而轉發至Spiders。
  • Item Pipeline:負責處理Spiders類提取之後的數據。 比如清理HTML數據、驗證爬取的數據(檢查item包含某些欄位)、查重(並丟棄)、將爬取結果保存到資料庫中

10 簡述一下scrapy的基本流程?

 

image

 

scrapy分為9個步驟:

  1. Spiders需要初始的start_url或則函數stsrt_requests,會在內部生成Requests給Engine;
  2. Engine將requests發送給Scheduler;
  3. Engine從Scheduler那獲取requests,交給Download下載;
  4. 在交給Dowmload過程中會經過Downloader Middlewares(經過process_request函數);
  5. Dowmloader下載頁面後生成一個response,這個response會傳給Engine,這個過程中又經過了Downloader Middlerwares(經過process_request函數),在傳送中出錯的話經過process_exception函數;
  6. Engine將從Downloader那傳送過來的response發送給Spiders處理,這個過程經過Spiders Middlerwares(經過process_spider_input函數);
  7. Spiders處理這個response,返回Requests或者Item兩個類型,傳給Engine,這個過程又經過Spiders Middlewares(經過porcess_spider_output函數);
  8. Engine接收返回的信息,如果使Item,將它傳給Items Pipeline中;如果是Requests,將它傳給Scheduler,繼續爬蟲;
  9. 重覆第三步,直至沒有任何需要爬取的數據
    最後註意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,裡面很多新python教程項目,還可以跟老司機交流討教!

    本文的文字及圖片來源於網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在C語言中迴圈可分為3中,while迴圈、do - while迴圈、for 迴圈。 一、while迴圈   while即:首先檢查啟動迴圈的條件是否滿足,當條件滿足時,不斷地重覆迴圈體內的語句,直到不滿足條件就退出。   while迴圈基本形式: ...
  • 有個很奇怪的現象,我自認為寫得好的文章閱讀量只有一百多,隨手寫的卻有一千多——要麼是胡搞,要麼是比較淺顯。縱觀博客園裡眾多閱讀過萬的文章,若非絕世之作,則必為介紹入門級知識的短文。為了讓我的十八線博客上升到十七線,我打算寫幾篇短文。當然,短不等於隨便,不等於不負責任。客觀的,要有確鑿的依據,代碼必須 ...
  • 問題背景: 在做Struts2學習的頁面訪問時,配置瞭如下的兩個<action>返回結果視圖: <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD St ...
  • 程式每次讀入一個正3位數,然後輸出按位逆序的數字。註意:當輸入的數字含有結尾的0時,輸出不應帶有前導的0。比如輸入700,輸出應該是7。輸入格式:每個測試是一個3位的正整數。輸出格式:輸出按位逆序的數。代碼如下:#!/usr/bin/python# -*- coding: utf-8 -*-n = ... ...
  • 配置視圖解析器 在前面的章節中,我們已經把 中使用到的註解已經全部講解過了。但是 中的代碼存在了一個問題,那就是返回值跳轉的頁面地址太繁瑣了。假設我們所有的頁面都放在 下,那我們是不是每次都得覆寫很多遍 ,這是作為一個優秀的程式猿不可以忍耐的!我們想要只要 return 我們需要改變的值就可以了,那 ...
  • 使用 @RequestParam 將請求參數綁定至方法參數 你可以使用 註解將請求參數綁定到你控制器的方法參數上。 下麵這段代碼展示了它的用法: 若參數使用了該註解,則該參數預設是必須提供的,但你也可以把該參數標註為非必須的:只需要將 註解的 屬性設置為 即可: 註意:這裡使用的 是將請求的參數設置 ...
  • 項目簡介 項目來源於: "https://gitee.com/darlingzhangsh/graduation_project" 本系統是基於 Thymeleaf+SpringBoot+Mybatis 。是非常標準的SSM三大框架( SpringBoot就是一個大框架,裡面包含了許多的東西,其中S ...
  • 這一節雖然簡單,但是很繁瑣,可以先瞭解 @RequestMapping 的使用,不是很明白也沒有關係,先繼續往下學習,等你回頭再看一遍的時候,你會發現 @RequestMapping 竟然是如此的簡單! @RequestMapping @RequestMapping可以在控制器 類 上或者控制器 方 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...