2020十大Python面試題,你會幾個?

来源:https://www.cnblogs.com/chengxuyuanaa/archive/2020/04/17/12719939.html
-Advertisement-
Play Games

0 遇到過得反爬蟲策略以及解決方法? 1.通過headers反爬蟲 2.基於用戶行為的發爬蟲:(同一IP短時間內訪問的頻率) 3.動態網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成) 4.對部分數據進行加密處理的(數據是亂碼) 解決方法: 對於基本網頁的抓取可以自定義header ...


 



0 遇到過得反爬蟲策略以及解決方法?

1.通過headers反爬蟲 2.基於用戶行為的發爬蟲:(同一IP短時間內訪問的頻率) 3.動態網頁反爬蟲(通過ajax請求數據,或者通過JavaScript生成) 4.對部分數據進行加密處理的(數據是亂碼)

解決方法:

對於基本網頁的抓取可以自定義headers,添加headers的數據 使用多個代理ip進行抓取或者設置抓取的頻率降低一些, 動態網頁的可以使用selenium + phantomjs 進行抓取 對部分數據進行加密的,可以使用selenium進行截圖,使用python自帶的pytesseract庫進行識別,但是比較慢最直接的方法是找到加密的方法進行逆向推理。

1 urllib 和 urllib2 的區別?

  • urllib 和urllib2都是接受URL請求的相關模塊,但是urllib2可以接受一個Request類的實例來設置URL請求的headers,urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字元串。
  • urllib提供urlencode()方法用來GET查詢字元串的產生,而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

2 列舉網路爬蟲所用到的網路數據包,解析包?

  • 網路數據包 urllib、urllib2、requests
  • 解析包 re、xpath、beautiful soup、lxml

3 簡述一下爬蟲的步驟?

  1. 確定需求;
  2. 確定資源;
  3. 通過url獲取網站的返回數據;
  4. 定位數據;
  5. 存儲數據。

4 遇到反爬機制怎麼處理?

反爬機制:

headers方向 判斷User-Agent、判斷Referer、判斷Cookie。 將瀏覽器的headers信息全部添加進去 註意:Accept-Encoding;gzip,deflate需要註釋掉

5 常見的HTTP方法有哪些?

  • GET:請求指定的頁面信息,返回實體主體;
  • HEAD:類似於get請求,只不過返回的響應中沒有具體的內容,用於捕獲報頭;
  • POST:向指定資源提交數據進行處理請求(比如表單提交或者上傳文件),。數據被包含在請求體中。
  • PUT:從客戶端向服務端傳送數據取代指定的文檔的內容;
  • DELETE:請求刪除指定的頁面;
  • CONNNECT:HTTP1.1協議中預留給能夠將連接方式改為管道方式的代理伺服器;
  • OPTIONS:允許客戶端查看伺服器的性能; TRACE:回顯伺服器的請求,主要用於測試或者診斷。

6 說一說redis-scrapy中redis的作用?

它是將scrapy框架中Scheduler替換為redis資料庫,實現隊列管理共用。

優點:

  1. 可以充分利用多台機器的帶寬;
  2. 可以充分利用多台機器的IP地址。

7 遇到的反爬蟲策略以及解決方法?

  1. 通過headers反爬蟲:自定義headers,添加網頁中的headers數據。
  2. 基於用戶行為的反爬蟲(封IP):可以使用多個代理IP爬取或者將爬取的頻率降低。
  3. 動態網頁反爬蟲(JS或者Ajax請求數據):動態網頁可以使用 selenium + phantomjs 抓取。
  4. 對部分數據加密處理(數據亂碼):找到加密方法進行逆向推理。

8 如果讓你來防範網站爬蟲,你應該怎麼來提高爬取的難度 ?

  1. 判斷headers的User-Agent;
  2. 檢測同一個IP的訪問頻率;
  3. 數據通過Ajax獲取;
  4. 爬取行為是對頁面的源文件爬取,如果要爬取靜態網頁的html代碼,可以使用jquery去模仿寫html。

9 scrapy分為幾個組成部分?分別有什麼作用?

分為5個部分;Spiders(爬蟲類),Scrapy Engine(引擎),Scheduler(調度器),Downloader(下載器),Item Pipeline(處理管道)。

  • Spiders:開發者自定義的一個類,用來解析網頁並抓取指定url返回的內容。
  • Scrapy Engine:控制整個系統的數據處理流程,併進行事務處理的觸發。
  • Scheduler:接收Engine發出的requests,並將這些requests放入到處理列隊中,以便之後engine需要時再提供。
  • Download:抓取網頁信息提供給engine,進而轉發至Spiders。
  • Item Pipeline:負責處理Spiders類提取之後的數據。 比如清理HTML數據、驗證爬取的數據(檢查item包含某些欄位)、查重(並丟棄)、將爬取結果保存到資料庫中

10 簡述一下scrapy的基本流程?

 

image

 

scrapy分為9個步驟:

  1. Spiders需要初始的start_url或則函數stsrt_requests,會在內部生成Requests給Engine;
  2. Engine將requests發送給Scheduler;
  3. Engine從Scheduler那獲取requests,交給Download下載;
  4. 在交給Dowmload過程中會經過Downloader Middlewares(經過process_request函數);
  5. Dowmloader下載頁面後生成一個response,這個response會傳給Engine,這個過程中又經過了Downloader Middlerwares(經過process_request函數),在傳送中出錯的話經過process_exception函數;
  6. Engine將從Downloader那傳送過來的response發送給Spiders處理,這個過程經過Spiders Middlerwares(經過process_spider_input函數);
  7. Spiders處理這個response,返回Requests或者Item兩個類型,傳給Engine,這個過程又經過Spiders Middlewares(經過porcess_spider_output函數);
  8. Engine接收返回的信息,如果使Item,將它傳給Items Pipeline中;如果是Requests,將它傳給Scheduler,繼續爬蟲;
  9. 重覆第三步,直至沒有任何需要爬取的數據
    最後註意:不管你是為了Python就業還是興趣愛好,記住:項目開發經驗永遠是核心,如果你沒有2020最新python入門到高級實戰視頻教程,可以去小編的Python交流.裙 :七衣衣九七七巴而五(數字的諧音)轉換下可以找到了,裡面很多新python教程項目,還可以跟老司機交流討教!

    本文的文字及圖片來源於網路加上自己的想法,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在C語言中迴圈可分為3中,while迴圈、do - while迴圈、for 迴圈。 一、while迴圈   while即:首先檢查啟動迴圈的條件是否滿足,當條件滿足時,不斷地重覆迴圈體內的語句,直到不滿足條件就退出。   while迴圈基本形式: ...
  • 有個很奇怪的現象,我自認為寫得好的文章閱讀量只有一百多,隨手寫的卻有一千多——要麼是胡搞,要麼是比較淺顯。縱觀博客園裡眾多閱讀過萬的文章,若非絕世之作,則必為介紹入門級知識的短文。為了讓我的十八線博客上升到十七線,我打算寫幾篇短文。當然,短不等於隨便,不等於不負責任。客觀的,要有確鑿的依據,代碼必須 ...
  • 問題背景: 在做Struts2學習的頁面訪問時,配置瞭如下的兩個<action>返回結果視圖: <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD St ...
  • 程式每次讀入一個正3位數,然後輸出按位逆序的數字。註意:當輸入的數字含有結尾的0時,輸出不應帶有前導的0。比如輸入700,輸出應該是7。輸入格式:每個測試是一個3位的正整數。輸出格式:輸出按位逆序的數。代碼如下:#!/usr/bin/python# -*- coding: utf-8 -*-n = ... ...
  • 配置視圖解析器 在前面的章節中,我們已經把 中使用到的註解已經全部講解過了。但是 中的代碼存在了一個問題,那就是返回值跳轉的頁面地址太繁瑣了。假設我們所有的頁面都放在 下,那我們是不是每次都得覆寫很多遍 ,這是作為一個優秀的程式猿不可以忍耐的!我們想要只要 return 我們需要改變的值就可以了,那 ...
  • 使用 @RequestParam 將請求參數綁定至方法參數 你可以使用 註解將請求參數綁定到你控制器的方法參數上。 下麵這段代碼展示了它的用法: 若參數使用了該註解,則該參數預設是必須提供的,但你也可以把該參數標註為非必須的:只需要將 註解的 屬性設置為 即可: 註意:這裡使用的 是將請求的參數設置 ...
  • 項目簡介 項目來源於: "https://gitee.com/darlingzhangsh/graduation_project" 本系統是基於 Thymeleaf+SpringBoot+Mybatis 。是非常標準的SSM三大框架( SpringBoot就是一個大框架,裡面包含了許多的東西,其中S ...
  • 這一節雖然簡單,但是很繁瑣,可以先瞭解 @RequestMapping 的使用,不是很明白也沒有關係,先繼續往下學習,等你回頭再看一遍的時候,你會發現 @RequestMapping 竟然是如此的簡單! @RequestMapping @RequestMapping可以在控制器 類 上或者控制器 方 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...