利用Python尋找命中註定的另一半, 大家都覺得不可信, 畢竟都還沒看這篇神級教程!

来源:https://www.cnblogs.com/tzjks/archive/2018/06/03/9130582.html
-Advertisement-
Play Games

既然是Python程式員找美女,就要用python程式員的方法。 今天我們的目標是,爬社區的美女~而且,我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~ 1scrapy原理 在寫過幾個爬蟲程式之後,我們就知道,利用爬蟲獲取數據大概的步驟:請求網頁,獲取網頁,匹配信息,下載數據,數據清洗,存入數據 ...


既然是Python程式員找美女,就要用python程式員的方法。

今天我們的目標是,爬社區的美女~而且,我們又要用到新的姿勢(霧)了~scrapy爬蟲框架~

1scrapy原理

在寫過幾個爬蟲程式之後,我們就知道,利用爬蟲獲取數據大概的步驟:請求網頁,獲取網頁,匹配信息,下載數據,數據清洗,存入資料庫。

scrapy是一個很有名的爬蟲框架,可以很方便的進行網頁信息爬取。那麼scrapy到底是如何工作的呢?之前在網上看了不少scrapy入門的教程,大多數入門教程都配有這張圖。

_(:зゝ∠)_也不知道是這張圖實在太經典了,還是程式員們都懶得畫圖,第一次看到這個圖的時候,米醬的心情是這樣的

GIF

經過了一番深入的理解,大概知道這幅圖的意思,讓我來舉個慄子(是的,我又要舉奇怪的慄子了):

當我們想吃東西的時候,我們會出門,走到街上,尋找一家想吃的點,然後點餐,服務員再通知廚房去做,最後菜到餐桌上,或者被打包帶走。這就是爬蟲程式在做的事,它要將所有獲取數據需要進行的操作,都寫好。

而scrapy就像一個點餐app一般的存在,在訂餐列表(spiders)選取自己目標餐廳里想吃的菜(items),在收貨(pipeline)處寫上自己的收貨地址(存儲方式),點餐系統(scrapy engine)會根據訂餐情況要求商鋪(Internet)的廚房(download)將菜做好,由於會產生多個外賣取貨訂單(request),系統會根據派單(schedule)分配外賣小哥從廚房取貨(request)和送貨(response)。說著說著我都餓了。。。。

什麼意思呢?在使用scrapy時,我們只需要設置spiders(想要爬取的內容),pipeline(數據的清洗,數據的存儲方式),還有一個middlewares,是各功能間對接時的一些設置,就可以不用操心其他的過程,一切交給scrapy模塊來完成。

2創建scrapy工程

安裝scrapy之後,創建一個新項目

我用的是pycharm編譯器,在spiders文件下創建zhihuxjj.py

在zhihuxjj.py這個文件中,我們要編寫我們的爬取規則。

3 爬取規則制定(spider)

創建好了項目,讓我們來看一下我們要吃的店和菜…哦不,要爬的網站和數據。

我選用了知乎作為爬取平臺,知乎是沒有用戶從1到n的序列id的,每個人可以設置自己的個人主頁id,且為唯一。所以採選了選取一枚種子用戶,爬取他的關註者,也可以關註者和粉絲一起爬,考慮到粉絲中有些三無用戶,我僅選擇了爬取關註者列表,再通過關註者主頁爬取關註者的關註者,如此遞歸。

對於程式的設計,是這樣的。

start url是scrapy中的一個標誌性的值,它用於設置爬蟲程式的開始,也就是從哪裡開始爬,按照設定,從種子用戶個人主頁開始爬便是正義,但是考慮到個人主頁的鏈接會進行重覆使用,所以在這裡我將起始url設成了知乎主頁。

之後就是種子用戶的個人主頁,知乎粉絲多的大V很多,但是關註多的人就比較難發現了,這裡我選擇了知乎的黃繼新,聯合創始人,想必關註了不少優質用戶(≖‿≖)。

分析一下個人主頁可知,個人主頁由'https://www.zhihu.com/people/' + 用戶id 組成,我們要獲取的信息是用callback回調函數(敲黑板!!劃重點!!)的方式設計,這裡一共設計了兩個回調函數:用戶的關註列表和關註者的個人信息。

使用chrome瀏覽器查看上圖的頁面可知獲取關註列表的url,以及關註者的用戶id。

將滑鼠放在用戶名上。

可以獲得個人用戶信息的url。分析url可知:

so,我們在上一節中創建的zhihuxjj.py文件中寫入以下代碼。

這裡需要劃重點的是yield的用法,以及item['name'],將爬取結果賦值給item,就是告訴系統,這是我們要選的菜…啊呸…要爬的目標數據。

4設置其他信息

在items.py文件中,按照spider中設置的目標數據item,添加對應的代碼。

在pipeline.py中添加存入資料庫的代碼(資料庫咋用上一篇文章寫了哦~)。

因為使用了pipeline.py,所以我們還需要再setting.py文件中,將ITEM_PIPELINE註釋解除,這裡起到連接兩個文件的作用。

到這裡,基本就都設置好了,程式基本上就可以跑了。不過因為scrapy是遵循robots.txt法則的,所以讓我們來觀察一下知乎的法則https://www.zhihu.com/robots.txt

emmmmmmm,看完法則了嗎,很好,然後我們在setting.py中,將ROBOTSTXT_OBEY 改成 False。(逃

好像…還忘了點什麼,對了,忘記設置headers了。通用的設置headers的方法同樣是在setting.py文件中,將DEFAULTREQUESTHEADERS的代碼註釋狀態取消,並設置模擬瀏覽器頭。知乎是要模擬登錄的,如果使用游客方式登錄,就需要添加authorization,至於這個authorization是如何獲取的,我,就,不,告,訴,你(逃

為了減少伺服器壓力&防止被封,解除DOWNLOADDELAY註釋狀態,這是設置下載延遲,將下載延遲設為3(robots法則里要求是10,但10實在太慢了_(:зゝ∠)知乎的程式員小哥哥看不見這句話看不見這句話…

寫到這裡你會發現,很多我們需要進行的操作,scrapy都已經寫好了,只需要將註釋去掉,再稍作修改,就可以實現功能了。scrapy框架還有很多功能,可以閱讀官方文檔瞭解。

5運行scrapy文件

寫好scrapy程式後,我們可以在終端輸入

運行文件。

但也可以在文件夾中添加main.py,並添加以下代碼。

然後直接用pycharm運行main.py文件即可,然後我們就可以愉快的爬知乎用戶啦~(小姐姐我來啦~

6查找美女

經過了X天的運行,_(:зゝ∠)_爬到了7w條用戶數據,爬取深度5。(這爬取速度讓我覺得有必要上分散式爬蟲了…這個改天再嘮)

有了數據我們就可以選擇,同城市的用戶進行研究了……

先國際慣例的分析一下數據。

在7w用戶中,明顯男性超過了半數,標明自己是女性的用戶只占了30%左右,還有一部分沒有註明性別,優質的小姐姐還是稀缺資源呀~

再來看看小姐姐們都在哪個城市。(從7w用戶中篩選出性別女且地址信息不為空的用戶)

看來小姐姐們還是集中在北上廣深杭的,所以想發現優質小姐姐的男孩紙們還是要向一線看齊啊,當然也不排除在二三線的小姐姐們沒有標記處自己的地理位置。

emmmmm……這次的分析,就到此為止,你們可以去撩小姐姐們了。(逃

7研究小姐姐

GIF

意不意外?開不開心?這裡還有一章。正所謂,授之以魚,不如授之以漁;撒了心靈雞湯,還得加一隻心靈雞腿;找到了小姐姐,我們還要瞭解小姐姐…………

讓我再舉個慄子~來研究一個小姐姐。(知乎名:動次,已獲取小姐姐授權作為示例。)

讓我們來爬一下她的動態,chrome右鍵檢查翻network這些套路我就不說了,直接將研究目標。

 

贊同的答案和文章(瞭解小姐姐的興趣點)

發佈的答案和文章(瞭解小姐姐的世界觀、人生觀、價值觀)

關註的問題和收藏夾(瞭解小姐姐需求)

提出的問題(瞭解小姐姐的疑惑)

代碼也不貼了,會放在gayhub的,來看一下輸出。

因為你乎風格,所以對停用詞進行了一些加工,添加了“如何”“看待”“體驗”等詞語,得到了小姐姐回答問題的詞頻。小姐姐的回答里出現了喜歡、朋友、爺爺等詞語。

還有!!在關註、贊同和輸出中,都有的詞(ω)。(是不是可以靠美味捕獲小姐姐呢……

再來一張劉看山背景的,答題詞雲。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在各種後臺系統中都會涉及到許可權的管控,從功能許可權的管控,到數據許可權的管控,都是為了讓系統的在使用的過程中更加的安全。功能許可權管控是對針對不同的角色可以進行不同的功能操作,而數據許可權管控是針對不同的角色可以查看不同的數據。這篇文章主要介紹 JeeSite 中對功能許可權的管控,也就是訪問控制許可權的使用, ...
  • sprign中的logging實現簡介 對於spring架構,Jakarta Commons Logging API (JCL)是強制依賴的。spring將JCL反編譯,並使得它們對類可見,從而擴展spring。程式員應該要意識到,所有版本的spring使用同一個logging庫:因此遷移是很容易的 ...
  • 今晚在Ubuntu環境上安裝composer後,想查看下是否安裝成功,使用composer v,結果提示:/usr/bin/env: php: 沒有那個文件或目錄 現說說我的解決辦法: 它提示的原因,主要是因為php的安裝文件不在/usr/local/bin下。解決辦法也很簡單,就是把php的可執行 ...
  • 原創 標題:激光樣式x星球的盛大節日為增加氣氛,用30台機光器一字排開,向太空中打出光柱。安裝調試的時候才發現,不知什麼原因,相鄰的兩台激光器不能同時打開!國王很想知道,在目前這種bug存在的情況下,一共能打出多少種激光效果?顯然,如果只有3台機器,一共可以成5種樣式,即:全都關上(sorry, 此 ...
  • 引言 上一篇文章瞭解了kafka的重要組件zookeeper,用來保存broker、consumer等相關信息,做到平滑擴展。這篇文章就實際操作部署下kafka,用幾個簡單的例子加深對kafka的理解,學會基本使用kafka。 環境搭建 我將會在本地部署一個三台機器的zookeeper集群,和一個2 ...
  • 1 視圖傳遞多個參數 (1) 普通傳參 : 關鍵字參數傳遞 (2) 字典傳參 : 以字典的形式傳遞 (3) 全局變數g傳遞 視圖中: 模板中 (4) 傳遞全部的本地變數給template,使用 locals() ,直接獲取變數值 test.html中 2 錯誤頁面定製 指定錯誤頁面:只需要一個錯誤模 ...
  • 簡單爬蟲架構 動態運行流程 URL管理器的作用 URL管理器的3種實現方式 網頁下載器的作用 Python網頁下載器的種類 urllib2下載網頁的3種方法 網頁解析器的作用 Python的幾種網頁解析器 結構化解析依賴DOM樹 Beautiful Soup語法 代碼舉例: 1.創建Beautifu ...
  • 圖片修複程式 可用於水印去除 在現實的生活中,我們可能會遇到一些美好的或是珍貴的圖片被雜訊干擾,比如舊照片的摺痕,比如鏡頭上的灰塵或污漬,更或者是某些我們想為我所用但有討厭水印,那麼有沒有一種辦法可以消除這些雜訊呢? 答案是肯定的,依然是被我們用了無數次的OpenCV這款優秀的框架。 效果預覽 圖片 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...