Python爬蟲學習==>第十一章:分析Ajax請求-抓取今日頭條信息

来源:https://www.cnblogs.com/wuzhiming/archive/2018/04/11/8723009.html
-Advertisement-
Play Games

學習目的: 解決AJAX請求的爬蟲,網頁解析庫的學習,MongoDB的簡單應用 正式步驟 Step1:流程分析 Step2:實例分析 1. 打開今日頭條搜索頁,搜索“中超”,查看頁面的請求方法為:GET 2. 創建一個Python文件:spider_ajax.py 3.網站url信息獲取 4. 列印 ...


學習目的:

   解決AJAX請求的爬蟲,網頁解析庫的學習,MongoDB的簡單應用

 

正式步驟

Step1:流程分析

  1.  抓取單頁內容:利用requests請求目標站點,得到單個頁面的html代碼,返回結果;
  2. 抓取頁面詳情內容:解析返回結果,得到詳情頁的鏈接,併進一步抓取詳情頁的信息;
  3. 下載圖片並保存資料庫:將圖片下載到本地,把頁面信息及圖片url保存至MongoDB;
  4. 開啟迴圈及多線程:對多頁面內容遍歷,開啟多線程並提高抓取效率。

Step2:實例分析

1. 打開今日頭條搜索頁,搜索“中超”,查看頁面的請求方法為:GET

2. 創建一個Python文件:spider_ajax.py

3.網站url信息獲取

4. 列印抓取的文章超鏈接和抓取的html內容

# -*-  coding:utf-8 -*-
import json
from urllib.parse import urlencode
from requests.exceptions import RequestException

import requests
def get_page_html(offset,keyword):
    data = {
        'offset':offset,
        'format':'json',
        'keyword':keyword,
        'autoload':'true',
        'count':'20',
        'cur_tab':1
    }
#   urlencode把字典對象自動轉化為url參數,
#   快速導入,請選中以後,按alt+enter
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('請求索引頁失敗')
        return None

def parse_page_index(html):
#因為html列印出來是json字元串格式,json.loads作用是將已編碼的 JSON 字元串解碼為 Python 對象
# json.dumps作用是將 Python 對象編碼成 JSON 字元串
#參考http://www.runoob.com/python/python-json.html
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

def main():
    html = get_page_html(0,'中超')
#列印抓取的文章詳細內容的url
    for url in parse_page_index(html):
        print(url)
#列印獲取頁面內容
    print(html)

if __name__ == '__main__':
    main()

 後面的內容因為爬蟲被封,很多信息獲取不到,暫時不會,以後再補全這節內容

 

 

學習總結:

   想爬取商業的門戶網站,感覺一臉懵逼


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 藉助百度地圖的 LocalSearch 和 Autocomplete 兩個方法 實現方式:通過promise以及百度地圖的callback回調函數 map.js 1 export function MP(ak) { 2 return new Promise(function (resolve, re ...
  • 為了保證應用的高可用和高併發性,一般都會部署多個節點;對於定時任務,如果每個節點都執行自己的定時任務,一方面耗費了系統資源,另一方面有些任務多次執行,可能引發應用邏輯問題,所以需要一個分散式的調度系統,來協調每個節點執行定時任務。 ...
  • 一、場景描述 代理在生活中並不少見,租房子需要找中介,打官司需要找律師,很多事情我們需要找專業人士代理我們做,另一方面,中介和律師也代理了房東、法律程式與我們打交道。 當然,設計模式中的代理與廣義的代理還是有所差別的;A對象調用B對象提供的服務X時,使用代理模式的前提是B對象實現了IB介面,通過介面 ...
  • 前不久需要開闢一個防火牆,所以要畫一個系統圖,其中有個箭頭連線需要設置一下,其它都還簡單算是(托拉拽)。用的是微軟的office-Visio工具: 點home的connector,前提已經選好一條畫好的連接線,然後選擇line下的Arrows的箭頭樣式。 ...
  • Struts1,一個中心控制器,XML定製轉向URL,Action處理邏輯。 Struts2,工作流程,用攔截器攔截用戶請求,把用戶的業務邏輯控制器和Servlet分離,生成控制器代理回調業務控制器的execute方法處理用戶請求,再通過處理用戶請求後的返回值進行用戶視圖呈現。 (拋棄struts1 ...
  • I am having some trouble getting the JSONCPP Library into Visual Studio. I have downloaded the library I am just unsure how to import it into my proje ...
  • 1. 使用方法 synchronized 是 java 中最常用的保證線程安全的方式,synchronized 的作用主要有三方面: 語義上來講,synchronized主要有三種用法: 2. 實現原理 2.1. 監視器鎖 synchronized 同步代碼塊的語義底層是基於對象內部的監視器鎖(mo ...
  • 安裝qrcode庫和PIL庫 ========== 在命令行中分別輸入pip install qrcode 和pip install pillow 導入庫格式如下: 下麵以生成一個帶圖標的二維碼為例 運行效果如下 上面這個例子是我之前看別人的,但是卻運行不了,之後自己修改過後的程式,如有侵犯立刻刪除 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...