Python爬蟲學習==>第十一章：分析Ajax請求-抓取今日頭條信息

-Advertisement-

學習目的：解決AJAX請求的爬蟲，網頁解析庫的學習，MongoDB的簡單應用正式步驟 Step1：流程分析 Step2：實例分析 1. 打開今日頭條搜索頁，搜索“中超”，查看頁面的請求方法為：GET 2. 創建一個Python文件：spider_ajax.py 3.網站url信息獲取 4. 列印 ...

學習目的：

　　解決AJAX請求的爬蟲，網頁解析庫的學習，MongoDB的簡單應用

正式步驟

Step1：流程分析

抓取單頁內容：利用requests請求目標站點，得到單個頁面的html代碼，返回結果；
抓取頁面詳情內容：解析返回結果，得到詳情頁的鏈接，併進一步抓取詳情頁的信息；
下載圖片並保存資料庫：將圖片下載到本地，把頁面信息及圖片url保存至MongoDB；
開啟迴圈及多線程：對多頁面內容遍歷，開啟多線程並提高抓取效率。

Step2：實例分析

1. 打開今日頭條搜索頁，搜索“中超”，查看頁面的請求方法為：GET

2. 創建一個Python文件：spider_ajax.py

3.網站url信息獲取

4. 列印抓取的文章超鏈接和抓取的html內容

# -*-  coding:utf-8 -*-
import json
from urllib.parse import urlencode
from requests.exceptions import RequestException

import requests
def get_page_html(offset,keyword):
    data = {
        'offset':offset,
        'format':'json',
        'keyword':keyword,
        'autoload':'true',
        'count':'20',
        'cur_tab':1
    }
#   urlencode把字典對象自動轉化為url參數，
#   快速導入，請選中以後，按alt+enter
    url = 'https://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('請求索引頁失敗')
        return None

def parse_page_index(html):
#因為html列印出來是json字元串格式，json.loads作用是將已編碼的 JSON 字元串解碼為 Python 對象
# json.dumps作用是將 Python 對象編碼成 JSON 字元串
#參考http://www.runoob.com/python/python-json.html
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

def main():
    html = get_page_html(0,'中超')
#列印抓取的文章詳細內容的url
    for url in parse_page_index(html):
        print(url)
#列印獲取頁面內容
    print(html)

if __name__ == '__main__':
    main()

後面的內容因為爬蟲被封，很多信息獲取不到，暫時不會，以後再補全這節內容

學習總結：

　　想爬取商業的門戶網站，感覺一臉懵逼

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Vue中載入百度地圖

藉助百度地圖的 LocalSearch 和 Autocomplete 兩個方法實現方式：通過promise以及百度地圖的callback回調函數 map.js 1 export function MP(ak) { 2 return new Promise(function (resolve, re ...
Spring整合Quartz分散式調度

為了保證應用的高可用和高併發性，一般都會部署多個節點；對於定時任務，如果每個節點都執行自己的定時任務，一方面耗費了系統資源，另一方面有些任務多次執行，可能引發應用邏輯問題，所以需要一個分散式的調度系統，來協調每個節點執行定時任務。 ...
Java設計模式（八）Proxy代理模式

一、場景描述代理在生活中並不少見，租房子需要找中介，打官司需要找律師，很多事情我們需要找專業人士代理我們做，另一方面，中介和律師也代理了房東、法律程式與我們打交道。當然，設計模式中的代理與廣義的代理還是有所差別的；A對象調用B對象提供的服務X時，使用代理模式的前提是B對象實現了IB介面，通過介面 ...
系統架構設計之工具簡介

前不久需要開闢一個防火牆，所以要畫一個系統圖，其中有個箭頭連線需要設置一下，其它都還簡單算是（托拉拽）。用的是微軟的office-Visio工具: 點home的connector,前提已經選好一條畫好的連接線，然後選擇line下的Arrows的箭頭樣式。 ...
java web Struts2進行表示層開發

Struts1，一個中心控制器，XML定製轉向URL，Action處理邏輯。 Struts2，工作流程，用攔截器攔截用戶請求，把用戶的業務邏輯控制器和Servlet分離，生成控制器代理回調業務控制器的execute方法處理用戶請求，再通過處理用戶請求後的返回值進行用戶視圖呈現。（拋棄struts1 ...
JSONCPP to Visual Studio

I am having some trouble getting the JSONCPP Library into Visual Studio. I have downloaded the library I am just unsure how to import it into my proje ...
Java併發編程：synchronized和鎖優化

1. 使用方法 synchronized 是 java 中最常用的保證線程安全的方式，synchronized 的作用主要有三方面：語義上來講，synchronized主要有三種用法： 2. 實現原理 2.1. 監視器鎖 synchronized 同步代碼塊的語義底層是基於對象內部的監視器鎖（mo ...
用qrcode庫創建一個包含信息的二維碼

安裝qrcode庫和PIL庫 ========== 在命令行中分別輸入pip install qrcode 和pip install pillow 導入庫格式如下：下麵以生成一個帶圖標的二維碼為例運行效果如下上面這個例子是我之前看別人的，但是卻運行不了，之後自己修改過後的程式，如有侵犯立刻刪除 ...