Python爬取貓眼電影排行_ZenDei技術網路在線

Python爬取貓眼電影排行

-Advertisement-

```Python import requests import pyquery def crawl_page(url: str) -> None: headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleW... ...

import requests
import pyquery


def crawl_page(url: str) -> None:
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) \
Chrome/72.0.3626.121 Safari/537.36',
    }
    response = requests.get(url, headers=headers)
    parse_page(response.text)


def parse_page(source_code: str) -> None:
    html = pyquery.PyQuery(source_code)
    dd_elements = html('.board-wrapper dd')
    for dd_element in dd_elements.items():
        data = {
            '排名': dd_element.find('i.board-index').text(),
            '電影名': dd_element.find('a.image-link').attr('title'),
            '主演': dd_element.find('p.star').text().split('：')[1],
            '上映時間': dd_element.find('p.releasetime').text().split('：')[1],
            '評分': dd_element.find('p.score').text(),
        }
        print(data)
        save_data(data)


def save_data(data: dict) -> None:
    data = str(data)
    with open('MaoYan.txt', 'a+', encoding='utf8') as f:
        f.write(data+'\n')
    return None


def main():
    for i in range(0, 100, 10):
        url = 'https://maoyan.com/board/4?offset={}'.format(i)
        crawl_page(url)


if __name__ == '__main__':
    main()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Spring的AOP快速上手

快速寫一個 Spring AOP 實現類 1. 定義業務類，使用 @Service 註解加入 Spring 容器。 2. 定義切麵類，使用 @Component 註解加入 Spring 容器，標註 @Aspect 表示此類為切麵類，並給方法標註通知類型。通知類型前置通知後置通知返回通知異常 ...
Java連載11-轉義字元&整數型

一、轉義符 1.\'代表單引號；\\代表\; 二、native2ascii.exe JDK中自帶的native2ascii.exe命令，可以將文字轉換成unicode編碼形式我們使用這個程式嘗試一下：之所以介紹這個程式是為了說明我們輸入的字元在電腦內部會轉換成這一字元串，同時我們使用Syste ...
[Pulsar系列] 10分鐘學會Pulsar消息系統概念

Apache Pulsar Pulsar是一個支持多租戶的、高性能的服務與服務之間消息通訊的解決方案，最初由雅虎開發，現在由Apache軟體基金會管理。 Pulsar的主要特性如下: Pulsar實例原生支持多集群，能無縫的基於地理位置進行跨集群備份非常低的消息發佈和端到端的延遲無縫擴展到超過百 ...
Java學習第十二天

1.集合：可以存儲不同類型的對象，隨著對象個數的增加，容量自動增加(頂層是一個介面) 2.為什麼有這麼多的集合？每種集合底層使用的數據結構是不一樣的，也就是說每種集合存儲數據的特點是不一樣的，項目中根據數據的特點來選擇不同的集合 3.實現存儲不同類型的對象？ Object[] arr =new ...
Java學習第十一天

1.類同名的問題： package(打包)：開頭package aa.bb.cc.dd.ee.ff(最多不超過6層); 作用：不同的.class包放在不同的文件夾下，解決類同名問題具體步驟：javac -d e:\ Person.java >指定包所在的路徑（打包時類需要定義為是public） ...
[Spring cloud 一步步實現廣告系統] 13. 索引服務編碼實現

"上一節" 我們分析了廣告索引的維護有2種，和`增量索引維護`。因為廣告檢索是廣告系統中最為重要的環節，大家一定要認真理解我們索引設計的思路，接下來我們來編碼實現索引維護功能。我們來定義一個介面，來接收所有index的增刪改查操作，介面定義一個範型，來接收2個參數，代表我們索引的健值，代表返 ...
50行代碼爬取微信公眾號所有文章

#今日目標 **50行代碼爬取微信公眾號所有文章** 今天要爬取的是微信公眾號，爬取公眾號的方式常見的有兩種。一是通過搜狗搜索去獲取，缺點是只能獲取最新的十條推送文章，今天介紹另一種通過抓包PC端微信的方式去獲取公眾號文章的方法，相對其他方法更加便捷。分析：我們發現每次下拉刷新文章的時候都會請求... ...
python 代碼塊

代碼塊 : 以冒號作為開始,用縮進來劃分作用域作用域 : 作用的範圍 if 5 == 6: print(111) print(222) 代碼塊註意點: """要麼全都是一個tab 縮進 , 要麼全都是4個空格 ,不能混合使用""" """ if 5 == 5: print(1) print(2) ...