Python題目4：爬取電影_ZenDei技術網路在線

Python題目4：爬取電影

-Advertisement-

import re # 正則表達式，用於提取數據 import requests # 下載網頁源代碼 ''' 安裝requests模塊：pip install requests 參考文檔：https://www.cnblogs.com/jamespan23/p/5526311.html ''' fo... ...

import re # 正則表達式，用於提取數據
import requests  # 下載網頁源代碼
'''
安裝requests模塊：pip install requests
參考文檔：https://www.cnblogs.com/jamespan23/p/5526311.html
'''
for m in range(1,5):
    url = 'http://www.dytt8.net/html/gndy/dyzz/list_23_'+str(m)+'.html'
    html = requests.get(url) #  使用靜態網頁
    html.encoding = 'GB2312' # 指定編碼格式，通過查看網頁源代碼得知
    data = re.findall('<a href="(.*?)" class="ulink">',html.text)
    # 提取信息，返回列表
    # (.*?)匹配以'<a href='開頭，以'class="ulink"'結尾的任何信息

    for n in data:
        url2 = 'http://www.dytt8.net' + n
        html2 = requests.get(url2)
        html2.encoding = 'GB2312'
        ftp = re.findall('<a href="(.*?)">.*?</a></td>',html2.text)
        try:
            with open(r'F:\python\mov.txt','a',encoding='UTF-8') as f:
            # utf-8有可能相容，不相容的話使用gb2312
                f.write(ftp[0]+'\n') # ftp提取的都是列表，列表不能寫入文件，所以要加[0]
        except:
            print('這一頁不能下載')

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Struts2筆記--Action訪問Servlet API

Web應用中通常需要訪問的Servlet API就是HttpServletRequest、HttpSession和ServletContext,這三個介面分別代表JSP內置對象中的request、session和application。 1.使用Struts2提供的ActionContext類來訪問 ...
Java DBCP連接池設置以及說明

Java DBCP連接池設置以及說明 ...
Markdown 語法快速入門

Markdown 語法快速入門 [TOC]（博客園Markdown引擎暫不支持）標題第一級標題第二級標題第六級標題強調斜體字： _斜體字_：加粗： __斜體字__：列表無序列表：有序列表：任務列表： [ ]未完成任務 [x] 已完成任務插入鏈接及圖片插入鏈接： Eg. ...
QT5 網路通訊

QT5 TCP網路通訊伺服器與客戶端建立連接listen() - connectToHost(); 觸發newPendingConnect信號實時數據通訊write(); read(); 觸發readyRead信號通訊主要使用的類: QTcpServer Class QTcpServer類提供 ...
藍橋杯之2n皇後

問題：給定一個n*n的棋盤，棋盤中有一些位置不能放皇後。現在要向棋盤中放入n個黑皇後和n個白皇後，使任意的兩個黑皇後都不在同一行、同一列或同一條對角線上，任意的兩個白皇後都不在同一行、同一列或同一條對角線上。問總共有多少種放法？n小於等於8。輸入格式輸入的第一行為一個整數n，表示棋盤的大小。 ...
Javaconfig形式配置Dubbo多註冊中心

多註冊中心,一般用不到,但是某些情況下的確能解決不少問題,可以將某些dubbo服務註冊到2套dubbo系統中,實現服務在2套系統間的共用. 網上的配置說明很多,但包括dubbo官方說明文檔都是以xml文件配置方式舉例. 如想採用javaconfig的配置方式,則只需要對provider中的配置做適當 ...
session淺析

session淺析 1.對於會話技術的理解 web會話技術包含Session和Cookie，會話技術是瀏覽器端與伺服器端的交互技術，拿cookie技術來說，客戶端在請求伺服器端的時候，如果有業務需要，伺服器會設置響應頭的key值與value值，在響應的時候帶給瀏覽器端，然後瀏覽器端在符合path條件 ...
java 登錄Cookie的使用

靜態頁面分為兩種，一種為jsp，另一種為html。先看jsp的在登陸的form表單中添加添加type為checkbox的input標簽為該checkbox增加點擊事件在後臺登錄方法中根據remember的值判斷是否設置Cookie 在頁面載入完後，獲取Cookie，並存入pageContex ...