python3爬蟲-快速入門-爬取圖片和標題

来源:https://www.cnblogs.com/wpbing/archive/2018/07/15/9315167.html
-Advertisement-
Play Games

直接上代碼,先來個爬取豆瓣圖片的,大致思路就是發送請求-得到響應數據-儲存數據,原理的話可以先看看這個 https://www.cnblogs.com/sss4/p/7809821.html 再來個爬去標題類的 這個是下載小說的 (別人的代碼) ...


直接上代碼,先來個爬取豆瓣圖片的,大致思路就是發送請求-得到響應數據-儲存數據,原理的話可以先看看這個

https://www.cnblogs.com/sss4/p/7809821.html

import os#同來創造文件夾
import requests#發送請求和得到響應用的
from bs4 import BeautifulSoup#用來解析回應的數據

def GetHtmlText(url):#得到響應數據
    try:
        r = requests.get(url)#發送url
        r.raise_for_status()#判斷是否成功
        r.encoding = 'utf-8'#設置編碼格式
        return r.text#返回他的響應數據
    except:
        return ''
def main(pages):
    filepath=os.getcwd()+'\爬的圖片\\'#創造一個文件夾
    if not os.path.exists(filepath):#如果沒有則創造
        os.makedirs(filepath)

    pagenum=pages#要爬取的頁數
    fnum=1
    for page in range(pages):
        url="https://movie.douban.com/celebrity/1048000/photos/?type=C&start="+str(page*30)+'&sortby=like&size=a&subtype=a'#第幾頁
        html=GetHtmlText(url)
        soup=BeautifulSoup(html,'html.parser')#html。parser是解析器
        uls=soup.find_all('ul',class_="poster-col3 clearfix")#從響應的數據中找到ul class是xxxx的數據
        for ul in uls:
            imgs=ul.find_all('img') #找到img的標簽
            for img in imgs:
                imgurl=img['src']#得到img的url
                imgcontent=requests.get(imgurl).content#得到這個url下的內容content,應該是二進位的
                filename=str(fnum)+'.jpg'
                with open(filepath+filename,'wb') as wf:#二進位形式寫入數據
                    wf.write(imgcontent)
                fnum+=1


if __name__ == '__main__':
    main(9)

再來個爬去標題類的

import requests
from bs4 import BeautifulSoup

url="http://www.jianshu.com"
headers={'User-Agent':'SE 2.X MetaSr 1.0'}#設置請求頭的User-Agent,理解的話可以認為是從哪個瀏覽器發出的,不然的話會被反爬蟲
page=requests.get(url=url,headers=headers)
page_info=page.text
page_bf=BeautifulSoup(page_info,'html.parser')

#print(page_bf.prettify())
titles=page_bf.find_all('a','title')

for title in titles:
    print(title.string)
    print('http://www.jianshu.com'+title.get('href'))
with open(r"D:\untitled\爬蟲爬到的標題.txt","w",encoding='utf-8') as file:
    for title in titles:
        file.write(title.string+'\n')
        file.write("http://www.jianshu.com"+title.get('href')+'\n\n')

這個是下載小說的---(別人的代碼)

from bs4 import BeautifulSoup
import requests,sys
class downloader(object):
    def __init__(self):
        self.server="http://www.biqukan.com/"
        self.target="http://www.biqukan.com/1_1094"
        self.name=[]
        self.urls=[]
        self.nums=0

    def get_download_url(self):
        req=requests.get(url=self.target)
        html=req.text
        div_bf=BeautifulSoup(html)
        div=div_bf.find_all('div',class_='listmain')
        a_bf=BeautifulSoup(str(div[0]))
        a=a_bf.find_all('a')
        self.nums=len(a[15:])
        for each in a[15:]:
            self.name.append(each.string)
            self.urls.append(self.server+each.get('href'))
    def get_contents(self ,target):
        req=requests.get(url=target)
        html=req.text
        bf=BeautifulSoup(html)
        texts=bf.find_all('div',class_='showtxt')
        texts=texts[0].text.replace('\xa0'*8,'\n\n')
        return texts
    def writer(self,name,path,text):
        write_flag=True
        with open(path,"a",encoding='utf-8') as f:
            f.write(name+'\n')
            f.writelines(text)
            f.write('\n\n')

dl=downloader()
dl.get_download_url()
print("開始下載")
for i in range(dl.nums):
    dl.writer(dl.name[i], '一念永恆.txt', dl.get_contents(dl.urls[i]))
    sys.stdout.write("  已下載:%.3f%%" %  float(i/dl.nums) + '\r')
    sys.stdout.flush()
print('《一年永恆》下載完成')

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 介面是一個或多個方法簽名名的集合,定義方式如下 `type Interface_Name interface { method_a() string method_b() int .... } ` 只要某個類型擁有該介面的所有方法簽名,就算實現該介面,無需顯示聲明實現了那個介面,這稱為structu ...
  • 一、簡介 JDK1.5之前都是通過synchronized關鍵字實現併發同步,而JDK1.5以後Doug Lea大師開發了current包下的類,通過JAVA代碼實現了synchronized關鍵的語義。然而在current包下的這些類的實現大部分都不離不開一個基礎組件 AQS(AbstractQu ...
  • html的每一個標簽都共有的屬性有'id','class','style' ...
  • 一、Hbernate中的日誌框架_整合log4j(瞭解) Hibernate 利用 Simple Logging Facade for Java (SLF4J)來記錄不同系統事件的日誌。SLF4J 可以根據你選擇的綁定把日誌輸出到幾個日誌框架(NOP、Simple、log4j version1.2、 ...
  • 問題描述: 在activemq的監聽器中,通過註解@Autowired或@Resource註入bean時,獲取到的bean為null。調用該bean的方法時會報空指針異常。 問題原因: 當調用bean內方法時,spring容器中還沒有完成對註解bean的掃描,dispatcher.xml中配置的註解 ...
  • 實現對DataFrame對象隨機採樣 pandas是基於numpy建立起來的,所以numpy大部分函數可作用於DataFrame和Series數據結構。 numpy.random.permutation(n)函數可以產生0~n範圍內的n個隨機數,輸出形式為numpy數組。 In: Out: 新建一個 ...
  • 1、java中的scanner: scanner 是java中用來進行人機交互的函數; 使用前需要導入:java.util.Scanner包 import java.util.Scanner; 在使用時有以下語法: Scanner sc=new Scanner(System.in);//建立一個鍵盤 ...
  • 想了很久,我決定還是先從signal和slot(信號槽)開始講起。 signal和slot大家一定不陌生,先看一段示例(選自文檔): 使用signal和slot的類必須包含Q_OBJECT巨集,聲明slot需要使用public/private/protected slots:,signal則需要sig ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...