python爬蟲,requests使用,網頁採集案列:搜狗爬取人物信息

来源:https://www.cnblogs.com/shuxi/archive/2023/03/12/17208509.html
-Advertisement-
Play Games

一、初識爬蟲,requests使用 requests介紹: Request支持HTTP連接保持和連接池,支持使用cookie保持會話,支持文件上傳,支持自動響應內容的編碼,支持國際化的URL和POST數據自動編碼。requests會自動實現持久連接keep-alive # 導入模塊 import r ...


一、初識爬蟲,requests使用

requests介紹:

Request支持HTTP連接保持和連接池,支持使用cookie保持會話,支持文件上傳,支持自動響應內容的編碼,支持國際化的URL和POST數據自動編碼。requests會自動實現持久連接keep-alive

# 導入模塊
import requests
# 目標URL
url = 'https://www.sogou.com/'
response = requests.get(url=url)  # 發起請求,並接受
# 接受的頁面進行解析
page_text = response.text
# 列印出來
print(page_text)
# 保存到本地
with open('sogou.html', 'w', encoding='utf-8') as fp:
    fp.write(page_text)
print("結束")

二、網頁採集案列:搜狗爬取人物信息

# 導入模塊,輸入url
import requests
url = 'https://www.sogou.com/web?'

# 模擬瀏覽器UA,防止被髮現是個爬蟲
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36)'
}

# 輸入提示框(要搜索的東西)
name = input("輸入一個人名:")

# 構造payload,模擬真實數據包
param = {
    'type': 'getpinyin',
    'query': name
}

# 發起請求並接受請求到的內容
response = requests.get(url, params=param, headers=headers)

# 文本方式讀取
page_txt = response.text

# 保存網頁
filename = name + '.html'
with open(filename, 'w', encoding='utf-8') as fp:
    fp.write(page_txt)
    print("succeed")


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 說明 使用 QCustomPlot 繪圖庫輔助開發時整理的學習筆記。本篇總結 QCustomPlot 在各版本中的更新要點,詳細更新日誌可查看 QCustomPlot 更新日誌 以及各版本的 changelog 文件(部分版本沒有可以線上查看的 changelog 記錄,需要到 下載界面 下載對應的 ...
  • 依賴管理和自動配置 1.依賴管理 1.1什麼是依賴管理 spring-boot-starter-parent 中還有父項目,聲明瞭開發中常用的依賴的版本號 並且進行自動版本仲裁,即如果程式員沒有指定某個依賴jar的版本,則以父版本指定的版本為準 1.2修改自動仲裁/預設版本號 比如我們要將Sprin ...
  • # Create test matrix(造數據) set.seed(6) test = matrix(rnorm(200), 20, 10) test[1:10, seq(1, 10, 2)] = test[1:10, seq(1, 10, 2)] + 3 test[11:20, seq(2, 1 ...
  • 一、算術運算符 運算符描述 + 相加 - 相減 * 相乘 / 相除 % 求餘 代碼示例: 1 package main 2 ​ 3 import "fmt" 4 ​ 5 func main() { 6 // 算術運算符 7 a := 5 8 b := 2 9 ​ 10 fmt.Printf("a+b ...
  • SpringBoot基本介紹 1.SpringBoot是什麼? 官網地址:https://spring.io/projects/spring-boot 學習文檔:https://docs.spring.io/spring-boot/docs/2.7.10-SNAPSHOT/reference 線上A ...
  • @ 前言 🍊緣由 介面文檔對接爽,整理起來真費腦 對於整理API文檔,本狗秉承偷懶為上的原則,想找一種在IDEA中直接生成文檔的方法。Apifox Helper絕絕子,只需要在IDEA中下載插件,無腦配置後,文檔自動生成到Apifox,美完美解決。並且顏值及方便程度絕比Swagger和postma ...
  • 說明 使用 QCustomPlot 繪圖庫輔助開發時整理的學習筆記。 1. 庫簡介 QCustomPlot 是一個用於科學繪圖的 QT 第三方庫,可以用於常見的二維圖像繪製,比如函數曲線、參數方程曲線、熱力圖、柱狀圖、箱線圖、極坐標繪圖等。該庫由德國人 Emanuel Eichhammer 開發,經 ...
  • 今天看到個有趣的網站,給大家分享一下。 該網站的功能很神奇,可以實現編程語言的轉化。感覺在一些場景之下還是有點作用的,比如你原來跟我一樣是做Java的,因為工作需要突然轉Go。這個時候用你Java的經驗 + 這個工具,或許可以起到一定的幫助作用。 工具的使用也很簡單,只需要在左側黏貼你想轉換的原始代 ...
一周排行
    -Advertisement-
    Play Games
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...
  • 目錄前言PostgreSql安裝測試額外Nuget安裝Person.cs模擬運行Navicate連postgresql解決方案Garnet為什麼要選擇Garnet而不是RedisRedis不再開源Windows版的Redis是由微軟維護的Windows Redis版本老舊,後續可能不再更新Garne ...
  • C#TMS系統代碼-聯表報表學習 領導被裁了之後很快就有人上任了,幾乎是無縫銜接,很難讓我不想到這早就決定好了。我的職責沒有任何變化。感受下來這個系統封裝程度很高,我只要會調用方法就行。這個系統交付之後不會有太多問題,更多應該是做小需求,有大的開發任務應該也是第二期的事,嗯?怎麼感覺我變成運維了?而 ...
  • 我在隨筆《EAV模型(實體-屬性-值)的設計和低代碼的處理方案(1)》中介紹了一些基本的EAV模型設計知識和基於Winform場景下低代碼(或者說無代碼)的一些實現思路,在本篇隨筆中,我們來分析一下這種針對通用業務,且只需定義就能構建業務模塊存儲和界面的解決方案,其中的數據查詢處理的操作。 ...
  • 對某個遠程伺服器啟用和設置NTP服務(Windows系統) 打開註冊表 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\W32Time\TimeProviders\NtpServer 將 Enabled 的值設置為 1,這將啟用NTP伺服器功 ...
  • title: Django信號與擴展:深入理解與實踐 date: 2024/5/15 22:40:52 updated: 2024/5/15 22:40:52 categories: 後端開發 tags: Django 信號 松耦合 觀察者 擴展 安全 性能 第一部分:Django信號基礎 Djan ...
  • 使用xadmin2遇到的問題&解決 環境配置: 使用的模塊版本: 關聯的包 Django 3.2.15 mysqlclient 2.2.4 xadmin 2.0.1 django-crispy-forms >= 1.6.0 django-import-export >= 0.5.1 django-r ...
  • 今天我打算整點兒不一樣的內容,通過之前學習的TransformerMap和LazyMap鏈,想搞點不一樣的,所以我關註了另外一條鏈DefaultedMap鏈,主要調用鏈為: 調用鏈詳細描述: ObjectInputStream.readObject() DefaultedMap.readObject ...
  • 後端應用級開發者該如何擁抱 AI GC?就是在這樣的一個大的浪潮下,我們的傳統的應用級開發者。我們該如何選擇職業或者是如何去快速轉型,跟上這樣的一個行業的一個浪潮? 0 AI金字塔模型 越往上它的整個難度就是職業機會也好,或者說是整個的這個運作也好,它的難度會越大,然後越往下機會就會越多,所以這是一 ...
  • @Autowired是Spring框架提供的註解,@Resource是Java EE 5規範提供的註解。 @Autowired預設按照類型自動裝配,而@Resource預設按照名稱自動裝配。 @Autowired支持@Qualifier註解來指定裝配哪一個具有相同類型的bean,而@Resourc... ...