Python採集網站VIP文檔,實現圖片文字識別,並保存word格式!

来源:https://www.cnblogs.com/hahaa/archive/2023/07/11/17545294.html
-Advertisement-
Play Games

哈嘍兄弟們 我們平常需要下載文檔的時候,是不是發現,要麼不能下載,要麼不能複製,就能難受。 常見的文檔網站很多,但是這裡就不一一說名字了,emmm 那麼我們今天來分享一下,如何用Python將這些不給下載的文檔給批量下載下來。 你需要準備 開發環境 python 3.8 pycharm 模塊使用 兩 ...



哈嘍兄弟們

我們平常需要下載文檔的時候,是不是發現,要麼不能下載,要麼不能複製,就能難受。

常見的文檔網站很多,但是這裡就不一一說名字了,emmm

那麼我們今天來分享一下,如何用Python將這些不給下載的文檔給批量下載下來。

你需要準備

開發環境

python 3.8
pycharm

 

模塊使用

兩個需要安裝的第三方模塊,安裝命令也寫出來了。

requests --> pip install requests
re
base64
docx --> pip install python-docx

 

本文實現思路

一、數據來源分析

  1. 明確需求
    明確採集網址以及數據內容是什麼?
    網址: https://www.docin.com/p-3282300896.html
    數據: 文檔內容
  2. 抓包分析, 我們需要數據內容是可以請求那個鏈接能夠得到
    文檔形式: 圖片樣式
    通過瀏覽器自帶工具: 開發者工具抓包
    打開開發者工具: F12 / 右鍵點擊檢查選擇network
    刷新網頁
    開發者工具搜索: docinpic
    文檔圖片數據
    鏈接: http://221.122.117.73/docinpic.jsp
    sid: P1ekRarOT5ID*deCCfQPHapgA9Z5X3NNn0xfBxPIDApUnSY9yIVtfuxey1BsO1BG <獲取>
    file: 文檔ID <可以自己獲取>
    width: 圖片解析度
    pageno: 頁碼 <可以用for迴圈>

二、代碼實現步驟

  1. 發送請求, 模擬瀏覽器對於 文檔頁面url地址 發送請求
    請求鏈接: https://www.docin.com/p-3282300896.html
  2. 獲取數據, 獲取伺服器返迴響應數據
  3. 解析數據, 提取我們需要的內容:
    sid參數 / 文檔頁數 / 文檔名稱
    構建文檔圖片鏈接
  4. 保存數據, 把文檔圖片內容保存下來

通過文字識別, 把圖片裡面文字識別出來, 保存文檔裡面就可以了

會使用百度雲API介面:
1. 註冊登陸百度雲API
2. 選擇文字識別, 創建應用, 領取免費資源, 點擊技術文檔
3. 先獲取token值
4. API調用的文檔代碼

代碼展示

文字識別

doc = Document()
 
 
def Content(content):
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    access_token = response.json()['access_token']

    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
    # 二進位方式打開圖片文件
    # 完整源碼和視頻講解都打包好
    # 放在這個Q裙了:708525271 
    # f = open('img\\1 電腦概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

 

發送請求

# 模擬瀏覽器 --> 字典數據類型 --> 鍵:值
headers = {
    # User-Agent 用戶代理 表示瀏覽器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 請求鏈接
url = 'https://www.docin.com/p-3282300896.html'
# 發送請求
response = requests.get(url=url, headers=headers)

 

獲取數據、解析數據

# 獲取網頁數據
html_data = response.text
# 提取sid參數
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取頁碼
num = re.findall('<em>(\d+)</em>頁</span>', html_data)[0]
# 構建完整圖片鏈接
content_list = []
for page in range(1, int(num)+1):
    # 字元串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'

 

保存數據, 把文檔圖片內容保存下來

# 發送請求, 獲取二進位數據<圖片內容>
img_content = requests.get(url=img, headers=headers).content
words = Content(img_content)
doc.add_paragraph(words)

 

完整代碼+視頻步驟詳解全部都打包好了,文末名片自己拿哦!

好了,今天的分享就到這結束了,下次見!


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 與java類似,python作為一種面向對象的編程語言,也可以創建自定義的對象和類。 它的特性主要有:繼承,封裝,多態,方法,屬性,超類 # 1.變數的作用域 ```python c = 50 #全局變數, 作用域為整個模塊,若被引用,可作用域整個包 def plus(x,y): c = x + y ...
  • [toc] # 一、爬取目標 您好,我是[@馬哥python說](https://www.zhihu.com/people/13273183132),一名10年程式猿。 本次爬取的目標是:[百度熱搜榜](https://top.baidu.com/board?tab=realtime) ![百度熱搜 ...
  • 一. 介紹 值傳遞:值傳遞(Pass-by-Value)當我們向方法傳遞參數時,實際上是將該參數的值進行拷貝,並將拷貝後的值傳遞給方法內部。在方法內部對參數進行修改不會影響原始變數的值。 引用傳遞:引用傳遞(Pass by reference)是指方法調用時實參(即傳入方法的參數)是一個對象的引用, ...
  • # 2022藍橋杯b組 ## A題 ![img](https://img-blog.csdnimg.cn/4ac63a09fe784d7a94b710fc0cc48d09.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50, ...
  • 紅包分配問題 給你一個整數表示紅包的總額,和另一個整數表示紅包的個數 表示我們要把總金額,隨機分成N個紅包。 要求1:每個紅包的金額都是隨機的 要求2:每個人至少1分錢 示例代碼: 1 public class Test2 { 2 public static void main(String[] a ...
  • 瞭解驅動Docker的核心技術將讓您更深入地瞭解Docker的工作原理,並有助於您更有效地使用該平臺。 ### **Linux容器(LXC)** Linux容器(LXC)是Docker的基礎。 LXC是一種輕量級的虛擬化解決方案,允許多個隔離的Linux系統在單個主機上運行,無需全功能的虛擬化。 L ...
  • ### 歡迎訪問我的GitHub > 這裡分類和彙總了欣宸的全部原創(含配套源碼):[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概覽 - 經歷了前面兩篇的入門和編譯源碼之後,從本 ...
  • # 一、使用JDBC批量添加 ## ​ 知識點複習: ​1、JDBC的六大步驟 (導入jar包, 載入驅動類,獲取連接對象, 獲取sql執行器、執行sql與並返回結果, 關閉資料庫連接) 2、​封裝了一個DBUtil 類, 通過讀取屬性文件的方式獲取 基礎連接信息。 3、​批量添加: 一次性可執行多 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...