Python採集網站VIP文檔，實現圖片文字識別，並保存word格式！

-Advertisement-

哈嘍兄弟們我們平常需要下載文檔的時候，是不是發現，要麼不能下載，要麼不能複製，就能難受。常見的文檔網站很多，但是這裡就不一一說名字了，emmm 那麼我們今天來分享一下，如何用Python將這些不給下載的文檔給批量下載下來。你需要準備開發環境 python 3.8 pycharm 模塊使用兩 ...

哈嘍兄弟們

我們平常需要下載文檔的時候，是不是發現，要麼不能下載，要麼不能複製，就能難受。

常見的文檔網站很多，但是這裡就不一一說名字了，emmm

那麼我們今天來分享一下，如何用Python將這些不給下載的文檔給批量下載下來。

你需要準備

開發環境

python 3.8
pycharm

模塊使用

兩個需要安裝的第三方模塊，安裝命令也寫出來了。

requests --> pip install requests
re
base64
docx --> pip install python-docx

本文實現思路

一、數據來源分析

明確需求
明確採集網址以及數據內容是什麼?
網址: https://www.docin.com/p-3282300896.html
數據: 文檔內容
抓包分析, 我們需要數據內容是可以請求那個鏈接能夠得到
文檔形式: 圖片樣式
通過瀏覽器自帶工具: 開發者工具抓包
打開開發者工具: F12 / 右鍵點擊檢查選擇network
刷新網頁
開發者工具搜索: docinpic
文檔圖片數據
鏈接: http://221.122.117.73/docinpic.jsp
sid: P1ekRarOT5ID*deCCfQPHapgA9Z5X3NNn0xfBxPIDApUnSY9yIVtfuxey1BsO1BG <獲取>
file: 文檔ID <可以自己獲取>
width: 圖片解析度
pageno: 頁碼 <可以用for迴圈>

二、代碼實現步驟

發送請求, 模擬瀏覽器對於文檔頁面url地址發送請求
請求鏈接: https://www.docin.com/p-3282300896.html
獲取數據, 獲取伺服器返迴響應數據
解析數據, 提取我們需要的內容:
sid參數 / 文檔頁數 / 文檔名稱
構建文檔圖片鏈接
保存數據, 把文檔圖片內容保存下來

通過文字識別, 把圖片裡面文字識別出來, 保存文檔裡面就可以了

會使用百度雲API介面:
1. 註冊登陸百度雲API
2. 選擇文字識別, 創建應用, 領取免費資源, 點擊技術文檔
3. 先獲取token值
4. API調用的文檔代碼

代碼展示

文字識別

doc = Document()
 
 
def Content(content):
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=xxxx&client_secret=xxxx"
    payload = ""
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    access_token = response.json()['access_token']

    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
    # 二進位方式打開圖片文件
    # 完整源碼和視頻講解都打包好
    # 放在這個Q裙了：708525271 
    # f = open('img\\1 電腦概述1.jpg', 'rb')
    img = base64.b64encode(content)
    params = {"image":img}
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    json_data = requests.post(request_url, data=params, headers=headers).json()
    words_result = '\n'.join([i['words'] for i in json_data['words_result']])
    print(words_result)

發送請求

# 模擬瀏覽器 --> 字典數據類型 --> 鍵:值
headers = {
    # User-Agent 用戶代理 表示瀏覽器基本身份信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
# 請求鏈接
url = 'https://www.docin.com/p-3282300896.html'
# 發送請求
response = requests.get(url=url, headers=headers)

獲取數據、解析數據

# 獲取網頁數據
html_data = response.text
# 提取sid參數
sid = re.findall('flash_param_hzq:"(.*?)",', html_data)[0]
# 提取名字
name = re.findall('productName:"(.*?)",', html_data)[0]
# 提取頁碼
num = re.findall('<em>(\d+)</em>頁</span>', html_data)[0]
# 構建完整圖片鏈接
content_list = []
for page in range(1, int(num)+1):
    # 字元串格式化方法
    img = f'http://221.122.117.73/docinpic.jsp?sid={sid}&file=3282300896&width=942&pageno={page}'

保存數據, 把文檔圖片內容保存下來

# 發送請求, 獲取二進位數據<圖片內容>
img_content = requests.get(url=img, headers=headers).content
words = Content(img_content)
doc.add_paragraph(words)

完整代碼+視頻步驟詳解全部都打包好了，文末名片自己拿哦！

好了，今天的分享就到這結束了，下次見！

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

python學習筆記：第七章面向對象

與java類似，python作為一種面向對象的編程語言，也可以創建自定義的對象和類。它的特性主要有：繼承，封裝，多態，方法，屬性，超類 # 1.變數的作用域 ```python c = 50 #全局變數，作用域為整個模塊，若被引用，可作用域整個包 def plus(x,y): c = x + y ...
【爬蟲案例】用Python爬取百度熱搜榜數據！

[toc] # 一、爬取目標您好，我是[@馬哥python說](https://www.zhihu.com/people/13273183132)，一名10年程式猿。本次爬取的目標是：[百度熱搜榜](https://top.baidu.com/board?tab=realtime) ![百度熱搜 ...
Java 中的值傳遞和引用傳遞 ?

一. 介紹值傳遞：值傳遞（Pass-by-Value）當我們向方法傳遞參數時，實際上是將該參數的值進行拷貝，並將拷貝後的值傳遞給方法內部。在方法內部對參數進行修改不會影響原始變數的值。引用傳遞：引用傳遞（Pass by reference）是指方法調用時實參（即傳入方法的參數）是一個對象的引用， ...
2022藍橋杯B組(java)版

# 2022藍橋杯b組 ## A題 ![img](https://img-blog.csdnimg.cn/4ac63a09fe784d7a94b710fc0cc48d09.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50, ...
紅包分配問題

紅包分配問題給你一個整數表示紅包的總額，和另一個整數表示紅包的個數表示我們要把總金額，隨機分成N個紅包。要求1：每個紅包的金額都是隨機的要求2：每個人至少1分錢示例代碼： 1 public class Test2 { 2 public static void main(String[] a ...
Docker學習路線2：底層技術

瞭解驅動Docker的核心技術將讓您更深入地瞭解Docker的工作原理，並有助於您更有效地使用該平臺。 ### **Linux容器（LXC）** Linux容器（LXC）是Docker的基礎。 LXC是一種輕量級的虛擬化解決方案，允許多個隔離的Linux系統在單個主機上運行，無需全功能的虛擬化。 L ...
Java擴展Nginx之三：基礎配置項

### 歡迎訪問我的GitHub > 這裡分類和彙總了欣宸的全部原創(含配套源碼)：[https://github.com/zq2599/blog_demos](https://github.com/zq2599/blog_demos) ### 本篇概覽 - 經歷了前面兩篇的入門和編譯源碼之後，從本 ...
JDBC的增刪改-結果集的元數據-Class反射-JDBC查詢封裝

# 一、使用JDBC批量添加 ## 知識點複習： 1、JDBC的六大步驟（導入jar包，載入驅動類，獲取連接對象，獲取sql執行器、執行sql與並返回結果，關閉資料庫連接） 2、封裝了一個DBUtil 類，通過讀取屬性文件的方式獲取基礎連接信息。 3、批量添加：一次性可執行多 ...