Python 提取PDF文本和圖片_ZenDei技術網路在線

Python 提取PDF文本和圖片

-Advertisement-

從PDF中提取內容能幫助我們獲取文件中的信息，以便進行進一步的分析和處理。此外，在遇到類似項目時，提取出來的文本或圖片也能再次利用。要在Python中通過代碼提取PDF文件中的文本和圖片，可以使用 Spire.PDF for Python 這個第三方庫。具體操作方法查閱下文。 Python 提取PD ...

從PDF中提取內容能幫助我們獲取文件中的信息，以便進行進一步的分析和處理。此外，在遇到類似項目時，提取出來的文本或圖片也能再次利用。要在Python中通過代碼提取PDF文件中的文本和圖片，可以使用 Spire.PDF for Python 這個第三方庫。具體操作方法查閱下文。

Python 提取PDF文本
Python 提取PDF頁面中指定矩形區域的文本
Python 提取PDF圖片

安裝 Spire.PDF for Python

本文中用到的Python PDF庫支持在各種 Python 程式中創建、讀取、編輯、轉換和保存 PDF 文檔。要安裝此產品，可使用以下 pip 命令。

pip install Spire.PDF

要瞭解詳細安裝教程，參考：如何在 VS Code 中安裝 Spire.PDF for Python

使用 Python 提取PDF文本

Spire.PDF for Python 提供的 PdfPageBase.ExtractText() 方法能提取一個 PDF 頁面中文本。根據你的具體需求，你可以選擇僅提取某頁中的文本，或者遍歷所有頁面以提取整個PDF文件中的文本。完整Python代碼如下：

from spire.pdf import *
from spire.pdf.common import *

# 創建PdfDocument類的實例
pdf = PdfDocument()

# 載入PDF文檔
pdf.LoadFromFile("大數據.pdf")

# 創建一個TXT文件來保存提取的文本
extractedText = open("Output/提取文本.txt", "w", encoding="utf-8")

# 遍歷文檔的每一頁
for i in range(pdf.Pages.Count):
    # 獲取頁面
    page = pdf.Pages.get_Item(i)
    # 從頁面提取文本
    text = page.ExtractText()
    # 將文本寫入TXT文件
    extractedText.write(text + "\n")

extractedText.close()
pdf.Close()

使用 Python 提取PDF頁面中指定矩形區域的文本

如果你只需要提取某個PDF頁面中指定區域的文本，你可以指定一個矩形範圍然後使用 PdfPageBase.ExtractText(RectangleF rectangleF) 方法提取其中的文本內容。完整Python代碼如下：

from spire.pdf import *
from spire.pdf.common import *

# 創建PdfDocument類的對象
pdf = PdfDocument()

# 載入PDF文檔
pdf.LoadFromFile("大數據.pdf")

# 獲取第一頁
page = pdf.Pages.get_Item(0)

# 從頁面的指定矩形區域提取文本
text = page.ExtractText(RectangleF(0.0, 400.0, 770.0, 180.0))

# 將提取的文本保存到TXT文件中
extractedText = open("Output/PDF文本.txt", "w", encoding="utf-8")
extractedText.write(text)
extractedText.close()
pdf.Close()

使用 Python 提取PDF圖片

除了提取文本外，Spire.PDF for Python 還提供了 PdfPageBase.ExtractImages() 方法來提取PDF文件中的圖片。要提取一個PDF文件中的所有圖片並保存到指定路徑，參考以下Python代碼。

from spire.pdf import *
from spire.pdf.common import *

# 創建PdfDocument類的實例
pdf = PdfDocument()

# 載入PDF文檔
pdf.LoadFromFile("大數據.pdf")

# 創建一個列表來存儲圖篇
images = []

# 遍歷文檔的每一頁
for i in range(pdf.Pages.Count):
    # 獲取頁面
    page = pdf.Pages.get_Item(i)
    # 從頁面提取圖片並存儲在創建的列表中
    for img in page.ExtractImages():
        images.append(img)

# 保存圖像
i = 0
for image in images:
    i += 1
    image.Save("Output/圖片/圖片-{0:d}.png".format(i), ImageFormat.get_Png())

pdf.Close()

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

交易履約之結算平臺實踐

本文從系統建設的背景、設計細節、已支撐案例及適用業務場景多個層面進行詳細闡述。讀者可以關註文中所講的系統實踐過程，進而對結算領域系統設計能力提升，具有一定的參考價值。 ...
你真的瞭解TDD和BDD嗎

今天我們來談一談TDD 和 BDD 兩項實踐。我們先來說說 TDD，也就是測試驅動開發（Test Drvien Development）。 TDD 的節奏或許你已經迫不及待地要舉手了：“TDD 我知道，就是先寫測試，後寫代碼。”但真的是這樣嗎？嚴格地說，“先寫測試、後寫代碼”的做法叫測試先行開發（ ...
C靜態庫的創建與使用--為什麼要引入靜態庫？

C源程式需要經過預處理、編譯、彙編幾個階段，得到各自源文件對應的可重定位目標文件，可重定位目標文件就是各個源文件的二進位機器代碼，一般是.o格式。比如：util1.c、util2.c及main.c三個C源文件，經過預處理器、編譯器、彙編器的處理，就可以得到各自的目標文件util1.o，util2.o ...
身為底層碼農，你見過最無理需求是啥？

案例一 20萬的項目，已經花了六十萬了，客戶突然又新提要求做一套百度的搜索系統，我尿了，一頓冥思苦想，然後做了一個搜索頁面，把幾百張表的每個欄位都like一遍在搜索頁面輸入的查詢內容，一次搜索要半小時才出結果，再告訴客戶百度能秒出結果是因為他們有一套幾十億的超級電腦，咱只有一臺不到十個大不溜的服務 ...
組合，反射，魔術方法

組合，反射，魔術方法組合反射魔術方法組合什麼是組合? 組合就是，一個對象擁有一個屬性，該屬性的值是另外一個對象. """什麼場景下使用繼承? 什麼場景下使用組合?""" 繼承一般情況用在：什麼是什麼的情況 is 組合一般用在：什麼有什麼的情況 has class Foo: def __in ...
fasthttp + `page partial gziped cache`: 頁面輸出服務性能提升20%

作者:張富春(ahfuzhang)，轉載時請註明作者和引用鏈接，謝謝！ cnblogs博客 zhihu Github 公眾號:一本正經的瞎扯接上一篇：http 中使用 gzip 輸出內容時，如何預先壓縮前一半頁面？經過實測，對線上一個輸出 html 的服務進行了改造，通過預先壓縮頁面前半部分的方 ...
Java觀察者模式-SpringBoot實現觀察者模式

觀察者模式一、Java觀察者模式 Java觀察者模式是一種設計模式，用於實現對象之間的一對多依賴關係。在觀察者模式中，當一個對象的狀態發生變化時，它的所有依賴對象（觀察者）都會自動收到通知併進行相應的更新。觀察者模式由以下幾個核心組件組成：主題（Subject）：也稱為被觀察者或可觀察對象，它 ...
若依(ruoyi)開源系統保姆級實踐-完成第一個頁面

一、案例描述若依官網文檔地址：http://doc.ruoyi.vip/ruoyi/document/hjbs.html 本教程主要內容，自定義資料庫表，使用若依開源系統生成代碼並配置許可權。若依環境配置新建數據表t_user，利用若依代碼生成工具生成服務端及頁面代碼。菜單配置許可權配置二、 ...