使用Python 實現 PDF 到 HTML 的轉換

-Advertisement-

PDF 文件是共用和分發文檔的常用選擇，但提取和再利用 PDF 文件中的內容可能會非常麻煩。而利用 Python 將 PDF 文件轉換為 HTML 是解決此問題的理想方案之一，這樣做可以增強文檔可訪問性，使文檔可搜索，同時增強文檔在不同場景中的實用性。此外，HTML 格式使得搜索引擎能夠對內容進行索 ...

PDF 文件是共用和分發文檔的常用選擇，但提取和再利用 PDF 文件中的內容可能會非常麻煩。而利用 Python 將 PDF 文件轉換為 HTML 是解決此問題的理想方案之一，這樣做可以增強文檔可訪問性，使文檔可搜索，同時增強文檔在不同場景中的實用性。此外，HTML 格式使得搜索引擎能夠對內容進行索引，從而更有可能在網路上被髮現。藉助 Python 的靈活性和易用性，無論是初學者還是有經驗的開發人員都可以輕鬆高效地使用 Python 來將 PDF 轉換為 HTML。

本文重點介紹如何在 Python 程式中將 PDF 轉換為 HTML，主要包括以下內容：

使用Python 將 PDF 轉換為 HTML 方法概覽
使用 Python 代碼將 PDF 轉換為單個 HTML 文件
使用 Python 將 PDF 轉換為不嵌入圖像的 HTML
使用 Python 將 PDF 轉換為多個 HTML 文件

本文介紹的方法使用了 Spire.PDF for Python 工具，可以從官網下載，也可以通過 PyPI 進行安裝：

pip install Spire.PDF

Python PDF 轉 HTML 方法概覽

在 Spire.PDF for Python 中，PdfDocument 類表示一個 PDF 文檔。我們可以使用該類下的 LoadFromFile() 方法載入 PDF 文件，然後使用 SaveToFile() 方法將文檔保存為其他格式，如 HTML，從而輕鬆實現從 PDF 到 HTML 的轉換。

此外，該 API 還提供了 PdfDocument.ConvertOptions 屬性下的 SetConvertHtmlOptions() 方法，用於在轉換過程中設置轉換選項。以下是可以傳遞給該方法的參數，用於設置最大頁數、SVG 嵌入選項、圖像嵌入選項和 SVG 質量選項：

useEmbeddedSvg(bool)：當設置為 True 時，允許在轉換後的 HTML 文件中嵌入 SVG。生成的 HTML 文件將包含 PDF 文檔中的所有元素，包括圖像，都在一個 HTML 文件中。
useEmbeddedImg(bool)：當設置為 True 時，允許在轉換後的 HTML 文件中嵌入圖像。此參數僅在 useEmbeddedSvg 設置為 False 時起作用。
maxPageOneFile(int)：設置單個 HTML 文件中包含的最大頁數。如果 PDF 的頁數超過指定的數字，將生成多個 HTML 文件，每個文件包含部分頁數。
useHighQualityEmbeddedSvg(bool)：當設置為 True 時，在 HTML 轉換過程中確保使用高質量的嵌入 SVG 圖像。

使用 Python 將 PDF 轉換為單個 HTML 文件

以下代碼示例展示瞭如何直接使用 Python 將 PDF 轉換為 HTML，不設置任何轉換選項。在這種情況下，我們只需要使用 LoadFromFile 方法載入 PDF 文件，並使用 SaveToFile 方法將其保存為 HTML 文件。轉換後的 HTML 文件將是一個包含嵌入圖像和其他元素的單個 HTML 文件。

from spire.pdf.common import *
from spire.pdf import *

# 創建一個PdfDocument類的對象
doc = PdfDocument()

# 載入一個PDF文檔
doc.LoadFromFile("示例.pdf")

# 將文檔轉換為HTML
doc.SaveToFile("output/HTML/PDF轉HTML.html", FileFormat.HTML)
doc.Close()

轉換效果：

使用 Python 將 PDF 轉換為不嵌入圖像的 HTML

通過將 useEmbeddedSvg 參數設置為 False，我們可以將 PDF 文檔轉換為不嵌入圖像等信息的單 HTML 文件，文檔中的圖像和 CSS 文件與 HTML 分離並存儲在一個文件夾中。這樣可以方便對轉換後的 HTML 文件進行進一步編輯，以及對圖像進行其他操作。

from spire.pdf.common import *
from spire.pdf import *

# 創建一個PdfDocument類的對象
doc = PdfDocument()

# 載入一個PDF文檔
doc.LoadFromFile("示例.pdf")

# 禁用SVG嵌入
doc.ConvertOptions.SetPdfToHtmlOptions(False)

# 將文檔轉換為HTML
doc.SaveToFile("output/HTML/PDF轉不嵌入SVG的HTML.html", FileFormat.HTML)
doc.Close()

轉換結果：

使用 Python 將 PDF 轉換為多個 HTML 文件

在 useEmbeddedSvg 設置為 False 的前提下，SetPdfToHtmlOptions 方法允許使用 maxPageOneFile(int) 參數確定每個轉換後的 HTML 文件中包含的最大頁數。此功能可實現將 PDF 文檔在轉換過程中拆分成多個文件。例如，將該參數設置為 1 將使每個頁面被轉換為一個單獨的 HTML 文件。

from spire.pdf.common import *
from spire.pdf import *

# 創建一個PdfDocument類的對象
doc = PdfDocument()

# 載入一個PDF文檔
doc.LoadFromFile("示例.pdf")

# 禁用SVG嵌入
doc.ConvertOptions.SetPdfToHtmlOptions(False, False, 1, False)

# 將文檔轉換為HTML
doc.SaveToFile("output/HTML/PDF轉多個HTML.html", FileFormat.HTML)
doc.Close()

轉換結果：

總結

本文演示瞭如何使用 Python 將 PDF 轉換為 HTML，並提供了多種轉換選項，例如轉換為單個 HTML 文件、將 HTML 文件與圖像分離以及在轉換過程中拆分 PDF 文檔。藉助 Spire.PDF for Python，用戶可以使用簡單高效的方法進行 Python 中的 PDF 到 HTML 轉換，並支持靈活的自定義選項。

如果在使用該 API 進行 PDF 到 HTML 轉換時遇到任何問題，用戶可以在 Spire 產品論壇上尋求技術支持。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Spring學習總結 + 【手寫Spring底層機制核心】

Spring學習總結 Spring基本介紹 Spring 學習的核心內容 1.IOC: 控制反轉, 可以管理java 對象 2.AOP : 切麵編程 3.JDBCTemplate : 是spring 提供一套訪問資料庫的技術, 應用性強，相對好理解 4.聲明式事務: 基於ioc/aop 實現事務管理 ...
Java面向對象01——類與對象

大家好，我是白夜，今天和大家聊聊類與對象一、初識面向對象（瞭解） 1.1、面向過程和麵向對象面向過程編程 C 語言就是面向過程編程的，關註的是過程，分析出求解問題的步驟，通過函數調用逐步解決問題。面向對象編程 JAVA 是基於面向對象的，關註的是對象，將一件事情拆分成不同的對象，靠對象之間的交 ...
Java實現Fast DFS、伺服器、OSS上傳

引言眾所周知，數據流分析是實現污點分析的一種常用技術數據流分析分為過程內的數據流分析與過程間的數據流分析。前者是對一個方法體內的數據流分析，主要是基於CFG分析，不涉及方法調用；後者是基於不同方法間的數據流分析，主要是基於ICFG+CG分析，會涉及方法調用。一、過程內數據流分析 1. CFG的 ...
day13-階段總結

1.知識補充 1.1 nolocal關鍵字在之前的課程中，我們學過global關鍵字。 name = 'root' def outer(): name = "武沛齊" def inner(): global name name = 123 inner() print(name) # 武沛齊 out ...
springboot~mybatis統一處理公有欄位

對於實體中包含有公共欄位，像create_at,create_time,update_at,update_time來說，我們沒有必要在每個實體的crud操作中複製同樣的代碼，這樣代碼的味道很壞，我們應該使用mybatis的攔截器機制，將公共欄位統一處理；當然mybatis-puls在實現上更加優雅， ...
常見原型設計工具介紹-00-overvuew

拓展閱讀常見免費開源繪圖工具 OmniGraffle 創建精確、美觀圖形的工具 UML-架構圖入門介紹 starUML UML 繪製工具 starUML 入門介紹 PlantUML 是繪製 uml 的一個開源項目 UML 等常見圖繪製工具繪圖工具 draw.io / diagrams.net 免 ...
個人博客項目筆記_01

1. 工程搭建前端的工程運行流程：進入項目目錄執行cmd命令：若是第一次啟動需要依次輸入如下命令： npm install npm run build npm run dev 之後直接執行 npm run dev 即可！ 1.1 新建maven工程新建maven工程blog作為父工程，然後在 ...
keycloak~網站對接到Keycloak的步驟

新網站對接到KC的部署 kc的環境向kc申請自己的客戶端 kc的登錄介面通過code換token介面刷新token介面 kc的用戶信息介面 kc的jwt token說明 1. kc的環境測試環境：https://test-kc.xxx.com 預發佈環境：https://pre-kc.xxx ...