實戰案例：Python輕鬆實現PDF格式轉換(附詳細源碼)

-Advertisement-

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。項目背景網上PDF轉換工具眼花繚亂，選擇困難症，有些甚至還收費；直接以其他格式打開PDF效果一般較差；有些小可愛通過複製粘貼的方式進行操作，浪費了大量的時間。那麼，有 ...

前言

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯繫我們以作處理。

項目背景

網上PDF轉換工具眼花繚亂，選擇困難症，有些甚至還收費；
直接以其他格式打開PDF效果一般較差；
有些小可愛通過複製粘貼的方式進行操作，浪費了大量的時間。

那麼，有沒有什麼辦法可以秒速解決這些問題呢？沒錯，Python可以。廢話不多說，直接上實操。

項目實操

一、PDF轉Text

首先，安裝一下操作PDF的庫pdfplumber。pdfplumber 可以很好的讀取 PDF 文件內容和提取 PDF 中的表格，這個庫不屬於 Python 標準庫，需要單獨安裝。

pip3 install pdfplumber

安裝好了之後，咱導入pdfplumber。

import pdfplumber

打開PDF論文，並提取論文第2頁面內容。

with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
    page = p.pages[2]
    textdata = page.extract_text()

列印一下textdata，提取到了第2頁的內容如下：

此時，你也許疑問了，一篇碩士論文至少也50多頁吧。沒錯，我下載的這篇論文有75頁，咱還得加個for迴圈，把所有頁面內容提取下來。

with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
    for i in range(75):
        page = p.pages[i]
        textdata = page.extract_text()
        #print(textdata)

內容都提取出來了，接下來就是保存為text文本。"a"為指定寫入模式為追加寫入。完整代碼如下：

#PDF轉Text
import pdfplumber
with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
    for i in range(75):
        page = p.pages[i]
        textdata = page.extract_text()
        #print(textdata)
        data = open("text.text", "a")
        data.write(textdata)

二、PDF轉Word

需要安裝一下操作Word的庫python-docx。

pip3 install python-docx

導入Document方法。

from docx import Document

打開PDF論文，並提取論文第2頁面內容。

with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
        page = p.pages[2]
        textdata = page.extract_text()

新建Word文檔，並將提取的內容存儲到裡面。

document = Document()  #新建一個空白的word文檔
content = document.add_paragraph(textdata)  #在文檔中添加正文段落，將變數textdata導進去
document.save("word.docx")  #保存文檔docx，命名為word

完整代碼如下：

#PDF轉Word1import pdfplumber
from docx import Document
with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
        page = p.pages[2]
        textdata = page.extract_text()
        #print(textdata)
        document = Document()  #新建一個空白的word文檔
        content = document.add_paragraph(textdata)  #在文檔中添加正文段落，將變數textdata導進去
        document.save("word.docx")  #保存文檔docx，命名為word

如果要提取全部，加迴圈。

三、PDF轉Excel

這裡所說的PDF轉Excel不是全文轉Excel，而是對論文中的部分表格進行格式轉換，方便在Excel中對數據進行篩選、計算等操作。

本案例PDF論文中第69-75頁為附錄部分，貼的是財務報表數據，截取部分內容，長這樣：

首先，安裝並導入操作Excel表格的庫openpyxl。

pip3 install openpyxlfrom openpyxl import Workbook

打開PDF論文，提取論文第69-75頁表格內容，註意這裡range左開右閉。

with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
    for i in range(68,75):  #遍歷69頁-75頁
        page = p.pages[i]
        table = page.extract_table()
        #print(table)

新建空白的Excel文件，按行寫入從PDF提取的表格數據內容。完整代碼如下：

 #PDF轉Excel 
 import pdfplumber
 from openpyxl import Workbook
 with pdfplumber.open("興業B信托項目風險管理研究.pdf") as p:
     workbook = Workbook()  #新建空白Excel工作簿
     sheet = workbook.active  #激活sheet
     for i in range(68,75):  #遍歷69頁-75頁
         page = p.pages[i]
         table = page.extract_table() #提取表格數據
        #print(table)
        for row in table:  #遍歷所有行
            #print(row)
            sheet.append(row) #按行追加寫入數據
        workbook.save("Excel.xlsx") #保存文件，命名為Excel
        i += 1
        print("第%d頁PDF提取完成"%i) #提示提取進度

最終效果如下，好像還可以。

結語

到這呢，Python對PDF論文的簡單操作就基本結束了。但還有一些值得探討的問題，比如如果有100個PDF且頁數都不一樣怎麼辦？即使全部提取下來，文件的格式問題如果優化？提取的多個Excel表格如何合併到一個sheet？首先肯定的告訴你，python都能解決，我以後也還會寫相關的Python操作。

歡迎點擊右上角關註小編，除了分享技術文章之外還有很多福利，私信學習資料可以領取包括不限於Python實戰演練、PDF電子文檔、面試集錦、學習資料等。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

scrapy配置參數(settings.py)

導入配置如何優雅的導入scrapy中settings.py的配置參數呢？總不能用吧，或者吧。這看起來一點逼格都沒有。 scrapy提供了導入設置的方法：from_crawler 接著，只要在__init__接收這些參數就可以了。而在一些官方的組件的源碼中會這樣使用，不過這看起來有點多此一舉 ...
PC微信機器人成品(使用的騰訊AI)

"這篇博客" 說了怎麼去hook微信來接收好友消息和發送消息，現在就來實現一下，寫了個成品軟體軟體下載地址：https://www.lanzous.com/ib4g30j 界面很簡單，如圖：(需要註意的是軟體只匹配微信版本2.8.0.121) 主要也就兩個功能。 1、自動聊天：使用騰訊AI開放平臺 ...
C語言：數據類型（基本數據類型）、類型轉換（自動轉換、強制轉換）

歡迎關註我的公眾號“老餘筆記”，也可以訪問我的個人博客www.yuxiaoshao.cn 有需要的可以qq交流學習1316677086 或者加入我的群里交流：901648700 一起分享資源，交流學習數據類型數據類型就是用來聲明不同類型的變數或函數的一個廣泛的系統。變數的類型決定了變數存儲在記憶體 ...
深入Spring之IOC之載入BeanDefinition

本文主要分析中的載入，對於其解析我們在後面的文章中專門分析。是屬於模塊的，它是對 spring bean 的統一抽象描述定義介面，我們知道在spring中定義bean的方式有很多種，如XML、註解以及自定義標簽，同事Bean的類型也有很多種，如常見的工廠Bean、自定義對象、Advisor等 ...
共陰數位管靜態顯示

♩♪♫♬點進來你就知道什麼回事，每一次遇見都是你的幸運♩♪♫♬ ...
學習筆記之線程

多線程一、實現多線程進程是正在運行的程式是系統進行資源分配和調用的獨立單位每一個進程都有它自己的記憶體空間和系統資源線程是進程中的單個順序控制流，是一條執行路徑單線程：一個進程如果只有一條執行路徑，則稱為單線程程式多線程：一個進程如果有多條執行路徑，則稱為多線程程式實現多線程方式： ...
演算法筆記（九）：二分查找

（一）二分查找 1、例如：抱著一堆書走出圖書館的時候，檢測器突然響了（其中一本書沒有消磁），現在要檢查哪一本書沒有消磁。（1）比較耗時的方式就是，一本一本書用檢測器都檢查下。（2）比較快的方式是：分成相等的2份，分別給檢測器檢測。引起報警的那一份，再分成2份，分別給檢測器檢測，重覆這個過程，直到 ...
網友發給我一個游戲釣魚網站，我用python滲透了該網站所有信息

前言：這篇文章不是像評論區的某些大佬所想的那樣是來炫技的，更多的是來給大家科普一些實用的滲透工具和方法，我相信不是所在的人都用過文中提到的這些方法。很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道如何去學習 ...