付費?是不可能的!20行Python代碼實現一款永久免費PDF編輯工具

来源:https://www.cnblogs.com/qianduan1/archive/2020/07/21/13357617.html
-Advertisement-
Play Games

PDF(Portable Document Format),中文名稱便攜文檔格式是我們經常會接觸到的一種文件格式,文獻、文檔…很多都是PDF格式。它以格式穩定的優勢,使得我們在列印、分享、傳輸過程中能夠最優的保持原有色彩和格式。 PDF是以PostScript語言圖像模型為基礎的一種文檔格式,它在格 ...


PDF(Portable Document Format),中文名稱便攜文檔格式是我們經常會接觸到的一種文件格式,文獻、文檔…很多都是PDF格式。它以格式穩定的優勢,使得我們在列印、分享、傳輸過程中能夠最優的保持原有色彩和格式。

PDF是以PostScript語言圖像模型為基礎的一種文檔格式,它在格式的穩定性方面雖然具有很大優勢。但是,在可編輯性方面卻為使用者引入了另外一個困擾。

例如,在文檔的分割、合併、剪切、轉換、編輯等方面PDF就有些捉襟見肘了。

Adobe Reader、福昕閱讀器、熊貓PDF…經常用到的PDF工具只能用於文檔閱讀,但是免費版都不可以用於文檔編輯。雖然,網頁版PDF工具,例如SmallPDF、I love PDF可以用於PDF的編輯,但是對於文檔大小也有限制。

曾經,為了替換PDF中的一頁,我幾乎試遍了所有市面上主流的PDF工具,最終還是不得不選擇使用付費工具來解決問題。

事後想了想,既然這些商業化軟體不靠譜,為什麼不考慮自己動手開發一款工具呢?明明幾十行代碼能夠解決的問題,為什麼要費那麼多勁去下載、安裝那些沒有節操的軟體呢?

本文就來介紹一下利用Python輕鬆開發一款PDF編輯工具,可以用於PDF轉TxT、分割、合併、剪切、轉換。

PyPDF2

PyPDF2是一個第三方的python PDF庫,它能夠對PDF文件進行分割、合併、裁剪和轉換頁面。

另外,它還可以對PDF文件添加自定義數據、水印、密碼,也可以從PDF文件中檢索出文本和元數據。

安裝

使用pip直接安裝:

$ pip install PyPDF2

下麵就來演示幾項PDF編輯功能,並且會逐行解釋代碼的含義。

刪除PDF頁

先給出實現代碼,

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()     // 1
input1 = PdfFileReader(open("example.pdf", "rb")) // 2

def delete_pdf(index):
 pages = input1.getNumPages() // 3

 for i in range(pages):
  if i+1 in index:
   continue
  output.addPage(input1.getPage(i))  // 4

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream)  // 5

delete_pdf([2,3,4])

下麵來解釋一下代碼中的幾個關鍵點:

  1. 聲明一個用於輸出PDF的實例;
  2. 讀取本地PDF文件;
  3. 獲取PDF文檔的頁數;
  4. 讀取PDF的第i頁,添加到輸出output實例中;
  5. 把編輯後的文檔保存到本地;

合併PDF

已經實現了刪除PDF頁,接下來就看一下如何把另外一個PDF中的頁面合併到當前PDF中。

方法1:

可以沿著前面刪除PDF頁的方式進行拓展一下,對PDF進行合併。

from PyPDF2 import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(open("example.pdf", "rb"))
input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1

def merge_pdf(add_index, origin_index):
 pages = input1.getNumPages()
 k = 0
 for i in range(pages):
  if i+1 in add_index:
   output.addPage(input2.getPage(origin_index[k])) // 2
   pages += 1
   k += 1
  output.addPage(input1.getPage(i))

 outputStream = open("PyPDF2-output.pdf", "wb")
 output.write(outputStream)

merge_pdf([2,3,4], [0, 0, 0])

讀取需要合併的源文件;
遍歷到指定頁,合併源PDF的頁面;

方法2:

除了方法1,還有另外一種方法可以合併PDF:

from PyPDF2 import PdfFileMerger // 1

merger = PdfFileMerger()

input1 = open("document1.pdf", "rb") // 2
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")

merger.append(fileobj = input1, pages = (0,3)) // 3

merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4

merger.append(input3) // 5

output = open("document-output.pdf", "wb")
merger.write(output)
  1. 導入PyPDF2合併模塊PdfFileMerger;
  2. 讀取需要處理和合併的PDF文檔;
  3. 從第一個PDF文檔中取出需要合併的前3頁;
  4. 把第二個PDF文檔的第一頁插入到文檔中;
  5. 把第三個PDF文檔附到輸出文檔末尾;
  6. 除了上述介紹的2項主要功能,PyPDF2也有一些其他小功能:

旋轉

input1.getPage(1).rotateClockwise(90)

使得頁面1旋轉90度。

添加水印

page = input1.getPage(3)
watermark = PdfFileReader(open("watermark.pdf", "rb"))
page.mergePage(watermark.getPage(0))

其中,水印存儲在另外一個PDF文檔watermark.pdf中。

加密

password = "secret"
output.encrypt(password)

首先給一個secret密碼,然後使用encrypt對輸出文檔進行加密。

pdfminer

前面介紹的PyPDF2主要擅長於PDF頁面級編輯,而對於文本和源數據級別編輯能力較弱。

所以,這裡就來介紹另外一款Python庫來彌補它的不足。

PDFMiner是一個PDF文檔的文本提取工具,它具有如下特性:

  • 能夠準確獲取文本的位置和佈局信息;
  • 可以將PDF轉換為HTML/XML等格式;
  • 可以提取目錄;
  • 可以提取標簽內容;
  • 支持各種字體類型(Type1、TrueType、Type3和CID);
  • 支持中、日、韓語言和垂直書寫文本;

安裝

$ pip install pdfminer

PDF轉TxT

pdfminer在GitHub的托管項目中,在目錄tools下給出了一些實用的工具集,例如,PDF轉HTML、PDF轉HTML、PDF轉TXT。我們可以直接通過使用下麵命令提出PDF文檔中的文本信息。

$ pdf2txt.py samples/simple1.pdf

總結

通過上述2款Python庫,就可以實現從頁面到文本元數據的編輯,本文只是簡單的介紹了每項的基本用法。關於詳細的用法和函數列表,可以閱讀官方文檔,或者閱讀GitHub上項目源碼進行瞭解。此外,可以在這些基本的用法基礎上進行發散思維,發掘更多有價值的應用場景,例如,提出文本數據之後調用翻譯API進行文獻翻譯。也可以,對軟體進行封裝,開發成一款通用的PDF編輯工具。

本文福利

在這裡插入圖片描述


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 介面預設方法 在介面中的方法前加上default關鍵字就可以在介面中寫方法的預設實現。 預設方法,介面的子類不需要實現,可以直接使用 可以定義一個或多個預設方法 以List介面為例,在Java8中新增了預設方法: public interface List<E> extends Collection ...
  • Stream API 使用一種類似於SQL語句從資料庫查詢數據的直觀方式對Java集合進行運算和表達。 將要處理的元素集合看作一種流, 流在管道中傳輸,我們可以在管道的節點上進行處理, 比如篩選, 排序,聚合等。 Stream的三個操作步驟為: 創建Stream:從一個數據源,如集合、數組中獲取流。 ...
  • 一:什麼是動態代理: 利用反射機制在運行時創建代理類。介面、被代理類不變。 二:動態代理和靜態代理的不同: 1、靜態代理的代理類是程式員事先寫好的 2、動態代理的代理類是在程式運行時動態生成的 三:動態代理分為兩大類: 1、基於介面的動態代理 2、基於類的動態代理 四:動態代理的三種實現方式: 1、 ...
  • HashMap的知識點可以說在面試中經常被問到,是Java中比較常見的一種數據結構。所以這一篇就通過源碼來深入理解下HashMap。 1 HashMap的底層是如何實現的?(基於JDK8) 1.1 HashMap的類結構和成員 /** HashMap繼承AbstractMap,而AbstractMa ...
  • selenium之彈框操作 一、分類 彈框類型自見解分為四種: 1,頁面彈框 2,警告提示框(alert) 3,確認消息框(confirm) 4,提示消息對話(prompt) 提示: selenium 提供switch_to_alert()方法定位到 alert/confifirm/prompt對話 ...
  • Spring事務的核心對象 ​ spring提供了三大介面來實現事務的控制 PlatformTransactionManager 此介面定義了事務的基本操作,因為此類是一個介面,所以我們創建事務對象,需要用其實現類DataSourceTransactionManager 方法 說明 DataSour ...
  • 01 不能直接返回局部變數的引用/地址 C++有時候還挺傻的,比如調用函數的時候,我就想返回一個局部變數的引用或指針(常想用於返回新建的數組/對象),是不正確的。 比如下麵這段代碼,用指針存儲變數 \(a\) 的地址並返回(直接返回 \(a\) 的地址的話,在編譯器那關就過不了): // 程式 #i ...
  • 一. 本篇要學習的內容和知識結構概覽 二. 知識點逐條分析 1. 混合型語言 C++源文件的文件擴展名為.cpp, 也就是c plus plus的簡寫, 在該文件里有且只能有一個名為main的主函數, 它作為程式的入口. 因為這個主函數的存在, 所以C++被稱為混合型語言. 2. C++語言當中的註 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...