Python 讀取PDF文件為文本字元並轉換為音頻

来源:https://www.cnblogs.com/lwsbc/archive/2022/04/18/16162610.html
-Advertisement-
Play Games

定義 是指在讀取一行數據時,記下它的版本號、最近修改的時間戳或校驗和。然後,你可以在修改記錄之前檢查版本有沒有發生變化。 適用場景 適用於讀多寫少的場景,樂觀鎖相信事務之間的數據競爭概率較小,因此儘可能地直接做下去,直到提交的時候才去鎖定。 實現方式 取出記錄時,獲取當前 version 執行更新時 ...


file

【閱讀全文】

設計思路:首先通過PyPDF2非標準庫提供的介面函數將PDF文件中的文本提取出來,然後,再使用pyttsx3非標準庫將文本轉換為音頻文件。

使用pip的方式安裝兩個非標準庫PyPDF2、pyttsx3。

pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/

將這兩個需要使用到的非標準庫導入到當前代碼塊中。

import pyttsx3 as tsx
import PyPDF2 as pdf

編寫PDF文件讀取函數並且返回text文本字元串。

def read_pdf_to_txt(pdf_file):
    '''
    讀取PDF文件返回text文本
    :param pdf_file: PDF文件路徑
    :return:
    '''
    reader = pdf.PdfFileReader(open(pdf_file, 'rb'))
    texts = ''
    for page_num in range(reader.numPages):
        text = reader.getPage(page_num).extractText()
        text = text.strip().replace('\n', ' ')
        texts = texts + text
    return texts


def to_video(text):
    '''
    文本轉換為音頻函數
    :param text: 文本字元串
    :return:
    '''
    sp = tsx.init()
    sp.save_to_file(text, './vi.mp3')
    sp.runAndWait()
    sp.stop()

調用to_video函數完成音頻文件的轉換。

to_video(text=read_pdf_to_txt('./vi.pdf'))

file

【往期精彩】

python 獲取最新房價信息-以北京房價為例

辦公自動化:Image圖片轉換成PDF文檔存儲...

python做一個微型美顏圖片處理器,十行代碼即可完成...

用python做一個文本翻譯器,自動將中文翻譯成英文,超方便的!

小王,給這2000個客戶發一下節日祝福的郵件...

python 一行命令開啟網路間的文件共用...

PyQt5 批量刪除 Excel 重覆數據,多個文件、自定義重覆項一鍵刪除...

再見XShell,這款國人開源的終端命令行工具更nice!

python 表情包下載器,輕鬆下載上萬個表情包、鬥圖不用愁...

Python 自動清理電腦垃圾文件,一鍵啟動即可...

有了jmespath,處理python中的json數據就變成了一種享受...

解鎖一個新技能,如何在Python代碼中使用表情包...

歡迎關註作者公眾號【Python 集中營】,專註於後端編程,每天更新技術乾貨,不定時分享各類資料!
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 博客推行版本更新,成果積累制度,已經寫過的博客還會再次更新,不斷地琢磨,高質量高數量都是要追求的,工匠精神是學習必不可少的精神。因此,大家有何建議歡迎在評論區踴躍發言,你們的支持是我最大的動力,你們敢投,我就敢肝 ...
  • 一、chiner介紹 在chiner出現之前進行資料庫建模設計的時候,大部分時間使用的是PowerDesigner。說實話基本上是偷偷的用,因為大家都知道PD是收費軟體,到處和國內廠商打官司。不僅如此,PowerDesigner古老守舊的的設計界面已經快讓讓我忍不了了,一直想尋找一款PD的替代品。 ...
  • Apache Flink是一個在無界和有界數據流上進行有狀態計算的框架。Flink提供了不同抽象級別的多個API,併為常見用例提供了專用庫。 在這裡,我們介紹Flink易於使用且富有表現力的API和庫。 流媒體應用的構建塊 流處理框架可以構建和執行的應用程式類型取決於該框架對流、狀態和時間的控製程度 ...
  • 虛擬環境搭建 我們進行開發的時候虛擬環境搭建尤為重要,我們如果需要的python解釋器模塊版本不一樣可以採用這個辦法 pycharm中搭建 命令創建虛擬環境 比如centos沒有圖形化界面的話,沒法裝pycharm,沒法點點點創建,只能使用命令 步驟 第一步:安裝 pip3 install virt ...
  • RocketMQ消費端 今天要來跟大家學習怎樣使用RocketMQ來進行消息的消費 先簡單創建個Maven項目使用 添加依賴 <dependency> <groupId>org.apache.rocketmq</groupId> <artifactId>rocketmq-client</artifa ...
  • 函數是帶名字的代碼塊,要執行函數定義的特定任務,可調用該函數。 需要在程式中多次執行同一項任務時,你無需反覆編寫完成該任務的代碼,而只需調用執行該任務的函數,通過使用函數,程式的編寫、閱讀、測試和修複都將更容易。主程式文件的組織更為有序 一、如何定義一個函數 使用關鍵字 def 來定義一個函數。 d ...
  • #尾部加”/”匹配useTrailingSlashMatch ##參數初始化 參數初始化取決於requestMapping這個bean,這個bean在spring的IOC容器中初始化 我們重載一下requestMapping這個類即可 而在springboot中的初始化的bean名稱預設是reque ...
  • 對於一些帶著固定標簽的欄位來說,我們通常把它們配置到欄位中,而在資料庫中存它們的字典code,或者是字典主鍵,不是一個整型的數字,而在前端顯示時,有時需要將它們翻譯成名稱,這時後端可以幫他們進行翻譯,或者前端通過code自己使用字典翻譯;下麵說一下第一種,後端在View model中將integer ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...