python中可以處理word文檔的模塊:docx模塊

来源:https://www.cnblogs.com/xxpythonxx/archive/2023/01/04/17025845.html
-Advertisement-
Play Games

拋出問題 求任意一個字元串的全排列組合,例如a='123',輸出 123,132,213,231,312,321。(暫時假定字元串沒有重覆) 解決方案 目前有兩種解決的方法 方法一: def str_sort(s=''): if len(s) <= 1: return [s] str_list = ...


一.docx模塊

Python可以利用python-docx模塊處理word文檔,處理方式是面向對象的。也就是說python-docx模塊會把word文檔,文檔中的段落、文本、字體等都看做對象,對對象進行處理就是對word文檔的內容處理。

二.相關概念

如果需要讀取word文檔中的文字(一般來說,程式也只需要認識word文檔中的文字信息),需要先瞭解python-docx模塊的幾個概念。

  • Document對象,表示一個word文檔。
  • Paragraph對象,表示word文檔中的一個段落
  • Paragraph對象的text屬性,表示段落中的文本內容。

三.模塊的安裝和導入

需要註意,python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx,如下圖表示安裝成功(最後那句英文Successfully installed,成功地安裝完成)

註意在導入模塊時,用的是import docx。

也真是奇了怪了,怎麼安裝和導入模塊時,很多都不用一個名字,看來是很有必要出一個python版本的模塊管理程式python-maven了,本段純屬PS。

四.讀取word文本

在瞭解了上面的信息之後,就很簡單了,下麵先創建一個D:\temp\word.docx文件,併在其中輸入如下內容。

import docx


file=docx.Document(r"F:\python從入門到放棄\7\2\wenjian.docx")

print('段落:'+str(len(file.paragraphs)))
# 
# for para in file.paragraphs:
#     print(para.text)
    
for i in range(len(file.paragraphs)): 
    print("第"+str(i)+"段的內容是:"+file.paragraphs[i].text)  
import sys

from docx import Document
from docx.shared import Inches

def main():
#     reload(sys)
#     sys.setdefaultencoding('utf-8')

    # 創建文檔對象
    document = Document()

    # 設置文檔標題,中文要用unicode字元串
    document.add_heading(u'我的一個新文檔',0)

    # 往文檔中添加段落
    p = document.add_paragraph('This is a paragraph having some ')
    p.add_run('bold ').bold = True
    p.add_run('and some ')
    p.add_run('italic.').italic = True

    # 添加一級標題
    document.add_heading(u'一級標題, level = 1',level = 1)
    document.add_paragraph('Intense quote',style = 'IntenseQuote')

    # 添加無序列表
    document.add_paragraph('first item in unordered list',style = 'ListBullet')

    # 添加有序列表
    document.add_paragraph('first item in ordered list',style = 'ListNumber')
    document.add_paragraph('second item in ordered list',style = 'ListNumber')
    document.add_paragraph('third item in ordered list',style = 'ListNumber')

    # 添加圖片,並指定寬度
    document.add_picture('cat.png',width = Inches(2.25))

    # 添加表格: 1行3列
    table = document.add_table(rows = 1,cols = 3)
    # 獲取第一行的單元格列表對象
    hdr_cells = table.rows[0].cells
    # 為每一個單元格賦值
    # 註:值都要為字元串類型
    hdr_cells[0].text = 'Name'
    hdr_cells[1].text = 'Age'
    hdr_cells[2].text = 'Tel'
    # 為表格添加一行
    new_cells = table.add_row().cells
    new_cells[0].text = 'Tom'
    new_cells[1].text = '19'
    new_cells[2].text = '12345678'

    # 添加分頁符
    document.add_page_break()

    # 往新的一頁中添加段落
    p = document.add_paragraph('This is a paragraph in new page.')

    # 保存文檔
    document.save('demo1.doc')

if __name__ == '__main__':
    main()

讀取表格:

import docx

doc = docx.Document('wenjian.docx')
for table in doc.tables:  # 遍歷所有表格
    print('----table------')
    for row in table.rows:  # 遍歷表格的所有行
        # row_str = '\t'.join([cell.text for cell in row.cells])  # 一行數據
        # print row_str
        for cell in row.cells:
            print(cell.text, '\t',)
        print() #換行

首先是用docx.Document打開對應的文件目錄。

docx文件的結構比較複雜,分為三層,

  • Docment對象表示整個文檔;
  • Docment包含了Paragraph對象的列表,Paragraph對象用來表示文檔中的段落;
  • 一個Paragraph對象包含Run對象的列表。

因此p.text會列印出整個的文本文檔。而用doc.tables來遍歷所有的表格。並且對每個表格通過遍歷行,列的方式來得到所有的內容。

但是在運行結果中並沒有找到我們插入的文件對象和圖片,text.txt文檔。這部分該如何解析呢。首先我們需要先來認識下docx文檔的格式組成:

  • docx是Microsoft Office2007之後版本使用的,用新的基於XML的壓縮文件格式取代了其目前專有的預設文件格式,在傳統的文件名擴展名後面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。

  • docx格式的文件本質上是一個ZIP文件。將一個docx文件的尾碼改為ZIP後是可以用解壓工具打開或是解壓的。事實上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。

  • docx 格式文件的主要內容是保存為XML格式的,但文件並非直接保存於磁碟。它是保存在一個ZIP文件中,然後取擴展名為docx。將.docx 格式的文件尾碼改為ZIP後解壓, 可以看到解壓出來的文件夾中有word這樣一個文件夾,它包含了Word文檔的大部分內容。而其中的document.xml文件則包含了文檔的主要文本內容

從上面的文檔我們可以瞭解到docx文檔實際上是由XML文檔打包組成的。那麼我們要得到其中所有的部分,可以用ZIP解壓的方式來得到所有的部件。

我們先試下看是否可以

1 將docx文檔改成ZIP的尾碼

2 解壓文件

解壓之後得到如下幾個文件
在這裡插入圖片描述
點開word文件夾:有如下的文件夾。document.xml就是描述文本對象的文件
在這裡插入圖片描述
其中embeddings文件中就是我們插入的文本對象text.txt. 是一個bin文件
在這裡插入圖片描述
Media文件中就是存儲的圖片:
在這裡插入圖片描述
我們通過手動的方式將插入的文本以及圖片解析出來,那麼通過代碼也是同樣可以解析的。代碼如下。

os.chdir(r'E:\py_prj')  #首先改變目錄到文件的目錄

os.rename('test.docx','test.ZIP')  # 重命名為zip文件

f=zipfile.ZipFile('test.zip','r')  #進行解壓

for file in f.namelist():

    f.extract(file)

file=open(r'E:\py_prj\word\embeddings\oleObject1.bin','rb').read() #進入文件路徑,讀取二進位文件。

for f in file:

    print (f)

通過上面的方式,就可以將docx中插入的文件以及圖片全部解析出來。

具體docx的寫的方式可以參考官方文檔的介紹


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 事件委托與事件對象 事件冒泡與事件捕獲 事件流:用於描述頁面接收事件的順序。以下是事件流的兩種不同方案: 事件冒泡:事件由最具體的元素逐級向上傳遞到最不具體的元素。 事件捕獲:事件由最不具體的元素逐級向下傳遞到最具體的元素。 以上的兩種事件流方案是截然相反的,分別由IE開發團隊和Netscape開發 ...
  • var request = new XMLHttpRequest(); //請求種類和地址和.......(屑阿狗忘了,但暫時沒用 request.open('GET', '這裡填寫介面地址', true); //返回格式,json是js對象的存儲 request.responseType = 'j ...
  • 抽象工廠模式 為什麼要用抽象工廠模式? * 舉個實際應用的例子,一個顯示器電路板廠商,旗下的顯示器電路板種類有非液晶的和液晶的;這個時候,廠商建造兩個工廠,工廠A負責生產非液晶顯示器電路板,工廠B負責生產液晶顯示器電路板;工廠一直就這樣運行著。有一天,總經理髮現,直接生產顯示器的其餘部分也挺掙錢,所 ...
  • AutoJob是一款輕量級任務調度框架,具有分散式、全非同步、易拓展、易集成等特點,提供多種任務調度模式和多種任務類型。配置豐富、拓展方便、使用簡單、代碼侵入性低。 ...
  • Jupyter Notebook是一套基於web的互動式開發環境。用戶可以線上開發和分享包含代碼和輸出的互動式文檔,支持實時代碼,數學方程,可視化和 markdown等。用途包括:數據清理和轉換,數值模擬,統計建模,機器學習等等。 ...
  • 數組 數組是一個由固定長度的特定類型元素組成的序列,一個數組可以由零個或多個元素組成。雖然數組元素可以被修改,但是數組長度是固定的,而且在go語言中數組的長度也是數組類型的組成部分,所以不同長度或不同類型的數據組成的數組都是不同的類型,因而在go語言中很少使用數組。 slice slice(中文翻譯 ...
  • ES6新特性 1.ES6是什麼? DCMAScript 6.0(以下簡稱ES6)是JavaScript語言的下一代標準,2015年6月發佈 ES6設計目標:達到JavaScript語言可以用來編寫複雜的大型程式,成為企業級開發語言 ECMAScript和JavaScript的關係:ECMAScrip ...
  • 簡介 開發板:EGO1 開發環境:Windows10 + Xilinx Vivado 2020 數字邏輯大作業題目 7: 乒乓球比賽模擬機的設計 乒乓球比賽模擬機用發光二極體(LED)模擬乒乓球運動軌跡,是由甲乙雙方參賽,加上裁判的三人游戲(也可以不用裁判)。 管腳約束代碼: 點擊查看代碼 set_ ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...