拋出問題 求任意一個字元串的全排列組合,例如a='123',輸出 123,132,213,231,312,321。(暫時假定字元串沒有重覆) 解決方案 目前有兩種解決的方法 方法一: def str_sort(s=''): if len(s) <= 1: return [s] str_list = ...
一.docx模塊
Python可以利用python-docx模塊處理word文檔,處理方式是面向對象的。也就是說python-docx模塊會把word文檔,文檔中的段落、文本、字體等都看做對象,對對象進行處理就是對word文檔的內容處理。
二.相關概念
如果需要讀取word文檔中的文字(一般來說,程式也只需要認識word文檔中的文字信息),需要先瞭解python-docx模塊的幾個概念。
- Document對象,表示一個word文檔。
- Paragraph對象,表示word文檔中的一個段落
- Paragraph對象的text屬性,表示段落中的文本內容。
三.模塊的安裝和導入
需要註意,python-docx模塊安裝需要在cmd命令行中輸入pip install python-docx,如下圖表示安裝成功(最後那句英文Successfully installed,成功地安裝完成)
註意在導入模塊時,用的是import docx。
也真是奇了怪了,怎麼安裝和導入模塊時,很多都不用一個名字,看來是很有必要出一個python版本的模塊管理程式python-maven了,本段純屬PS。
四.讀取word文本
在瞭解了上面的信息之後,就很簡單了,下麵先創建一個D:\temp\word.docx文件,併在其中輸入如下內容。
import docx
file=docx.Document(r"F:\python從入門到放棄\7\2\wenjian.docx")
print('段落:'+str(len(file.paragraphs)))
#
# for para in file.paragraphs:
# print(para.text)
for i in range(len(file.paragraphs)):
print("第"+str(i)+"段的內容是:"+file.paragraphs[i].text)
import sys
from docx import Document
from docx.shared import Inches
def main():
# reload(sys)
# sys.setdefaultencoding('utf-8')
# 創建文檔對象
document = Document()
# 設置文檔標題,中文要用unicode字元串
document.add_heading(u'我的一個新文檔',0)
# 往文檔中添加段落
p = document.add_paragraph('This is a paragraph having some ')
p.add_run('bold ').bold = True
p.add_run('and some ')
p.add_run('italic.').italic = True
# 添加一級標題
document.add_heading(u'一級標題, level = 1',level = 1)
document.add_paragraph('Intense quote',style = 'IntenseQuote')
# 添加無序列表
document.add_paragraph('first item in unordered list',style = 'ListBullet')
# 添加有序列表
document.add_paragraph('first item in ordered list',style = 'ListNumber')
document.add_paragraph('second item in ordered list',style = 'ListNumber')
document.add_paragraph('third item in ordered list',style = 'ListNumber')
# 添加圖片,並指定寬度
document.add_picture('cat.png',width = Inches(2.25))
# 添加表格: 1行3列
table = document.add_table(rows = 1,cols = 3)
# 獲取第一行的單元格列表對象
hdr_cells = table.rows[0].cells
# 為每一個單元格賦值
# 註:值都要為字元串類型
hdr_cells[0].text = 'Name'
hdr_cells[1].text = 'Age'
hdr_cells[2].text = 'Tel'
# 為表格添加一行
new_cells = table.add_row().cells
new_cells[0].text = 'Tom'
new_cells[1].text = '19'
new_cells[2].text = '12345678'
# 添加分頁符
document.add_page_break()
# 往新的一頁中添加段落
p = document.add_paragraph('This is a paragraph in new page.')
# 保存文檔
document.save('demo1.doc')
if __name__ == '__main__':
main()
讀取表格:
import docx
doc = docx.Document('wenjian.docx')
for table in doc.tables: # 遍歷所有表格
print('----table------')
for row in table.rows: # 遍歷表格的所有行
# row_str = '\t'.join([cell.text for cell in row.cells]) # 一行數據
# print row_str
for cell in row.cells:
print(cell.text, '\t',)
print() #換行
首先是用docx.Document打開對應的文件目錄。
docx文件的結構比較複雜,分為三層,
- Docment對象表示整個文檔;
- Docment包含了Paragraph對象的列表,Paragraph對象用來表示文檔中的段落;
- 一個Paragraph對象包含Run對象的列表。
因此p.text會列印出整個的文本文檔。而用doc.tables來遍歷所有的表格。並且對每個表格通過遍歷行,列的方式來得到所有的內容。
但是在運行結果中並沒有找到我們插入的文件對象和圖片,text.txt文檔。這部分該如何解析呢。首先我們需要先來認識下docx文檔的格式組成:
-
docx是Microsoft Office2007之後版本使用的,用新的基於XML的壓縮文件格式取代了其目前專有的預設文件格式,在傳統的文件名擴展名後面添加了字母“x”(即“.docx”取代“.doc”、“.xlsx”取代“.xls”、“.pptx”取代“.ppt”)。
-
docx格式的文件本質上是一個ZIP文件。將一個docx文件的尾碼改為ZIP後是可以用解壓工具打開或是解壓的。事實上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。
-
docx 格式文件的主要內容是保存為XML格式的,但文件並非直接保存於磁碟。它是保存在一個ZIP文件中,然後取擴展名為docx。將.docx 格式的文件尾碼改為ZIP後解壓, 可以看到解壓出來的文件夾中有word這樣一個文件夾,它包含了Word文檔的大部分內容。而其中的document.xml文件則包含了文檔的主要文本內容
從上面的文檔我們可以瞭解到docx文檔實際上是由XML文檔打包組成的。那麼我們要得到其中所有的部分,可以用ZIP解壓的方式來得到所有的部件。
我們先試下看是否可以
1 將docx文檔改成ZIP的尾碼
2 解壓文件
解壓之後得到如下幾個文件
點開word文件夾:有如下的文件夾。document.xml就是描述文本對象的文件
其中embeddings文件中就是我們插入的文本對象text.txt. 是一個bin文件
Media文件中就是存儲的圖片:
我們通過手動的方式將插入的文本以及圖片解析出來,那麼通過代碼也是同樣可以解析的。代碼如下。
os.chdir(r'E:\py_prj') #首先改變目錄到文件的目錄
os.rename('test.docx','test.ZIP') # 重命名為zip文件
f=zipfile.ZipFile('test.zip','r') #進行解壓
for file in f.namelist():
f.extract(file)
file=open(r'E:\py_prj\word\embeddings\oleObject1.bin','rb').read() #進入文件路徑,讀取二進位文件。
for f in file:
print (f)
通過上面的方式,就可以將docx中插入的文件以及圖片全部解析出來。
具體docx的寫的方式可以參考官方文檔的介紹