[Java] 使用ZipInputStream解析zip類文件（jar、docx）的範例

-Advertisement-

作者： zyl910 一、緣由現在zip類的文件越來越多了，例如jar、docx。有時我們需批量處理這些文件中的數據，若都是手工操作的話就太麻煩了。於是考慮編程自動處理。 Java提供了ZipInputStream等zip的操作類。但是有些內容比較抽象，沒有代碼範例的話有點難以理解。例如zip中 ...

作者： zyl910

一、緣由

現在zip類的文件越來越多了，例如jar、docx。
有時我們需批量處理這些文件中的數據，若都是手工操作的話就太麻煩了。於是考慮編程自動處理。
Java提供了ZipInputStream等zip的操作類。但是有些內容比較抽象，沒有代碼範例的話有點難以理解。例如zip中的目錄究竟是什麼。
於是我做個個Demo來演示如何用它來解析zip文件，輸出信息。

二、源碼

import java.io.*;
import java.util.zip.ZipEntry;
import java.util.zip.ZipInputStream;

public class ZipReadTest {
    public static void main(String[] args) {
        String srcPath = "target/classes/static/test.docx";
        try(FileInputStream is = new FileInputStream(srcPath)) {
            run(System.out, is);
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        System.out.println("ZipReadTest done.");
    }

    private static void run(PrintStream out, InputStream is) throws IOException {
        try(ZipInputStream zis = new ZipInputStream(is)) {
            ZipEntry zipEntry;
            while ((zipEntry = zis.getNextEntry()) != null) {
                if (null==zipEntry) continue;
                String line = String.format("ZipEntry(%s, isDirectory=%d, size=%d, compressedSize=%d, time=%d, crc=%d, method=%d, comment=%s)",
                        zipEntry.getName(), (zipEntry.isDirectory())?1:0, zipEntry.getSize(), zipEntry.getCompressedSize(), zipEntry.getTime(), zipEntry.getCrc(), zipEntry.getMethod(), zipEntry.getComment());
                out.println(line);
            }
        }
    }
}

三、測試結果

對一個docx文件進行處理，測試結果如下：

ZipEntry([Content_Types].xml, isDirectory=0, size=1344, compressedSize=354, time=312739200000, crc=1239027019, method=8, comment=null)
ZipEntry(docProps/app.xml, isDirectory=0, size=289, compressedSize=183, time=312739200000, crc=4091958464, method=8, comment=null)
ZipEntry(docProps/core.xml, isDirectory=0, size=392, compressedSize=220, time=312739200000, crc=3065131828, method=8, comment=null)
ZipEntry(word/document.xml, isDirectory=0, size=36724, compressedSize=4017, time=312739200000, crc=1830572178, method=8, comment=null)
ZipEntry(word/fontTable.xml, isDirectory=0, size=2120, compressedSize=398, time=312739200000, crc=268271083, method=8, comment=null)
ZipEntry(word/numbering.xml, isDirectory=0, size=2868, compressedSize=502, time=312739200000, crc=3349595521, method=8, comment=null)
ZipEntry(word/settings.xml, isDirectory=0, size=815, compressedSize=325, time=312739200000, crc=773262145, method=8, comment=null)
ZipEntry(word/styles.xml, isDirectory=0, size=8628, compressedSize=1319, time=312739200000, crc=2957985579, method=8, comment=null)
ZipEntry(_rels/.rels, isDirectory=0, size=588, compressedSize=228, time=312739200000, crc=1578830051, method=8, comment=null)
ZipEntry(word/media/image1.emf, isDirectory=0, size=881176, compressedSize=97920, time=312739200000, crc=1974652776, method=8, comment=null)
ZipEntry(word/_rels/document.xml.rels, isDirectory=0, size=980, compressedSize=283, time=312739200000, crc=2086150245, method=8, comment=null)
ZipReadTest done.

以上就是docx內的文件結構。

平時使用WinZip等文件來查看zip類文件時，是顯示為樹形結構。但是在zip文件中實際上記錄的是相對路徑。
zip文件類一般不用記錄目錄，只記錄相對路徑就行。
當需要記錄目錄時，ZipEntry的name以分隔符結尾（如 word/），相關數據流為空。

參考文獻

Javadoc《Class ZipInputStream》. https://docs.oracle.com/javase/8/docs/api/index.html?java/util/zip/ZipInputStream.html

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

生產者消費者問題總結

生產者-消費者算是併發編程中常見的問題。依靠緩衝區我們可以實現生產者與消費者之間的解耦。生產者只管往緩衝區裡面放東西，消費者只管往緩衝區裡面拿東西。這樣我們避免生產者想要交付數據給消費者，但消費者此時還無法接受數據這樣的情況發生。 wait notify 這個問題其實就是線程間的通訊，所以要註意的是 ...
Django框架的基本使用

Django框架的基本使用 Django是一個功能強大的web框架框架模式 1、MVC和MTV框架 MVC：Web伺服器開發領域里著名的MVC模式，所謂MVC就是把Web應用分為模型(M)，控制器(C)和視圖(V)三層，結構說明如下： M: models 資料庫相關操作 V: views 視圖，也 ...
fnmatch用法

import os import fnmatch ls=os.listdir(r"E:\pdf") #列出文件夾下所有的文件 for 文件名 in ls: if fnmatch.fnmatch(文件名,"[!a-z].pdf"): print(文件名) 1.pdf2.pdf3.pdf4.pdf>>> ...
Python 為什麼只需一條語句“a,b=b,a”，就能直接交換兩個變數？

從接觸 Python 時起，我就覺得 Python 的元組解包（unpacking）挺有意思，非常簡潔好用。最顯而易見的例子就是多重賦值，即在一條語句中同時給多個變數賦值： >>> x, y = 1, 2 >>> print(x, y) # 結果：1 2 在此例中，賦值操作符“=”號的右側的兩個數 ...
泛型小記

我們為什麼要使用泛型? 在學習集合時，我們都知道集合中是可以存放任意對象的，只要把對象存儲集合後，那麼這時他們都會被提升成Object類型。當我們在取出每一個對象，並且進行相應的操作，這時必須採用向下類型轉換。這個時候就要註意了,很容易出現問題. public class GenericDemo { ...
C/C++編程筆記：C語言入門知識點（一），請收藏C語言最全筆記！

C語言簡介 C 語言是一種通用的高級語言，最初是由丹尼斯·里奇在貝爾實驗室為開發 UNIX 操作系統而設計的。C 語言最開始是於 1972 年在 DEC PDP-11 電腦上被首次實現。原文鏈接：https://juejin.im/post/5df8c917f265da339772a5d1#he ...
Java常用類-String類

字元串相關的類：String String類：代表字元串，Java 程式中的所有字元串字面值（如 "abc" ）都作為此類的實例實現。 String是一個final類，代表不可變的字元序列當字元串重新賦值時，需要重新指定記憶體區域，不能使用原有的value進行賦值當對現有的字元串進行連接操作時， ...
Go的100天之旅-04基礎數據類型

基礎數據類型在變數的定義中，我們講了每個變數是有類型的，類型在電腦中是用來約束數據的解釋。Go語言和其它電腦語言一樣，提供豐富了豐富的數據類型，我們就來看看到底有哪些類型，同時也可以比較一下它和其它語言的區別。整型整型就是用來表示變數是整數的類型。和C類似，Go整型分為兩個大類，無符號和有 ...