基於Python的網頁文檔處理腳本實現

-Advertisement-

嵌入式web伺服器不同於傳統伺服器，web需要轉換成數組格式保存在flash中，才方便lwip網路介面的調用，最近因為業務需求，需要頻繁修改網頁，每次的壓縮和轉換就是個很繁瑣的過程，因此我就有了利用所掌握的知識，利用python編寫個能夠批量處理網頁文件，壓縮並轉換成數組的腳本。腳本運行背景(後續 ...

　　嵌入式web伺服器不同於傳統伺服器，web需要轉換成數組格式保存在flash中，才方便lwip網路介面的調用，最近因為業務需求，需要頻繁修改網頁，每次的壓縮和轉換就是個很繁瑣的過程，因此我就有了利用所掌握的知識，利用python編寫個能夠批量處理網頁文件，壓縮並轉換成數組的腳本。

　　腳本運行背景(後續版本相容)：

Python 3.5.1(下載、安裝、配置請參考網上教程)

node.js v4.4.7，安裝uglifyjs管理包，支持js文件非文本壓縮

uglifyjs 用來壓縮JS文件的引擎，具體安裝可參考http://www.zhangxinxu.com/wordpress/2013/01/uglifyjs-compress-js/

具體實現代碼如下:

#/usr/bin/python
import os
import binascii
import shutil 
from functools import partial

def FileReduce(inpath, outpath):
        infp = open(inpath, "r", encoding="utf-8")
        outfp = open(outpath, "w", encoding="utf-8")
        print(outpath+" 壓縮成功")
        for li in infp.readlines():
            if li.split():
                li = li.replace('\n', '').replace('\t', '');
                li = ' '.join(li.split())
                outfp.writelines(li)
        infp.close()
        outfp.close()

#shell命令行調用(用ugllifyjs2來壓縮js文件)
def ShellReduce(inpath, outpath):
    Command = "uglifyjs "+inpath+" -m -o "+outpath
    print(Command)
    os.system(Command)

#將文件以二進位讀取, 並轉化成數組保存
def filehex(inpath, outpath):
    i = 0
    count = 0
    a = ''
    inf = open(inpath, 'rb');
    outf = open(outpath, 'w')
    records = iter(partial(inf.read,1), b'')
    print(outpath + " 轉換成數組成功")
    for r in records:
        r_int = int.from_bytes(r, byteorder='big')  
        a +=  hex(r_int) + ', '
        i += 1
        count += 1
        if i == 16:             
            a += '\n'
            i = 0
    a = "const static char " + outpath.split('.')[0].split('/')[-1] + "["+ str(count) +"]={\n" + a + "\n}\n\n" 
    outf.write(a)
    inf.close()
    outf.close()

#創建一個新文件夾
def mkdir(path):
    path=path.strip()
    isExists=os.path.exists(path)
 
    #判斷文件夾是否存在，不存在則創建
    if not isExists:
        print(path+' 創建成功')
        os.makedirs(path)
    else:
        pass
    return path

#刪除一個文件夾(包含內部所有文件)
def deldir(path):
    path = path.strip()

    isExists=os.path.exists(path)
 
    #判斷文件夾是否存在，存在則刪除
    if isExists:
        print(path + "刪除成功")
        shutil.rmtree(path)
    else:
        pass


def WebProcess(path):
        #原網頁 ..\basic\  
        #壓縮網頁 ..\reduce\
        #編譯完成.c網頁 ..\programe
        BasicPath = path + "\\basic"
        ProgramPath = path + "\\program"
        ReducePath = path + "\\reduce"
        
        #刪除原文件夾，再創建新文件夾
        deldir(ProgramPath)
        deldir(ReducePath)
        mkdir(ProgramPath)
        for root, dirs, files in os.walk(BasicPath):
                for item in files:
                        ext = item.split('.')
                        InFilePath = root + "/" + item
                        OutReducePath = mkdir(root.replace("basic", "reduce")) + "/" + item
                        OutProgramPath = ProgramPath + "/" + item.replace('.', '_') + '.c'
                        
                        #根據尾碼不同進行相應處理
                        #html/css 去除'\n','\t', 空格字元保留1個
                        #js 調用uglifyjs2進行壓縮
                        #gif jpg ico 直接拷貝 
                        #其它 直接拷貝
                        #除其它外，剩餘文件同時轉化成16進位數組, 保存為.c文件
                        if ext[-1] in ["html", "css"]:
                            FileReduce(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        elif ext[-1] in ["js"]:
                            ShellReduce(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        elif ext[-1] in ["gif", "jpg", "ico"]:
                            shutil.copy(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        else:
                            shutil.copy(InFilePath, OutReducePath)

#獲得當前路徑
path = os.path.split(os.path.realpath(__file__))[0];
WebProcess(path)

上述實現的原理主要包含：

1.遍歷待處理文件夾(路徑為..\basic，需要用戶創建，並將處理文件複製到其中，並將腳本放置到該文件夾上一層)--WebProcess

2.創建壓縮頁面文件夾(..\reduce, 用於存儲壓縮後文件), 由腳本完成，處理動作：

　html, css：刪除文本中的多餘空格，換行符

js：調用uglifyjs進行壓縮處理

gif, jpg, ico和其它: 直接進行複製處理

3.創建處理頁面文件夾(..\program, 用於存儲壓縮後文件), 由腳本完成，處理動作：

　以二進位模式讀取文件，並轉換成16進位字元串寫入到該文件夾中

在文件夾下(shift+滑鼠右鍵)啟用windows命令行，並輸入python web.py, 就可以通過迴圈重覆這三個過程就可以完成所有文件的處理。

特別註意：所有處理的文件需要以utf-8格式存儲，否則讀取時會報"gbk"讀取錯誤。

實現效果如下圖

html文件：

轉換數組:

示例可參考：

http://files.cnblogs.com/files/zc110747/webreduce.7z

另外附送一個小的腳本，查詢當前目錄及子文件夾下選定代碼行數和空行數(算是寫這個腳本測試時衍生出來的):

#/usr/bin/python
import os

total_count = 0; 
empty_count = 0;

def CountLine(path):
        global total_count
        global empty_count
        tempfile = open(path)
        for lines in tempfile:
                total_count += 1
                if len(lines.strip()) == 0:
                       empty_count += 1
 
def TotalLine(path):
        for root, dirs, files in os.walk(path):
                for item in files:
                        ext = item.split('.')
                        ext = ext[-1]  
                        if(ext in ["cpp", "c", "h", "java", "php"]):
                                subpath = root + "/" + item
                                CountLine(subpath)

path = os.path.split(os.path.realpath(__file__))[0];
TotalLine(path)
print("Input Path:", path)
print("total lines: ",total_count)
print("empty lines: ",empty_count)
print("code lines: ", (total_count-empty_count))

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

C#使用讀寫鎖三行代碼簡單解決多線程併發寫入文件時提示“文件正在由另一進程使用，因此該進程無法訪問此文件”的問題

文件的併發寫入問題，需要用到線程同步。而微軟也給進程同步提供了一些相關的類可以達到這樣的目的，本文使用到的 System.Threading.ReaderWriterLockSlim 便是其中之一，該類用於管理資源訪問的鎖定狀態，可實現多線程讀取或進行獨占式寫入訪問。利用這個類，我們就可以避免在同一... ...
在 ASP.NET CORE 中使用 SESSION

Session 是保存用戶和 Web 應用的會話狀態的一種方法，ASP.NET Core 提供了一個用於管理會話狀態的中間件。在本文中我將會簡單介紹一下 ASP.NET Core 中的 Session 的使用方法。安裝配置 Session 在 project.json 添加引用 Microsoft ...
EntityFramework中的DbContext使用疑點說明

1.DbContext怎麼在Asp.mvc中使用？這麼定義之後，所有需要用到DbContext對象的地方，都調這個方法。 2. 不要隨便using或Dispose DbContext會導致延遲載入的不可用，還會有一些其他錯誤如IQueryable<T> 下麵的方法（.First() /.Coun ...
C#Excel文件加密實現，支持xlsx、docx、pptx（C#\Net\Asp.Net）

從此刻開始，我已封閉！概不接客！像風一樣的男人，像風一樣的性格，無拘無束，不拘一格。那麼問題來了，當風遇到沙，不一定你是風兒，我是沙兒的纏纏綿綿，。也許是漫天黃沙，飛粒走石。如果我們期望擒住這漫天的塵埃，必須有強有力的手臂!那麼曬網、撒網、收網！讓他老實的封閉起來吧，永遠相依偎，阿拉！讀在最前面 ...
php的laravel框架快速集成微信登錄

最終的解決方案是：https://github.com/liuyunzhuge/php_weixin_provider，詳細的介紹請往下閱讀。本文面向的是php語言laravel框架的用戶，介紹的是基於該框架實現的一個簡易集成微信登錄的方法。使用方法如下： 1. 安裝php_weixin_prov ...
【Java每日一題】20161212

今日問題：請問主程式中輸出結果是什麼？（點擊以下“【Java每日一題】20161212”查看20161209問題解析）題目原發佈於公眾號、簡書：【Java每日一題】20161212，【Java每日一題】20161212 ...
springmvc session和model解析

關於springMVC中的session，有2種使用方法，第一種是直接傳遞httpsession，第二種是使用@SessionAttributes("userId") 註解這裡附帶一個帖子，別人寫的特別好，是我看過的覺得最好的：http://www.cnblogs.com/waytofall/p/ ...
【python】Threadpool線程池任務終止簡單示例

需求加入我們需要處理一串個位數（0~9），奇數時需要迴圈列印它；偶數則等待對應時長並完成所有任務；0則是錯誤，但不需要終止任務，可以自定義一些處理。關鍵點定義func函數處理需求 callback處理返回結果，只有偶數和0返回；奇數會一直執行；要控制線程池狀態，則需要針對偶數和0時拋出異常，並... ...