基於Python的網頁文檔處理腳本實現

来源:http://www.cnblogs.com/zc110747/archive/2016/12/11/6160813.html
-Advertisement-
Play Games

嵌入式web伺服器不同於傳統伺服器,web需要轉換成數組格式保存在flash中,才方便lwip網路介面的調用,最近因為業務需求,需要頻繁修改網頁,每次的壓縮和轉換就是個很繁瑣的過程,因此我就有了利用所掌握的知識,利用python編寫個能夠批量處理網頁文件,壓縮並轉換成數組的腳本。 腳本運行背景(後續 ...


  嵌入式web伺服器不同於傳統伺服器,web需要轉換成數組格式保存在flash中,才方便lwip網路介面的調用,最近因為業務需求,需要頻繁修改網頁,每次的壓縮和轉換就是個很繁瑣的過程,因此我就有了利用所掌握的知識,利用python編寫個能夠批量處理網頁文件,壓縮並轉換成數組的腳本。

  腳本運行背景(後續版本相容):

      Python 3.5.1(下載、安裝、配置請參考網上教程)

      node.js v4.4.7, 安裝uglifyjs管理包,支持js文件非文本壓縮

      uglifyjs 用來壓縮JS文件的引擎,具體安裝可參考http://www.zhangxinxu.com/wordpress/2013/01/uglifyjs-compress-js/

      具體實現代碼如下:

#/usr/bin/python
import os
import binascii
import shutil 
from functools import partial

def FileReduce(inpath, outpath):
        infp = open(inpath, "r", encoding="utf-8")
        outfp = open(outpath, "w", encoding="utf-8")
        print(outpath+" 壓縮成功")
        for li in infp.readlines():
            if li.split():
                li = li.replace('\n', '').replace('\t', '');
                li = ' '.join(li.split())
                outfp.writelines(li)
        infp.close()
        outfp.close()

#shell命令行調用(用ugllifyjs2來壓縮js文件)
def ShellReduce(inpath, outpath):
    Command = "uglifyjs "+inpath+" -m -o "+outpath
    print(Command)
    os.system(Command)

#將文件以二進位讀取, 並轉化成數組保存
def filehex(inpath, outpath):
    i = 0
    count = 0
    a = ''
    inf = open(inpath, 'rb');
    outf = open(outpath, 'w')
    records = iter(partial(inf.read,1), b'')
    print(outpath + " 轉換成數組成功")
    for r in records:
        r_int = int.from_bytes(r, byteorder='big')  
        a +=  hex(r_int) + ', '
        i += 1
        count += 1
        if i == 16:             
            a += '\n'
            i = 0
    a = "const static char " + outpath.split('.')[0].split('/')[-1] + "["+ str(count) +"]={\n" + a + "\n}\n\n" 
    outf.write(a)
    inf.close()
    outf.close()

#創建一個新文件夾
def mkdir(path):
    path=path.strip()
    isExists=os.path.exists(path)
 
    #判斷文件夾是否存在,不存在則創建
    if not isExists:
        print(path+' 創建成功')
        os.makedirs(path)
    else:
        pass
    return path

#刪除一個文件夾(包含內部所有文件)
def deldir(path):
    path = path.strip()

    isExists=os.path.exists(path)
 
    #判斷文件夾是否存在,存在則刪除
    if isExists:
        print(path + "刪除成功")
        shutil.rmtree(path)
    else:
        pass


def WebProcess(path):
        #原網頁 ..\basic\  
        #壓縮網頁 ..\reduce\
        #編譯完成.c網頁 ..\programe
        BasicPath = path + "\\basic"
        ProgramPath = path + "\\program"
        ReducePath = path + "\\reduce"
        
        #刪除原文件夾,再創建新文件夾
        deldir(ProgramPath)
        deldir(ReducePath)
        mkdir(ProgramPath)
        for root, dirs, files in os.walk(BasicPath):
                for item in files:
                        ext = item.split('.')
                        InFilePath = root + "/" + item
                        OutReducePath = mkdir(root.replace("basic", "reduce")) + "/" + item
                        OutProgramPath = ProgramPath + "/" + item.replace('.', '_') + '.c'
                        
                        #根據尾碼不同進行相應處理
                        #html/css 去除'\n','\t', 空格字元保留1個
                        #js 調用uglifyjs2進行壓縮
                        #gif jpg ico 直接拷貝 
                        #其它 直接拷貝
                        #除其它外,剩餘文件同時轉化成16進位數組, 保存為.c文件
                        if ext[-1] in ["html", "css"]:
                            FileReduce(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        elif ext[-1] in ["js"]:
                            ShellReduce(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        elif ext[-1] in ["gif", "jpg", "ico"]:
                            shutil.copy(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        else:
                            shutil.copy(InFilePath, OutReducePath)

#獲得當前路徑
path = os.path.split(os.path.realpath(__file__))[0];
WebProcess(path)

上述實現的原理主要包含:

1.遍歷待處理文件夾(路徑為..\basic,需要用戶創建,並將處理文件複製到其中,並將腳本放置到該文件夾上一層)--WebProcess

2.創建壓縮頁面文件夾(..\reduce, 用於存儲壓縮後文件), 由腳本完成,處理動作:

 html, css: 刪除文本中的多餘空格,換行符

   js:調用uglifyjs進行壓縮處理

   gif, jpg, ico和其它: 直接進行複製處理

3.創建處理頁面文件夾(..\program, 用於存儲壓縮後文件), 由腳本完成,處理動作:

 以二進位模式讀取文件,並轉換成16進位字元串寫入到該文件夾中

在文件夾下(shift+滑鼠右鍵)啟用windows命令行,並輸入python web.py, 就可以通過迴圈重覆這三個過程就可以完成所有文件的處理。

特別註意:所有處理的文件需要以utf-8格式存儲,否則讀取時會報"gbk"讀取錯誤。

實現效果如下圖

html文件:

轉換數組:

示例可參考:

http://files.cnblogs.com/files/zc110747/webreduce.7z

另外附送一個小的腳本,查詢當前目錄及子文件夾下選定代碼行數和空行數(算是寫這個腳本測試時衍生出來的):

#/usr/bin/python
import os

total_count = 0; 
empty_count = 0;

def CountLine(path):
        global total_count
        global empty_count
        tempfile = open(path)
        for lines in tempfile:
                total_count += 1
                if len(lines.strip()) == 0:
                       empty_count += 1
 
def TotalLine(path):
        for root, dirs, files in os.walk(path):
                for item in files:
                        ext = item.split('.')
                        ext = ext[-1]  
                        if(ext in ["cpp", "c", "h", "java", "php"]):
                                subpath = root + "/" + item
                                CountLine(subpath)

path = os.path.split(os.path.realpath(__file__))[0];
TotalLine(path)
print("Input Path:", path)
print("total lines: ",total_count)
print("empty lines: ",empty_count)
print("code lines: ", (total_count-empty_count))

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 文件的併發寫入問題,需要用到線程同步。而微軟也給進程同步提供了一些相關的類可以達到這樣的目的,本文使用到的 System.Threading.ReaderWriterLockSlim 便是其中之一,該類用於管理資源訪問的鎖定狀態,可實現多線程讀取或進行獨占式寫入訪問。利用這個類,我們就可以避免在同一... ...
  • Session 是保存用戶和 Web 應用的會話狀態的一種方法,ASP.NET Core 提供了一個用於管理會話狀態的中間件。在本文中我將會簡單介紹一下 ASP.NET Core 中的 Session 的使用方法。 安裝配置 Session 在 project.json 添加引用 Microsoft ...
  • 1.DbContext怎麼在Asp.mvc中使用? 這麼定義之後,所有需要用到DbContext對象的地方,都調這個方法。 2. 不要隨便using或Dispose DbContext會導致延遲載入的不可用,還會有一些其他錯誤 如IQueryable<T> 下麵的方法(.First() /.Coun ...
  • 從此刻開始,我已封閉!概不接客! 像風一樣的男人,像風一樣的性格,無拘無束,不拘一格。那麼問題來了,當風遇到沙,不一定你是風兒,我是沙兒的纏纏綿綿,。也許是漫天黃沙,飛粒走石。如果我們期望擒住這漫天的塵埃,必須有強有力的手臂!那麼曬網、撒網、收網!讓他老實的封閉起來吧,永遠相依偎,阿拉! 讀在最前面 ...
  • 最終的解決方案是:https://github.com/liuyunzhuge/php_weixin_provider,詳細的介紹請往下閱讀。 本文面向的是php語言laravel框架的用戶,介紹的是基於該框架實現的一個簡易集成微信登錄的方法。使用方法如下: 1. 安裝php_weixin_prov ...
  • 今日問題: 請問主程式中輸出結果是什麼?(點擊以下“【Java每日一題】20161212”查看20161209問題解析) 題目原發佈於公眾號、簡書:【Java每日一題】20161212,【Java每日一題】20161212 ...
  • 關於springMVC中的session,有2種使用方法,第一種是直接傳遞httpsession,第二種是使用@SessionAttributes("userId") 註解 這裡附帶一個帖子,別人寫的特別好,是我看過的覺得最好的:http://www.cnblogs.com/waytofall/p/ ...
  • 需求 加入我們需要處理一串個位數(0~9),奇數時需要迴圈列印它;偶數則等待對應時長並完成所有任務;0則是錯誤,但不需要終止任務,可以自定義一些處理。 關鍵點 定義func函數處理需求 callback處理返回結果,只有偶數和0返回;奇數會一直執行;要控制線程池狀態,則需要針對偶數和0時拋出異常,並... ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...