基於Python的網頁文檔處理腳本實現

来源:http://www.cnblogs.com/zc110747/archive/2016/12/11/6160813.html
-Advertisement-
Play Games

嵌入式web伺服器不同於傳統伺服器,web需要轉換成數組格式保存在flash中,才方便lwip網路介面的調用,最近因為業務需求,需要頻繁修改網頁,每次的壓縮和轉換就是個很繁瑣的過程,因此我就有了利用所掌握的知識,利用python編寫個能夠批量處理網頁文件,壓縮並轉換成數組的腳本。 腳本運行背景(後續 ...


  嵌入式web伺服器不同於傳統伺服器,web需要轉換成數組格式保存在flash中,才方便lwip網路介面的調用,最近因為業務需求,需要頻繁修改網頁,每次的壓縮和轉換就是個很繁瑣的過程,因此我就有了利用所掌握的知識,利用python編寫個能夠批量處理網頁文件,壓縮並轉換成數組的腳本。

  腳本運行背景(後續版本相容):

      Python 3.5.1(下載、安裝、配置請參考網上教程)

      node.js v4.4.7, 安裝uglifyjs管理包,支持js文件非文本壓縮

      uglifyjs 用來壓縮JS文件的引擎,具體安裝可參考http://www.zhangxinxu.com/wordpress/2013/01/uglifyjs-compress-js/

      具體實現代碼如下:

#/usr/bin/python
import os
import binascii
import shutil 
from functools import partial

def FileReduce(inpath, outpath):
        infp = open(inpath, "r", encoding="utf-8")
        outfp = open(outpath, "w", encoding="utf-8")
        print(outpath+" 壓縮成功")
        for li in infp.readlines():
            if li.split():
                li = li.replace('\n', '').replace('\t', '');
                li = ' '.join(li.split())
                outfp.writelines(li)
        infp.close()
        outfp.close()

#shell命令行調用(用ugllifyjs2來壓縮js文件)
def ShellReduce(inpath, outpath):
    Command = "uglifyjs "+inpath+" -m -o "+outpath
    print(Command)
    os.system(Command)

#將文件以二進位讀取, 並轉化成數組保存
def filehex(inpath, outpath):
    i = 0
    count = 0
    a = ''
    inf = open(inpath, 'rb');
    outf = open(outpath, 'w')
    records = iter(partial(inf.read,1), b'')
    print(outpath + " 轉換成數組成功")
    for r in records:
        r_int = int.from_bytes(r, byteorder='big')  
        a +=  hex(r_int) + ', '
        i += 1
        count += 1
        if i == 16:             
            a += '\n'
            i = 0
    a = "const static char " + outpath.split('.')[0].split('/')[-1] + "["+ str(count) +"]={\n" + a + "\n}\n\n" 
    outf.write(a)
    inf.close()
    outf.close()

#創建一個新文件夾
def mkdir(path):
    path=path.strip()
    isExists=os.path.exists(path)
 
    #判斷文件夾是否存在,不存在則創建
    if not isExists:
        print(path+' 創建成功')
        os.makedirs(path)
    else:
        pass
    return path

#刪除一個文件夾(包含內部所有文件)
def deldir(path):
    path = path.strip()

    isExists=os.path.exists(path)
 
    #判斷文件夾是否存在,存在則刪除
    if isExists:
        print(path + "刪除成功")
        shutil.rmtree(path)
    else:
        pass


def WebProcess(path):
        #原網頁 ..\basic\  
        #壓縮網頁 ..\reduce\
        #編譯完成.c網頁 ..\programe
        BasicPath = path + "\\basic"
        ProgramPath = path + "\\program"
        ReducePath = path + "\\reduce"
        
        #刪除原文件夾,再創建新文件夾
        deldir(ProgramPath)
        deldir(ReducePath)
        mkdir(ProgramPath)
        for root, dirs, files in os.walk(BasicPath):
                for item in files:
                        ext = item.split('.')
                        InFilePath = root + "/" + item
                        OutReducePath = mkdir(root.replace("basic", "reduce")) + "/" + item
                        OutProgramPath = ProgramPath + "/" + item.replace('.', '_') + '.c'
                        
                        #根據尾碼不同進行相應處理
                        #html/css 去除'\n','\t', 空格字元保留1個
                        #js 調用uglifyjs2進行壓縮
                        #gif jpg ico 直接拷貝 
                        #其它 直接拷貝
                        #除其它外,剩餘文件同時轉化成16進位數組, 保存為.c文件
                        if ext[-1] in ["html", "css"]:
                            FileReduce(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        elif ext[-1] in ["js"]:
                            ShellReduce(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        elif ext[-1] in ["gif", "jpg", "ico"]:
                            shutil.copy(InFilePath, OutReducePath)
                            filehex(OutReducePath, OutProgramPath)
                        else:
                            shutil.copy(InFilePath, OutReducePath)

#獲得當前路徑
path = os.path.split(os.path.realpath(__file__))[0];
WebProcess(path)

上述實現的原理主要包含:

1.遍歷待處理文件夾(路徑為..\basic,需要用戶創建,並將處理文件複製到其中,並將腳本放置到該文件夾上一層)--WebProcess

2.創建壓縮頁面文件夾(..\reduce, 用於存儲壓縮後文件), 由腳本完成,處理動作:

 html, css: 刪除文本中的多餘空格,換行符

   js:調用uglifyjs進行壓縮處理

   gif, jpg, ico和其它: 直接進行複製處理

3.創建處理頁面文件夾(..\program, 用於存儲壓縮後文件), 由腳本完成,處理動作:

 以二進位模式讀取文件,並轉換成16進位字元串寫入到該文件夾中

在文件夾下(shift+滑鼠右鍵)啟用windows命令行,並輸入python web.py, 就可以通過迴圈重覆這三個過程就可以完成所有文件的處理。

特別註意:所有處理的文件需要以utf-8格式存儲,否則讀取時會報"gbk"讀取錯誤。

實現效果如下圖

html文件:

轉換數組:

示例可參考:

http://files.cnblogs.com/files/zc110747/webreduce.7z

另外附送一個小的腳本,查詢當前目錄及子文件夾下選定代碼行數和空行數(算是寫這個腳本測試時衍生出來的):

#/usr/bin/python
import os

total_count = 0; 
empty_count = 0;

def CountLine(path):
        global total_count
        global empty_count
        tempfile = open(path)
        for lines in tempfile:
                total_count += 1
                if len(lines.strip()) == 0:
                       empty_count += 1
 
def TotalLine(path):
        for root, dirs, files in os.walk(path):
                for item in files:
                        ext = item.split('.')
                        ext = ext[-1]  
                        if(ext in ["cpp", "c", "h", "java", "php"]):
                                subpath = root + "/" + item
                                CountLine(subpath)

path = os.path.split(os.path.realpath(__file__))[0];
TotalLine(path)
print("Input Path:", path)
print("total lines: ",total_count)
print("empty lines: ",empty_count)
print("code lines: ", (total_count-empty_count))

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 文件的併發寫入問題,需要用到線程同步。而微軟也給進程同步提供了一些相關的類可以達到這樣的目的,本文使用到的 System.Threading.ReaderWriterLockSlim 便是其中之一,該類用於管理資源訪問的鎖定狀態,可實現多線程讀取或進行獨占式寫入訪問。利用這個類,我們就可以避免在同一... ...
  • Session 是保存用戶和 Web 應用的會話狀態的一種方法,ASP.NET Core 提供了一個用於管理會話狀態的中間件。在本文中我將會簡單介紹一下 ASP.NET Core 中的 Session 的使用方法。 安裝配置 Session 在 project.json 添加引用 Microsoft ...
  • 1.DbContext怎麼在Asp.mvc中使用? 這麼定義之後,所有需要用到DbContext對象的地方,都調這個方法。 2. 不要隨便using或Dispose DbContext會導致延遲載入的不可用,還會有一些其他錯誤 如IQueryable<T> 下麵的方法(.First() /.Coun ...
  • 從此刻開始,我已封閉!概不接客! 像風一樣的男人,像風一樣的性格,無拘無束,不拘一格。那麼問題來了,當風遇到沙,不一定你是風兒,我是沙兒的纏纏綿綿,。也許是漫天黃沙,飛粒走石。如果我們期望擒住這漫天的塵埃,必須有強有力的手臂!那麼曬網、撒網、收網!讓他老實的封閉起來吧,永遠相依偎,阿拉! 讀在最前面 ...
  • 最終的解決方案是:https://github.com/liuyunzhuge/php_weixin_provider,詳細的介紹請往下閱讀。 本文面向的是php語言laravel框架的用戶,介紹的是基於該框架實現的一個簡易集成微信登錄的方法。使用方法如下: 1. 安裝php_weixin_prov ...
  • 今日問題: 請問主程式中輸出結果是什麼?(點擊以下“【Java每日一題】20161212”查看20161209問題解析) 題目原發佈於公眾號、簡書:【Java每日一題】20161212,【Java每日一題】20161212 ...
  • 關於springMVC中的session,有2種使用方法,第一種是直接傳遞httpsession,第二種是使用@SessionAttributes("userId") 註解 這裡附帶一個帖子,別人寫的特別好,是我看過的覺得最好的:http://www.cnblogs.com/waytofall/p/ ...
  • 需求 加入我們需要處理一串個位數(0~9),奇數時需要迴圈列印它;偶數則等待對應時長並完成所有任務;0則是錯誤,但不需要終止任務,可以自定義一些處理。 關鍵點 定義func函數處理需求 callback處理返回結果,只有偶數和0返回;奇數會一直執行;要控制線程池狀態,則需要針對偶數和0時拋出異常,並... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...