每行文本分為多個小段相互對齊,以及編碼中的小問題

来源:http://www.cnblogs.com/changshanfeilong/archive/2017/09/28/7608425.html
-Advertisement-
Play Games

記錄英語單詞時,想把英語和中文翻譯分別對齊,有些人寫代碼喜歡把變數按這種方式對齊。在網上沒搜到相關方法,於是自己試著寫代碼去實現,原本以為很簡單,寫的時候才發現有不少問題。先看效果: 普通的 對齊前: 對齊後: 發揮點創意 對齊前: 對齊後: 實現 實現的思路比較簡單,讀取文本文件,按正則分割,找出 ...


記錄英語單詞時,想把英語和中文翻譯分別對齊,有些人寫代碼喜歡把變數按這種方式對齊。在網上沒搜到相關方法,於是自己試著寫代碼去實現,原本以為很簡單,寫的時候才發現有不少問題。先看效果:

普通的

對齊前:

對齊後:

發揮點創意

對齊前:

對齊後:

 

實現

實現的思路比較簡單,讀取文本文件,按正則分割,找出最長的部分,補齊空格,輸出。

看起來相當簡單,花了一個多小時,就寫出來了,馬上運行,發現輸出一團糟,去數每個部分的字元數,個數是一樣的,網上一搜,原來跟字體有關係,好吧,那換個等寬的字體。換好字體後有些地方已經對齊了,有些地方還是沒對齊,發現是中文的問題,中文寬度與英文寬度不相同,於是首先根據正則去判斷字元是中文還是英文,然後自己實現計算字元長度的方法,在判斷中文字元上折騰了許久,因為標點符號等等都要考慮進去,反正是來來回回試了好久,對Unicode編碼範圍不熟悉,沒辦法。終於,好像都搞定了,反覆測試,突然發現第一行的對齊少了一個空格,尼瑪,這是怎麼回事啊,Debug發現第一行的最開始有一個奇怪的字元"\uFEFF",這他媽是什麼鬼,上網搜,發現是Unicode編碼的什麼鬼BOM頭,好吧,不管它是什麼鬼,直接把它去掉了……

反正是遇到了各種各樣的問題,越到後面心裡越沒底了,與字元集相關的問題實在是太頭疼了,而且我根本就沒去處理編碼的問題,所以文本的編碼需要和IDE的編碼保持一致,否則就會產生亂碼。我也就這樣算了,以下是JAVA代碼實現。

源碼

因為看過《重構》和《代碼整潔之道》,寫代碼時時刻想著要寫乾凈點,擴展性強點,經過反覆修改,最終自己覺得還行吧,當然,肯定有不少值得改進的地方,現在就這樣吧。

App.java

package textalign;

import java.io.IOException;

/**
 * @author tingl
 * @version 2017/9/27
 */
public class App {

    public static void main(String[] args) {
        long start = System.currentTimeMillis();

        String filePath = "C:\\Users\\tingl\\Desktop\\Test2.txt";
        TextAlign textAlign = new TextAlign(/*",|。|,|[.]|( {2,})|\t| +"*/);

        if (args.length > 0) {
            filePath = args[0];
        }
        try {
            textAlign.align(filePath);
        } catch (IOException e) {
            e.printStackTrace();
        }

        System.out.println(System.currentTimeMillis() - start);
    }
}

TextAlign.java

package textalign;

import java.io.IOException;
import java.util.List;
import java.util.regex.Pattern;

/**
 * @author tingl
 * @version 2017/9/27
 */
public class TextAlign {
    private static final String CHINESE_CHARACTER = "[\u4e00-\u9fa5]|[\uFE30-\uFFA0]|[\u3000-\u303F]";
    private static final Pattern CHINESE_CHARACTER_PATTERN = Pattern.compile(CHINESE_CHARACTER);
    private static final int SEPARATE_SPACE_AMOUNT = 4;

    private TextAlignFileUtil textAlignFileUtil;
    private List<String[]> textLines;
    private int[] longestBlockLengths;

    public TextAlign() {
        textAlignFileUtil = new TextAlignFileUtil();
    }

    public TextAlign(String spiltRegex) {
        textAlignFileUtil = new TextAlignFileUtil(spiltRegex);
    }

    public void align(String filePath) throws IOException {
        textLines = textAlignFileUtil.readToList(filePath);
        initLongestBlockLengths();
        fillTextLinesBySpaces();
        textAlignFileUtil.write();
    }

    private void initLongestBlockLengths() {
        int longestArrayLength = 0;
        for (String[] blocks : textLines) {
            if (blocks.length > longestArrayLength) {
                longestArrayLength = blocks.length;
            }
        }
        longestBlockLengths = new int[longestArrayLength];
        fillLongestBlockLengths();
    }

    private void fillLongestBlockLengths() {
        for (String[] blocks : textLines) {
            if (blocks.length < 2) continue;
            for (int i = 0; i < blocks.length; i++) {
                int length = stringLengthFitWidth(blocks[i]);
                if (length > longestBlockLengths[i]) {
                    longestBlockLengths[i] = length;
                }
            }
        }
    }

    private int stringLengthFitWidth(String s) {
        if (!CHINESE_CHARACTER_PATTERN.matcher(s).find()) {
            return s.length();
        }
        int length = 0;
        for (String c : s.split("")) {
            if (CHINESE_CHARACTER_PATTERN.matcher(c).find()) {
                length++;
            }
            length++;
        }
        return length;
    }

    private void fillTextLinesBySpaces() {
        for (String[] blocks : textLines) {
            for (int i = 0; i < blocks.length - 1; i++) {
                String block = blocks[i];
                int spaceAmount = longestBlockLengths[i] - stringLengthFitWidth(block) + SEPARATE_SPACE_AMOUNT;
                blocks[i] = block + spaces(spaceAmount);
            }
        }
    }

    private String spaces(int spaceAmount) {
        StringBuilder spaces = new StringBuilder();
        for (int i = 0; i < spaceAmount; i++) {
            spaces.append(" ");
        }
        return spaces.toString();
    }
}

 

TextAlignFileUtil.java

package textalign;

import java.io.*;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

/**
 * @author tingl
 * @version 2017/9/27
 */
class TextAlignFileUtil {
    private static final String FILENAME_POSTFIX = "_aligned";
    private String spiltRegex = "( {2,})|\t";
    private List<String[]> textLines;
    private String outPath;

    TextAlignFileUtil() {
    }

    TextAlignFileUtil(String spiltRegex) {
        this.spiltRegex = spiltRegex;
    }

    List<String[]> readToList(String path) throws IOException {
        File file = new File(path);
        return readToList(file);
    }

    private List<String[]> readToList(File file) throws IOException {
        getOutPath(file.getAbsolutePath());
        BufferedReader reader = new BufferedReader(new FileReader(file));
        textLines = new ArrayList<>();
        String line;
        while ((line = reader.readLine()) != null) {
            textLines.add(removeEmptyAndTrim(line.split(spiltRegex)));
        }
        reader.close();
        removeBomHead();
        return textLines;
    }

    private void getOutPath(String srcPath) {
        int dotPosition = srcPath.lastIndexOf(".");
        outPath = srcPath.substring(0, dotPosition) + FILENAME_POSTFIX + srcPath.substring(dotPosition);
        if (new File(outPath).exists()) {
            getOutPath(outPath);
        }
    }

    private String[] removeEmptyAndTrim(String[] src) {
        for (int i = 0; i < src.length; i++) {
            src[i] = src[i].trim();
        }

        List<String> dest = new ArrayList<>(Arrays.asList(src));
        dest.removeIf(String::isEmpty);
        return dest.toArray(new String[0]);
    }

    private void removeBomHead() {
        String[] blocks = textLines.get(0);
        blocks[0] = blocks[0].replace("\uFEFF", "");
    }

    void write() throws IOException {
        BufferedWriter writer = new BufferedWriter(new FileWriter(outPath));
        for (String[] blocks : textLines) {
            writer.write(getLine(blocks));
            writer.newLine();
            writer.flush();
        }
        writer.close();
    }

    private String getLine(String[] blocks) {
        StringBuilder sb = new StringBuilder();
        for (String block : blocks) {
            sb.append(block);
        }
        return sb.toString();
    }
}


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近燃料公司門戶做了一個待辦的彙總,從三個數據源拿數據彙總到首頁,這三個數據源分別是域認證的介面,域認證的webservices,證書加密的介面,下麵就這些介面,做一下簡單總結 1 pfx證書的探索過程 0.1 提供的代碼 1.1 pfx 百度百科對pfx的解釋是: 公鑰加密技術12號標準。 公鑰加 ...
  • 第6章 函數 ...
  • 1. 投票主頁面: 2.處理投票頁面: 3. 建立訪問資料庫的類,封裝用於引用: ...
  • 【題目描述】有個人的家族很大,輩分關係很混亂,請你幫整理一下這種關係。給出每個人的孩子的信息。輸入一個序列,使得每個人的後輩都比那個人後列出。 【輸入】第一行一個整數(1<=N<=100),表示家族的人數。接下來N行,第I行表示第I個人的兒子。每行最後是0表示描述完畢。 【輸出】輸出一個序列,使得每 ...
  • 1.重定向是什麼? 這裡說的重定向是由http協議規定的一種機制。其工作流程如下所述。 (1)客戶端發起http請求,訪問伺服器端組件。 (2)伺服器端返回一個狀態代碼為302的響應結果。該代碼的意思是讓瀏覽器再訪問另一個組件,響應結果中包含著訪問新組件的url地址。新的訪問組件可能在同一個應用中也 ...
  • 因為要在maven上搭建項目因此研究了一下,下麵來講講我搭建maven項目的過程。 一、下載maven 點擊進入http://maven.apache.org/download.cgi?Preferred=http%3A%2F%2Fmirror.bit.edu.cn%2Fapache%2F,點擊ap ...
  • 一個項目中需要使用兩個資料庫,Oracle 和Mysql ,於是參考各個blog,實現此功能.寫好後才發現,原來的事務失效了,我去... spring-mybatis.xml 配置 @Documented @Retention(RetentionPolicy.RUNTIME) @Target({El ...
  • Split String 描述 筆記 數據 評測 Give a string, you can choose to split the string after one character or two adjacent characters, and make the string to be c ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...