每行文本分為多個小段相互對齊,以及編碼中的小問題

来源:http://www.cnblogs.com/changshanfeilong/archive/2017/09/28/7608425.html
-Advertisement-
Play Games

記錄英語單詞時,想把英語和中文翻譯分別對齊,有些人寫代碼喜歡把變數按這種方式對齊。在網上沒搜到相關方法,於是自己試著寫代碼去實現,原本以為很簡單,寫的時候才發現有不少問題。先看效果: 普通的 對齊前: 對齊後: 發揮點創意 對齊前: 對齊後: 實現 實現的思路比較簡單,讀取文本文件,按正則分割,找出 ...


記錄英語單詞時,想把英語和中文翻譯分別對齊,有些人寫代碼喜歡把變數按這種方式對齊。在網上沒搜到相關方法,於是自己試著寫代碼去實現,原本以為很簡單,寫的時候才發現有不少問題。先看效果:

普通的

對齊前:

對齊後:

發揮點創意

對齊前:

對齊後:

 

實現

實現的思路比較簡單,讀取文本文件,按正則分割,找出最長的部分,補齊空格,輸出。

看起來相當簡單,花了一個多小時,就寫出來了,馬上運行,發現輸出一團糟,去數每個部分的字元數,個數是一樣的,網上一搜,原來跟字體有關係,好吧,那換個等寬的字體。換好字體後有些地方已經對齊了,有些地方還是沒對齊,發現是中文的問題,中文寬度與英文寬度不相同,於是首先根據正則去判斷字元是中文還是英文,然後自己實現計算字元長度的方法,在判斷中文字元上折騰了許久,因為標點符號等等都要考慮進去,反正是來來回回試了好久,對Unicode編碼範圍不熟悉,沒辦法。終於,好像都搞定了,反覆測試,突然發現第一行的對齊少了一個空格,尼瑪,這是怎麼回事啊,Debug發現第一行的最開始有一個奇怪的字元"\uFEFF",這他媽是什麼鬼,上網搜,發現是Unicode編碼的什麼鬼BOM頭,好吧,不管它是什麼鬼,直接把它去掉了……

反正是遇到了各種各樣的問題,越到後面心裡越沒底了,與字元集相關的問題實在是太頭疼了,而且我根本就沒去處理編碼的問題,所以文本的編碼需要和IDE的編碼保持一致,否則就會產生亂碼。我也就這樣算了,以下是JAVA代碼實現。

源碼

因為看過《重構》和《代碼整潔之道》,寫代碼時時刻想著要寫乾凈點,擴展性強點,經過反覆修改,最終自己覺得還行吧,當然,肯定有不少值得改進的地方,現在就這樣吧。

App.java

package textalign;

import java.io.IOException;

/**
 * @author tingl
 * @version 2017/9/27
 */
public class App {

    public static void main(String[] args) {
        long start = System.currentTimeMillis();

        String filePath = "C:\\Users\\tingl\\Desktop\\Test2.txt";
        TextAlign textAlign = new TextAlign(/*",|。|,|[.]|( {2,})|\t| +"*/);

        if (args.length > 0) {
            filePath = args[0];
        }
        try {
            textAlign.align(filePath);
        } catch (IOException e) {
            e.printStackTrace();
        }

        System.out.println(System.currentTimeMillis() - start);
    }
}

TextAlign.java

package textalign;

import java.io.IOException;
import java.util.List;
import java.util.regex.Pattern;

/**
 * @author tingl
 * @version 2017/9/27
 */
public class TextAlign {
    private static final String CHINESE_CHARACTER = "[\u4e00-\u9fa5]|[\uFE30-\uFFA0]|[\u3000-\u303F]";
    private static final Pattern CHINESE_CHARACTER_PATTERN = Pattern.compile(CHINESE_CHARACTER);
    private static final int SEPARATE_SPACE_AMOUNT = 4;

    private TextAlignFileUtil textAlignFileUtil;
    private List<String[]> textLines;
    private int[] longestBlockLengths;

    public TextAlign() {
        textAlignFileUtil = new TextAlignFileUtil();
    }

    public TextAlign(String spiltRegex) {
        textAlignFileUtil = new TextAlignFileUtil(spiltRegex);
    }

    public void align(String filePath) throws IOException {
        textLines = textAlignFileUtil.readToList(filePath);
        initLongestBlockLengths();
        fillTextLinesBySpaces();
        textAlignFileUtil.write();
    }

    private void initLongestBlockLengths() {
        int longestArrayLength = 0;
        for (String[] blocks : textLines) {
            if (blocks.length > longestArrayLength) {
                longestArrayLength = blocks.length;
            }
        }
        longestBlockLengths = new int[longestArrayLength];
        fillLongestBlockLengths();
    }

    private void fillLongestBlockLengths() {
        for (String[] blocks : textLines) {
            if (blocks.length < 2) continue;
            for (int i = 0; i < blocks.length; i++) {
                int length = stringLengthFitWidth(blocks[i]);
                if (length > longestBlockLengths[i]) {
                    longestBlockLengths[i] = length;
                }
            }
        }
    }

    private int stringLengthFitWidth(String s) {
        if (!CHINESE_CHARACTER_PATTERN.matcher(s).find()) {
            return s.length();
        }
        int length = 0;
        for (String c : s.split("")) {
            if (CHINESE_CHARACTER_PATTERN.matcher(c).find()) {
                length++;
            }
            length++;
        }
        return length;
    }

    private void fillTextLinesBySpaces() {
        for (String[] blocks : textLines) {
            for (int i = 0; i < blocks.length - 1; i++) {
                String block = blocks[i];
                int spaceAmount = longestBlockLengths[i] - stringLengthFitWidth(block) + SEPARATE_SPACE_AMOUNT;
                blocks[i] = block + spaces(spaceAmount);
            }
        }
    }

    private String spaces(int spaceAmount) {
        StringBuilder spaces = new StringBuilder();
        for (int i = 0; i < spaceAmount; i++) {
            spaces.append(" ");
        }
        return spaces.toString();
    }
}

 

TextAlignFileUtil.java

package textalign;

import java.io.*;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;

/**
 * @author tingl
 * @version 2017/9/27
 */
class TextAlignFileUtil {
    private static final String FILENAME_POSTFIX = "_aligned";
    private String spiltRegex = "( {2,})|\t";
    private List<String[]> textLines;
    private String outPath;

    TextAlignFileUtil() {
    }

    TextAlignFileUtil(String spiltRegex) {
        this.spiltRegex = spiltRegex;
    }

    List<String[]> readToList(String path) throws IOException {
        File file = new File(path);
        return readToList(file);
    }

    private List<String[]> readToList(File file) throws IOException {
        getOutPath(file.getAbsolutePath());
        BufferedReader reader = new BufferedReader(new FileReader(file));
        textLines = new ArrayList<>();
        String line;
        while ((line = reader.readLine()) != null) {
            textLines.add(removeEmptyAndTrim(line.split(spiltRegex)));
        }
        reader.close();
        removeBomHead();
        return textLines;
    }

    private void getOutPath(String srcPath) {
        int dotPosition = srcPath.lastIndexOf(".");
        outPath = srcPath.substring(0, dotPosition) + FILENAME_POSTFIX + srcPath.substring(dotPosition);
        if (new File(outPath).exists()) {
            getOutPath(outPath);
        }
    }

    private String[] removeEmptyAndTrim(String[] src) {
        for (int i = 0; i < src.length; i++) {
            src[i] = src[i].trim();
        }

        List<String> dest = new ArrayList<>(Arrays.asList(src));
        dest.removeIf(String::isEmpty);
        return dest.toArray(new String[0]);
    }

    private void removeBomHead() {
        String[] blocks = textLines.get(0);
        blocks[0] = blocks[0].replace("\uFEFF", "");
    }

    void write() throws IOException {
        BufferedWriter writer = new BufferedWriter(new FileWriter(outPath));
        for (String[] blocks : textLines) {
            writer.write(getLine(blocks));
            writer.newLine();
            writer.flush();
        }
        writer.close();
    }

    private String getLine(String[] blocks) {
        StringBuilder sb = new StringBuilder();
        for (String block : blocks) {
            sb.append(block);
        }
        return sb.toString();
    }
}


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 最近燃料公司門戶做了一個待辦的彙總,從三個數據源拿數據彙總到首頁,這三個數據源分別是域認證的介面,域認證的webservices,證書加密的介面,下麵就這些介面,做一下簡單總結 1 pfx證書的探索過程 0.1 提供的代碼 1.1 pfx 百度百科對pfx的解釋是: 公鑰加密技術12號標準。 公鑰加 ...
  • 第6章 函數 ...
  • 1. 投票主頁面: 2.處理投票頁面: 3. 建立訪問資料庫的類,封裝用於引用: ...
  • 【題目描述】有個人的家族很大,輩分關係很混亂,請你幫整理一下這種關係。給出每個人的孩子的信息。輸入一個序列,使得每個人的後輩都比那個人後列出。 【輸入】第一行一個整數(1<=N<=100),表示家族的人數。接下來N行,第I行表示第I個人的兒子。每行最後是0表示描述完畢。 【輸出】輸出一個序列,使得每 ...
  • 1.重定向是什麼? 這裡說的重定向是由http協議規定的一種機制。其工作流程如下所述。 (1)客戶端發起http請求,訪問伺服器端組件。 (2)伺服器端返回一個狀態代碼為302的響應結果。該代碼的意思是讓瀏覽器再訪問另一個組件,響應結果中包含著訪問新組件的url地址。新的訪問組件可能在同一個應用中也 ...
  • 因為要在maven上搭建項目因此研究了一下,下麵來講講我搭建maven項目的過程。 一、下載maven 點擊進入http://maven.apache.org/download.cgi?Preferred=http%3A%2F%2Fmirror.bit.edu.cn%2Fapache%2F,點擊ap ...
  • 一個項目中需要使用兩個資料庫,Oracle 和Mysql ,於是參考各個blog,實現此功能.寫好後才發現,原來的事務失效了,我去... spring-mybatis.xml 配置 @Documented @Retention(RetentionPolicy.RUNTIME) @Target({El ...
  • Split String 描述 筆記 數據 評測 Give a string, you can choose to split the string after one character or two adjacent characters, and make the string to be c ...
一周排行
    -Advertisement-
    Play Games
  • 前言 本文介紹一款使用 C# 與 WPF 開發的音頻播放器,其界面簡潔大方,操作體驗流暢。該播放器支持多種音頻格式(如 MP4、WMA、OGG、FLAC 等),並具備標記、實時歌詞顯示等功能。 另外,還支持換膚及多語言(中英文)切換。核心音頻處理採用 FFmpeg 組件,獲得了廣泛認可,目前 Git ...
  • OAuth2.0授權驗證-gitee授權碼模式 本文主要介紹如何筆者自己是如何使用gitee提供的OAuth2.0協議完成授權驗證並登錄到自己的系統,完整模式如圖 1、創建應用 打開gitee個人中心->第三方應用->創建應用 創建應用後在我的應用界面,查看已創建應用的Client ID和Clien ...
  • 解決了這個問題:《winForm下,fastReport.net 從.net framework 升級到.net5遇到的錯誤“Operation is not supported on this platform.”》 本文內容轉載自:https://www.fcnsoft.com/Home/Sho ...
  • 國內文章 WPF 從裸 Win 32 的 WM_Pointer 消息獲取觸摸點繪製筆跡 https://www.cnblogs.com/lindexi/p/18390983 本文將告訴大家如何在 WPF 裡面,接收裸 Win 32 的 WM_Pointer 消息,從消息裡面獲取觸摸點信息,使用觸摸點 ...
  • 前言 給大家推薦一個專為新零售快消行業打造了一套高效的進銷存管理系統。 系統不僅具備強大的庫存管理功能,還集成了高性能的輕量級 POS 解決方案,確保頁面載入速度極快,提供良好的用戶體驗。 項目介紹 Dorisoy.POS 是一款基於 .NET 7 和 Angular 4 開發的新零售快消進銷存管理 ...
  • ABP CLI常用的代碼分享 一、確保環境配置正確 安裝.NET CLI: ABP CLI是基於.NET Core或.NET 5/6/7等更高版本構建的,因此首先需要在你的開發環境中安裝.NET CLI。這可以通過訪問Microsoft官網下載並安裝相應版本的.NET SDK來實現。 安裝ABP ...
  • 問題 問題是這樣的:第三方的webapi,需要先調用登陸介面獲取Cookie,訪問其它介面時攜帶Cookie信息。 但使用HttpClient類調用登陸介面,返回的Headers中沒有找到Cookie信息。 分析 首先,使用Postman測試該登陸介面,正常返回Cookie信息,說明是HttpCli ...
  • 國內文章 關於.NET在中國為什麼工資低的分析 https://www.cnblogs.com/thinkingmore/p/18406244 .NET在中國開發者的薪資偏低,主要因市場需求、技術棧選擇和企業文化等因素所致。歷史上,.NET曾因微軟的閉源策略發展受限,儘管後來推出了跨平臺的.NET ...
  • 在WPF開發應用中,動畫不僅可以引起用戶的註意與興趣,而且還使軟體更加便於使用。前面幾篇文章講解了畫筆(Brush),形狀(Shape),幾何圖形(Geometry),變換(Transform)等相關內容,今天繼續講解動畫相關內容和知識點,僅供學習分享使用,如有不足之處,還請指正。 ...
  • 什麼是委托? 委托可以說是把一個方法代入另一個方法執行,相當於指向函數的指針;事件就相當於保存委托的數組; 1.實例化委托的方式: 方式1:通過new創建實例: public delegate void ShowDelegate(); 或者 public delegate string ShowDe ...