1.問題描述 在excel中生成了一個UTF-8編碼格式的csv文件準備導入資料庫,在notpad++下打開顯示正常,編碼集為UTF-8,通過pl/sql dev導入oracle是出現亂碼,此時初步推斷oracle字元集與本地操作不同導致的亂碼 2.處理過程 2.1 查看ORACLE字元編碼集 se ...
1.問題描述
在excel中生成了一個UTF-8編碼格式的csv文件準備導入資料庫,在notpad++下打開顯示正常,編碼集為UTF-8,通過pl/sql dev導入oracle是出現亂碼,此時初步推斷oracle字元集與本地操作不同導致的亂碼
2.處理過程
2.1 查看ORACLE字元編碼集
select userenv('language') from dual;
此時oracle返回其字元編碼為:SIMPLIFIED CHINESE_CHINA.ZHS16GBK
2.2 添加操作系統對象字元編碼系統變數
在win10中添加如下系統變數
變數名:NLS_LANG
變數值:SIMPLIFIED CHINESE_CHINA.ZHS16GBK
2.3 更改文件字元集
2.3.1 excle
從excle導出的csv文件只能直接導出為utf-8格式,暫未發現有其他方法可以直接導出其他字元編碼類型的csv文件
2.3.2 notpad++
在notpad++中直接通過編碼->轉換為GB2312(notpad++沒有gbk,gbk是GB2312的超集),結果文件出現亂碼,此方法不可行;
在notpad++中新建一個空文件,將其字元編碼集變為gb2312,再將原來csv文件的內容複製過來,發現沒有出現亂碼,且字元編碼集設置成功
2.3.3 sublime
使用sublime 安裝ConvertToUTF8 插件可以實現編碼集轉換
安裝過程:ctr+shift+p打開完成搜索框,輸入install package 打開可安裝插件列表界面,在此界面輸入ConvertToUTF8 可直接安裝該插件
使用方法:打開UTF編碼集的csv文件,點擊file->relaod with encoding,在其中選擇目標字元編碼,這裡我們選中gbk,點擊之後,文件已轉化為gbk編碼,再保存即可
2.3.4 java編寫工具類
1 public void codeChange() throws IOException { 2 String sourceCharset = "utf8"; // 源文件編碼 3 String targetCharset = "gbk"; // 目標文件編碼 4 String newFileName=path.substring(0,path.lastIndexOf("."))+"_"+1+".csv"; 5 File file =new File(path);//源文件 6 FileInputStream fileInputStream=new FileInputStream(file); 7 InputStreamReader inputStreamReader=new InputStreamReader(fileInputStream,sourceCharset); 8 BufferedReader bufferedReader=new BufferedReader(inputStreamReader); 9 File targetFile =new File(newFileName);//目標文件 10 BufferedWriter bufferedWriter=new BufferedWriter(new OutputStreamWriter(new FileOutputStream(targetFile),targetCharset)); 11 String line=null; 12 while((line=bufferedReader.readLine())!=null){ 13 bufferedWriter.write(line); 14 bufferedWriter.newLine(); 15 bufferedWriter.flush(); 16 } 17 bufferedWriter.close(); 18 bufferedReader.close(); 19 }
2.4 註意事項
2.4.1 在利用notpad++或sublime更改字元集時,最好先對文件進行備份,因為 編碼轉化可能是不可逆過程
2.4.2 一般遇到字元編碼不統一,修改一方即可,這裡我們選擇修改操作系統的是因為避免對其他文件造成影響,也可以選擇修改oracle的字元編碼集,但是對資料庫中其他數據會造成影響