EntityUtils.toString(entity)處理字元集問題解決

-Advertisement-

爬取51Job和獵聘網的信息，想處理字元集問題（51job為gbk，獵聘為utf-8），找到兩個網站字元集信息都在同一標簽下就想先把網頁保存成String，解析一遍獲取字元集，然後將網頁轉換成對應的正確的字元集，最後再轉換成統一的字元集utf-8 1.0實現，2次調用Entity.Utils.t ...

爬取51Job和獵聘網的信息，想處理字元集問題（51job為gbk，獵聘為utf-8），

找到兩個網站字元集信息都在同一標簽下

就想先把網頁保存成String，解析一遍獲取字元集，然後將網頁轉換成對應的正確的字元集，最後再轉換成統一的字元集utf-8

1.0實現，2次調用Entity.Utils.toString方法

CloseableHttpResponse httpResponse = httpClient.execute(httpGet);
            if(httpResponse.getStatusLine().getStatusCode() == 200) {
                //網站轉為String
                String get_Charset_Entity2String = EntityUtils.toString(httpResponse.getEntity());
                //解析
                Document get_Charset_Document = Jsoup.parse(get_Charset_Entity2String);
                //字元集信息提取，51job和獵聘
                String charset = get_Charset_Document.select("meta[http-equiv=Content-Type]")
                        .attr("content").split("=")[1];
                System.out.println(charset);
                //根據字元集重新編碼成正確的
                String Ori_Entity = EntityUtils.toString(httpResponse.getEntity(),charset);
                //轉換為統一的utf-8
                String entity = new String(Ori_Entity.getBytes(),"utf-8");
                System.out.println(entity);
　　　　　　　　{

報錯

參考 https://blog.csdn.net/qq_23145857/article/details/70213277

發現EntityUtils流只存在一次，但是有不想一個網頁要連接兩次，

這難不倒我，直接轉換原來保留的String

2.0實現，第二次不使用EntityUtils

CloseableHttpResponse httpResponse = httpClient.execute(httpGet);
            if(httpResponse.getStatusLine().getStatusCode() == 200) {
                //網站轉為String
                String get_Charset_Entity2String = EntityUtils.toString(httpResponse.getEntity());
                //解析
                Document get_Charset_Document = Jsoup.parse(get_Charset_Entity2String);
                //字元集信息提取，51job和獵聘
                String charset = get_Charset_Document.select("meta[http-equiv=Content-Type]")
                        .attr("content").split("=")[1];
                System.out.println(charset);
                //根據字元集重新編碼成正確的，不用EntityUtils，直接轉get_Charset_Entity2String
                String Ori_Entity = new String(get_Charset_Entity2String.getBytes(), charset);
                //轉換為統一的utf-8
                String entity = new String(Ori_Entity.getBytes(),"utf-8");
                System.out.println(entity);
　　　　　　　　{

輸出：

字元集依舊有問題,發現不指定字元集，EntityUtils.toString()就用"ISO-8859-1"字元集,可我就是不知道字元集

看到參考鏈接下麵的解決辦法，眼前一亮，把流直接以位數組保存，都能靈活變換

3.0實現，不使用EntityUtils.toString，改用EntityUtils.toByteArray()　　　　　　　　

CloseableHttpResponse httpResponse = httpClient.execute(httpGet);
            if(httpResponse.getStatusLine().getStatusCode() == 200) {
　　　　　　　　　　//網站轉換為byte[]
                byte[] bytes = EntityUtils.toByteArray(httpResponse.getEntity());
                //byte列表轉為預設字元集
                String get_Charset_Entity2String = new String(bytes);
                //解析
                Document get_Charset_Document = Jsoup.parse(get_Charset_Entity2String);
                //字元集信息提取，51job和獵聘
                String charset = get_Charset_Document.select("meta[http-equiv=Content-Type]")
                        .attr("content").split("=")[1];
                System.out.println(charset);
                //根據字元集重新編碼成正確的
                String Ori_Entity = new String(bytes, charset);
                //轉換為統一的utf-8
                String entity = new String(Ori_Entity.getBytes(), "utf-8");
                System.out.println(entity);
　　　　　　　　}

對於裡面的預設字元集

參考：https://blog.csdn.net/wangxin1949/article/details/78974037

1、如果使用了eclipse，由java文件的編碼決定
2、如果沒有使用eclipse，則有本地電腦語言環境決定，中國的都是預設GBK編碼，

只要沒有改變英文的編碼，就沒有影響，只要能從標簽里提取出charset字元集就可以轉換成正確的

輸出正常

換成獵聘的url再嘗試

完美，爬蟲的字元集真神奇

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Taro多端自定義導航欄Navbar+Tabbar實例

運用Taro實現多端導航欄/tabbar實例 (H5 + 小程式 + React Native) 最近一直在搗鼓taro開發，雖說官網介紹支持編譯到多端，但是網上大多數實例都是H5、小程式，很少有支持RN端。恰好Taro是基於React技術，想著之前也做過一些react項目，如是抱著好奇深究了一番， ...
JS基礎語法---函數練習part1---5個練習

練習1：求兩個數字的和:獲取任意的兩個數字的和 function getSum(x, y) { return x + y; } console.log(getSum(10, 20)); 練習2：求1-100之間所有的數字的和 function geteverySum() { var sum = 0; ...
H5 移動端鍵盤遮擋焦點元素解決方案

前言最近在做 webapp，遇到了很多移動端相容的問題，其中一個問題就是：輸入框觸發 focus 後，鍵盤彈出，然後遮住了輸入框。然後在和`IOS`上，這個問題的表現形式不一樣，而原生鍵盤和第三方鍵盤也不一樣，但引起的問題都是一樣的：輸入框被遮住了。需要的效果在鍵盤彈出時，獲得焦點的輸入框 ...
CSS3/CSS之居中解析（水平+垂直居中、水平居中，垂直居中）

首先，我們來看下垂直居中：（1）、如果是單行文本，則可以設置的line-height的數值，讓其等於父級元素的高度！ <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" conte ...
js 關於apply和call的理解使用

關於call和apply，以前也思考良久，很多時候都以為記住了，但是，我太難了。今天我特地寫下筆記，希望可以完全掌握這個東西，也希望可以幫助到任何想對學習這個東西的同學。一.apply函數定義與理解，先從apply函數出發在MDN上，apply的定義是： “apply()方法調用一個具有給定th ...
Promise簡單使用，需要在ES6以上

下麵代碼中，setTimeout(fn, 0)在下一輪“事件迴圈”開始時執行，Promise.resolve()在本輪“事件迴圈”結束時執行，console.log('one')則是立即執行，因此最先輸出。下麵代碼中，setTimeout(fn, 0)在下一輪“事件迴圈”開始時執行，Promise ...
慕課網實戰班就業班 2019年11月26號更新資料整理 300套只讀模式打開

慕課網實戰班就業班 2019年11月26號更新資料整理 300套只讀模式打開百度網盤資料鏈接：鏈接：https://pan.baidu.com/s/1oCq9pOhVYnbg1N0MJQp6Iw提取碼：wsds複製這段內容後打開百度網盤手機App，操作更方便哦微雲鏈接： https:/ ...
簡單的學習，實現，領域事件，事件存儲，事件溯源

為什麼寫這篇文章自己以前都走了彎路，以為學習戰術設計就會DDD了，其實DDD的精華在戰略設計，但是對於我們菜鳥來說，學習一些技術概念也是挺好的經常看到這些術語，概念太多，也想簡單學習一下，記憶力比較差記錄一下實現的細節領域事件 1.領域事件是過去發生的與業務有關的事實，一但發生就不可更改，所以 ...