hive筆記:轉義字元的使用

来源:https://www.cnblogs.com/sonia0087/archive/2018/11/02/9897718.html
-Advertisement-
Play Games

hive中的轉義符 Hadoop和Hive都是用UTF-8編碼的,所以, 所有中文必須是UTF-8編碼, 才能正常使用 備註:中文數據load到表裡面, 如果字元集不同,很有可能全是亂碼需要做轉碼的, 但是hive本身沒有函數來做這個 一、轉義字元的特殊情況: 自身的轉義,比如java有時候需要兩個 ...


hive中的轉義符

Hadoop和Hive都是用UTF-8編碼的,所以, 所有中文必須是UTF-8編碼, 才能正常使用

備註:中文數據load到表裡面, 如果字元集不同,很有可能全是亂碼需要做轉碼的, 但是hive本身沒有函數來做這個

一、轉義字元的特殊情況:

自身的轉義,比如java有時候需要兩個轉義字元"\\",或者四個轉義字元“\\\\”。

1)java的倆種情況:

a.正則表達式匹配和string的split函數,這兩種情況中字元串包含轉義字元“\”時,需要先對轉義字元自身轉義,就是說需要兩個轉義字元“\\”。比如\n,\t等(java解析後,再有正則和split自身特定進行解析)

b.而當匹配字元正斜線“\”,則需要四個轉義字元“\\\\”,因為,首先java(編譯器?)自身先解析,轉義成兩個“\\”,再由正則或split的解析功能轉義成一個“\”,才是最終要處理的字元。

這是因為解析過程需要兩次,才能在字元串中出現正斜線“\”,出現後才能轉義後面的字元。

2)hive中的split和正則表達式

hive用java寫的,所以同Java一樣,兩種情況也需要兩個“\\”,

split處理代碼為例:

a.split(dealid,'\\\\')[0] as dealids,1: 代碼中,如果以“\”作為分隔符的話,那麼就需要4個轉義字元“\\\\”,即

b.split(all,'~') :這裡切分符號是正則表達式,按一個字元分隔沒問題 

c. split(all,'[|~]+'): 在[]內部拼接成字元串

3hive語句在shell腳本中執行 

shell語言也有轉義字元,自身直接處理。 
而hive語句在shell腳本中執行時,就需要先由shell轉義後,再由hive處理。這個過程又造成二次轉義。 
如上面的hive語句寫入shell腳本中,執行是錯誤的,shell先解析,轉義成”|“後傳給hive,hive解析這個轉義字元後,split就無法正確的解析了。 
所以,註意hive語句在shell腳本執行時,轉義字元需要翻倍。hive處理的是shell轉義後的語句,必須轉以後正確,才能執行。

註意:是否使用轉義字元是看這個字元在這個語言中有沒有特殊意義,有的話,就需要加上\來進行轉義、

 

轉義字元的使用:

轉義字元

無轉義符

轉義符\

轉義符\\

轉義符\\\

"

"

\"

\\”

 

\

不可識別 

不可識別 

不可識別 

\\\\

/

/

\/

\\/

\\\/

'

不可識別 

\'

不可識別  

\\\'

~

~

\~

\\~

 

|

|

\|

\\|

\\\|

;

;

\;

\\;

 

:

:

\:

\\:

 

,

,

\,

\\,

 

.

.

\.

\\.

 

!

!

\!

\\!

 

(

(

\(

\\(

 

)

)

\)

\\)

 

[

不可識別 

不可識別

\\[

 

]

]

\]

\\]

 

{

{

\{'

\\{

 

}

}

\}

\\}

 

?

?

\?

\\?

 

_

_

\_

\\_

 

-

-

\-

\\-

 

#

#

\#

\\#

 

##

##

\##

\\##

\\\##

&

&

\&

\\&

 

^

^

\^

\\^

 

 

 

 

 

 

 

 

二、案例:原數據表

 

1.\符號

(1)regexp_replace(dealids,'\\[','\\\\')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\\\') as place

 From temp.track_join_rtq_freq_20181029

limit 10

 

 註意:

 

2.[與]符號

(1)\\[:split(dealids,'\\[')

%jdbc(hive)

Select split(dealids,'\\[') as place

 From temp.track_join_rtq_freq_20181029

limit 10

 

 

(2)]:split(dealids,']')

%jdbc(hive)

Select split(dealids,']') as place

 From temp.track_join_rtq_freq_20181029

limit 10

 

 

(3)\\[和[]:regexp_replace(dealids,'\\[','[]')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','[]') as place

  From temp.track_join_rtq_freq_20181029

limit 10

 

 

(4)\\[和\\{}:regexp_replace(dealids,'\\[','\\{}')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\{}') as place

 From temp.track_join_rtq_freq_20181029

limit 10

 

 

3.’符號

(1)\\\':regexp_replace(dealids,'\\[','\\\'')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\\'') as place

  From temp.track_join_rtq_freq_20181029

limit 10

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 一、ps命令介紹 ps命令是Process Status的縮寫,用於查看系統進程狀態,ps命令輸出值非常多,通常結合管道符使用。 二、實例 1.我們直接輸入ps命令,不加任何參數。 可以看到預設輸出4列信息 PID: 運行著的命令(CMD)的進程編號TTY: 命令所運行的位置(終端)TIME: 運行 ...
  • 如題,作為一名兼職運維的開發,看到系統記憶體一直上升有點憂愁,搜了一下清理記憶體 && 寫了個簡單腳本,如果需要定時處理,請使用crontab 定時器。 #!/bin/bash # log文件存放路徑 baseDir="/data/logs/crond" # log文件名 fileName="clear ...
  • 1. systemd新特性 2. systemd的常見unit類型 3. Systemd關鍵特性 4. 編譯安裝nginx,並使用systemd管理nginx ...
  • CDN是什麼 CDN是Content Delivery Network 即內容分髮網絡 優勢 CDN的原理 普通的請求過程 CDN加速後的過程 CDN分類 按內容區分 網頁加速 流媒體加速 大文件加速 應用協議加速 按推送類型分 主動推送 被動獲取 應用場景 流量劫持 鏈路劫持 鏈路層劫持是指第三方 ...
  • cat命令的用途是連接文件或標準輸入並列印。這個命令常用來顯示文件內容,或者將幾個文件連接起來顯示,或者從標準輸入讀取內容並顯示,它常與重定向符號配合使用。 一.命令格式: cat [參數] [文件]... 二.命令功能: cat主要有三大功能: 1.一次顯示整個文件:cat filename 2. ...
  • Shadowsocks即有服務端還有專門的客戶端,支持全平臺,神馬Windows、Linux、Mac、Android、iOS、OpenWrt...統統都支持。下麵主要介紹server和client的安裝過程。 ...
  • 關鍵字if+trim trim可以去除多餘的關鍵字,是where和set的組合 trim標記是一個格式化的標記,可以完成set或者是where標記的功能,如下代碼: <trim prefix="" suffix="" suffixOverrides="" prefixOverrides=""></t ...
  • 當使用plsqldev客戶端登錄oracle資料庫時,如果對應的tnsnames.ora中是直接使用IP地址來連接,並且未在系統的hosts文件中綁定主機名時,極易出現ORA-12502及ORA-12545報錯,這兩種錯誤內容分別是: ORA-12502: TNS:listener received ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...