hive筆記：轉義字元的使用

-Advertisement-

hive中的轉義符 Hadoop和Hive都是用UTF-8編碼的，所以, 所有中文必須是UTF-8編碼, 才能正常使用備註：中文數據load到表裡面, 如果字元集不同，很有可能全是亂碼需要做轉碼的, 但是hive本身沒有函數來做這個一、轉義字元的特殊情況：自身的轉義，比如java有時候需要兩個 ...

hive中的轉義符

Hadoop和Hive都是用UTF-8編碼的，所以, 所有中文必須是UTF-8編碼, 才能正常使用

備註：中文數據load到表裡面, 如果字元集不同，很有可能全是亂碼需要做轉碼的, 但是hive本身沒有函數來做這個

一、轉義字元的特殊情況：

自身的轉義，比如java有時候需要兩個轉義字元"\\"，或者四個轉義字元“\\\\”。

1)java的倆種情況：

a.正則表達式匹配和string的split函數，這兩種情況中字元串包含轉義字元“\”時，需要先對轉義字元自身轉義，就是說需要兩個轉義字元“\\”。比如\n,\t等（java解析後，再有正則和split自身特定進行解析）

b.而當匹配字元正斜線“\”，則需要四個轉義字元“\\\\”，因為，首先java（編譯器？）自身先解析，轉義成兩個“\\”，再由正則或split的解析功能轉義成一個“\”，才是最終要處理的字元。

這是因為解析過程需要兩次，才能在字元串中出現正斜線“\”，出現後才能轉義後面的字元。

2)hive中的split和正則表達式

hive用java寫的，所以同Java一樣，兩種情況也需要兩個“\\”，

split處理代碼為例：

a.split(dealid,'\\\\')[0] as dealids,1: 代碼中，如果以“\”作為分隔符的話，那麼就需要4個轉義字元“\\\\”，即

b.split(all,'~') :這裡切分符號是正則表達式，按一個字元分隔沒問題

c. split(all,'[|~]+'): 在[]內部拼接成字元串

3）hive語句在shell腳本中執行

shell語言也有轉義字元，自身直接處理。
而hive語句在shell腳本中執行時，就需要先由shell轉義後，再由hive處理。這個過程又造成二次轉義。
如上面的hive語句寫入shell腳本中，執行是錯誤的，shell先解析，轉義成”|“後傳給hive，hive解析這個轉義字元後，split就無法正確的解析了。
所以，註意hive語句在shell腳本執行時，轉義字元需要翻倍。hive處理的是shell轉義後的語句，必須轉以後正確，才能執行。

註意：是否使用轉義字元是看這個字元在這個語言中有沒有特殊意義，有的話，就需要加上\來進行轉義、

轉義字元的使用：
轉義字元	無轉義符	轉義符\	轉義符\\	轉義符\\\
"	"	\"	\\”
\	不可識別	不可識別	不可識別	\\\\
/	/	\/	\\/	\\\/
'	不可識別	\'	不可識別	\\\'
~	~	\~	\\~
\|	\|	\\|	\\\|	\\\\|
;	;	\;	\\;
:	:	\:	\\:
,	,	\,	\\,
.	.	\.	\\.
!	!	\!	\\!
(	(	\(	\\(
)	)	\)	\\)
[	不可識別	不可識別	\\[
]	]	\]	\\]
{	{	\{'	\\{
}	}	\}	\\}
?	?	\?	\\?
_	_	\_	\\_
-	-	\-	\\-
#	#	\#	\\#
##	##	\##	\\##	\\\##
&	&	\&	\\&
^	^	\^	\\^

二、案例：原數據表

1.\符號

（1）regexp_replace(dealids,'\\[','\\\\')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\\\') as place

From temp.track_join_rtq_freq_20181029

limit 10

註意：

2.[與]符號

（1）\\[：split(dealids,'\\[')

%jdbc(hive)

Select split(dealids,'\\[') as place

From temp.track_join_rtq_freq_20181029

limit 10

（2）]：split(dealids,']')

%jdbc(hive)

Select split(dealids,']') as place

From temp.track_join_rtq_freq_20181029

limit 10

（3）\\[和[]：regexp_replace(dealids,'\\[','[]')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','[]') as place

From temp.track_join_rtq_freq_20181029

limit 10

（4）\\[和\\{}：regexp_replace(dealids,'\\[','\\{}')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\{}') as place

From temp.track_join_rtq_freq_20181029

limit 10

3.’符號

（1）\\\'：regexp_replace(dealids,'\\[','\\\'')

%jdbc(hive)

Select regexp_replace(dealids,'\\[','\\\'') as place

From temp.track_join_rtq_freq_20181029

limit 10

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

Linux學習歷程——Centos 7 ps命令基礎

一、ps命令介紹 ps命令是Process Status的縮寫，用於查看系統進程狀態，ps命令輸出值非常多，通常結合管道符使用。二、實例 1.我們直接輸入ps命令，不加任何參數。可以看到預設輸出4列信息 PID: 運行著的命令(CMD)的進程編號TTY: 命令所運行的位置（終端）TIME: 運行 ...
centos7.2 清理緩存占用記憶體

如題，作為一名兼職運維的開發，看到系統記憶體一直上升有點憂愁，搜了一下清理記憶體 && 寫了個簡單腳本，如果需要定時處理，請使用crontab 定時器。 #!/bin/bash # log文件存放路徑 baseDir="/data/logs/crond" # log文件名 fileName="clear ...
簡述systemd的新特性及unit常見類型分析、使用systemd管理編譯安裝的nginx

1. systemd新特性 2. systemd的常見unit類型 3. Systemd關鍵特性 4. 編譯安裝nginx，並使用systemd管理nginx ...
CDN原理

CDN是什麼 CDN是Content Delivery Network 即內容分髮網絡優勢 CDN的原理普通的請求過程 CDN加速後的過程 CDN分類按內容區分網頁加速流媒體加速大文件加速應用協議加速按推送類型分主動推送被動獲取應用場景流量劫持鏈路劫持鏈路層劫持是指第三方 ...
linux每日命令(11)：cat命令

cat命令的用途是連接文件或標準輸入並列印。這個命令常用來顯示文件內容，或者將幾個文件連接起來顯示，或者從標準輸入讀取內容並顯示，它常與重定向符號配合使用。一．命令格式： cat [參數] [文件]... 二．命令功能： cat主要有三大功能： 1.一次顯示整個文件:cat filename 2. ...
Shadowsocks完整安裝大全

Shadowsocks即有服務端還有專門的客戶端，支持全平臺，神馬Windows、Linux、Mac、Android、iOS、OpenWrt...統統都支持。下麵主要介紹server和client的安裝過程。 ...
MyBatis的動態sql小練習，小回顧

關鍵字if+trim trim可以去除多餘的關鍵字，是where和set的組合 trim標記是一個格式化的標記，可以完成set或者是where標記的功能，如下代碼： <trim prefix="" suffix="" suffixOverrides="" prefixOverrides=""></t ...
使用PLSQL客戶端登錄ORACLE時報ORA-12502和ORA-12545錯誤的解決方案

當使用plsqldev客戶端登錄oracle資料庫時，如果對應的tnsnames.ora中是直接使用IP地址來連接，並且未在系統的hosts文件中綁定主機名時，極易出現ORA-12502及ORA-12545報錯，這兩種錯誤內容分別是： ORA-12502: TNS:listener received ...

hive筆記：轉義字元的使用

hive中的轉義符

一、轉義字元的特殊情況：

1)java的倆種情況：

2)hive中的split和正則表達式

3）hive語句在shell腳本中執行

不可識別

不可識別

二、案例：原數據表

1.\符號

（1）regexp_replace(dealids,'\\[','\\\\')

2.[與]符號

（1）\\[：split(dealids,'\\[')

（2）]：split(dealids,']')

（3）\\[和[]：regexp_replace(dealids,'\\[','[]')

（4）\\[和\\{}：regexp_replace(dealids,'\\[','\\{}')

3.’符號

（1）\\\'：regexp_replace(dealids,'\\[','\\\'')

不可識別　

不可識別