大數據技術之Hive 第11章 Hive實戰

来源:https://www.cnblogs.com/niuniu2022/archive/2022/06/08/16354086.html
-Advertisement-
Play Games

一、基本說明 • Oracle 中的函數可以返回表類型,但是這個表類型實際上是集合類型(與數組類似)。從 Oracle 9i 開始,提供了一個叫做"管道化表函數"來解決此問題。 • 管道化表函數,必須返回一個集合類型,且標明 pipelined。它不能返回具體變數,必須以一個空 return 返回, ...


第11章 Hive實戰

11.1 需求描述

統計矽谷影音視頻網站的常規指標,各種TopN指標:

-- 統計視頻觀看數Top10

-- 統計視頻類別熱度Top10

-- 統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數

-- 統計視頻觀看數Top50所關聯視頻的所屬類別Rank

-- 統計每個類別中的視頻熱度Top10,以Music為例

-- 統計每個類別視頻觀看數Top10

-- 統計上傳視頻最多的用戶Top10以及他們上傳的視頻觀看次數在前20的視頻

11.2 數據結構

1)視頻表

視頻表

欄位 備註 詳細描述
videoId 視頻唯一id(String) 11位字元串
uploader 視頻上傳者(String) 上傳視頻的用戶名String
age 視頻年齡(int) 視頻在平臺上的整數天
category 視頻類別(Array 上傳視頻指定的視頻分類
length 視頻長度(Int) 整形數字標識的視頻長度
views 觀看次數(Int) 視頻被瀏覽的次數
rate 視頻評分(Double) 滿分5分
Ratings 流量(Int) 視頻的流量,整型數字
conments 評論數(Int) 一個視頻的整數評論數
relatedId 相關視頻id(Array 相關視頻的id,最多20個

2)用戶表

用戶表

欄位 備註 欄位類型
uploader 上傳者用戶名 string
videos 上傳視頻數 int
friends 朋友數量 int

11.3 準備工作

11.3.1 ETL

通過觀察原始數據形式,可以發現,視頻可以有多個所屬分類,每個所屬分類用&符號分割,且分割的兩邊有空格字元,同時相關視頻也是可以有多個元素,多個相關視頻又用“\t”進行分割。為了分析數據時方便對存在多個子元素的數據進行操作,我們首先進行數據重組清洗操作。即:將所有的類別用“&”分割,同時去掉兩邊空格,多個相關視頻id也使用“&”進行分割。

1)ETL之封裝工具類

public class ETLUtil {
    /**
 	* 數據清洗方法
 	*/
   public static  String  etlData(String srcData){
        StringBuffer resultData = new StringBuffer();
        //1. 先將數據通過\t 切割
        String[] datas = srcData.split("\t");
        //2. 判斷長度是否小於9
        if(datas.length <9){
            return null ;
        }
        //3. 將數據中的視頻類別的空格去掉
        datas[3]=datas[3].replaceAll(" ","");
        //4. 將數據中的關聯視頻id通過&拼接
        for (int i = 0; i < datas.length; i++) {
            if(i < 9){
                //4.1 沒有關聯視頻的情況
                if(i == datas.length-1){
                    resultData.append(datas[i]);
                }else{
                    resultData.append(datas[i]).append("\t");
                }
            }else{
                //4.2 有關聯視頻的情況
                if(i == datas.length-1){
                    resultData.append(datas[i]);
                }else{
                    resultData.append(datas[i]).append("&");
                }
            }
        }
        return resultData.toString();
    }
	}  

2)ETL之Mapper

  /**
 * 清洗穀粒影音的原始數據
 * 清洗規則
 *  1. 將數據長度小於9的清洗掉
 *  2. 將數據中的視頻類別中間的空格去掉   People & Blogs
 *  3. 將數據中的關聯視頻id通過&符號拼接
 */
public class EtlMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
    private Text k = new Text();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
       //獲取一行
        String line = value.toString();
        //清洗
        String resultData = ETLUtil.etlData(line);

        if(resultData != null) {
            //寫出
            k.set(resultData);
            context.write(k,NullWritable.get());
        }
    }
}

3)ETL之Driver

 package com.wolffy.gulivideo.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class EtlDriver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job  = Job.getInstance(conf);
        job.setJarByClass(EtlDriver.class);
        job.setMapperClass(EtlMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);
        job.setNumReduceTasks(0);
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        job.waitForCompletion(true);
    }
}  

4)將ETL程式打包為etl.jar 並上傳到Linux的 /opt/module/hive/datas 目錄下

5)上傳原始數據到HDFS

[wolffy@hadoop102 datas] pwd
/opt/module/hive/datas
[wolffy@hadoop102 datas] hadoop fs -mkdir -p  /gulivideo/video
[wolffy@hadoop102 datas] hadoop fs -mkdir -p  /gulivideo/user
[wolffy@hadoop102 datas] hadoop fs -put gulivideo/user/user.txt  /gulivideo/user
[wolffy@hadoop102 datas] hadoop fs -put gulivideo/video/*.txt  /gulivideo/video

6)ETL數據

[wolffy@hadoop102 datas] hadoop jar  etl.jar  com.wolffy.hive.etl.EtlDriver /gulivideo/video /gulivideo/video/output

11.3.2 準備表

1)需要準備的表

創建原始數據表:gulivideo_ori,gulivideo_user_ori,

創建最終表:gulivideo_orc,gulivideo_user_orc

2)創建原始數據表:

(1)gulivideo_ori

create table gulivideo_ori(
    videoId string, 
    uploader string, 
    age int, 
    category array<string>, 
    length int, 
    views int, 
    rate float, 
    ratings int, 
    comments int,
    relatedId array<string>)
row format delimited fields terminated by "\t"
collection items terminated by "&"
stored as textfile;

(2)創建原始數據表: gulivideo_user_ori

ccreate table gulivideo_user_ori(
    uploader string,
    videos int,
    friends int)
row format delimited 
fields terminated by "\t" 
stored as textfile;

1) 創建orc存儲格式帶snappy壓縮的表:

(1)gulivideo_orc

create table gulivideo_orc(
    videoId string, 
    uploader string, 
    age int, 
    category array<string>, 
    length int, 
    views int, 
    rate float, 
    ratings int, 
    comments int,
    relatedId array<string>)
stored as orc
tblproperties("orc.compress"="SNAPPY");

(2)gulivideo_user_orc

create table gulivideo_user_orc(
    uploader string,
    videos int,
    friends int)
row format delimited 
fields terminated by "\t" 
stored as orc
tblproperties("orc.compress"="SNAPPY");

(3)向ori表插入數據

load data inpath "/gulivideo/video/output" into table gulivideo_ori;
load data inpath "/gulivideo/user" into table gulivideo_user_ori;

(4)向orc表插入數據

insert into table gulivideo_orc select * from gulivideo_ori;
insert into table gulivideo_user_orc select * from gulivideo_user_ori;

11.3.3 安裝Tez引擎(瞭解)

Tez是一個Hive的運行引擎,性能優於MR。為什麼優於MR呢?看下。

image-20220608005640657

用Hive直接編寫MR程式,假設有四個有依賴關係的MR作業,上圖中,綠色是Reduce Task,雲狀表示寫屏蔽,需要將中間結果持久化寫到HDFS。

Tez可以將多個有依賴的作業轉換為一個作業,這樣只需寫一次HDFS,且中間節點較少,從而大大提升作業的計算性能。

1)將tez安裝包拷貝到集群,並解壓tar包

[wolffy@hadoop102 software]$ mkdir /opt/module/tez

[wolffy@hadoop102 software]$ tar -zxvf /opt/software/tez-0.10.1-SNAPSHOT-minimal.tar.gz -C /opt/module/tez

2)上傳tez依賴到HDFS

[wolffy@hadoop102 software]$ hadoop fs -mkdir /tez

[wolffy@hadoop102 software]$ hadoop fs -put /opt/software/tez-0.10.1-SNAPSHOT.tar.gz /tez

3)新建tez-site.xml

[wolffy@hadoop102 software]$ vim $HADOOP_HOME/etc/hadoop/tez-site.xml

添加如下內容:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
	<name>tez.lib.uris</name>
    <value>${fs.defaultFS}/tez/tez-0.10.1-SNAPSHOT.tar.gz</value>
</property>
<property>
     <name>tez.use.cluster.hadoop-libs</name>
     <value>true</value>
</property>
<property>
     <name>tez.am.resource.memory.mb</name>
     <value>1024</value>
</property>
<property>
     <name>tez.am.resource.cpu.vcores</name>
     <value>1</value>
</property>
<property>
     <name>tez.container.max.java.heap.fraction</name>
     <value>0.4</value>
</property>
<property>
     <name>tez.task.resource.memory.mb</name>
     <value>1024</value>
</property>
<property>
     <name>tez.task.resource.cpu.vcores</name>
     <value>1</value>
</property>
</configuration>

4)修改Hadoop環境變數

 [wolffy@hadoop102 software]$ vim $HADOOP_HOME/etc/hadoop/shellprofile.d/tez.sh

添加Tez的Jar包相關信息

hadoop_add_profile tez
function _tez_hadoop_classpath
{
  hadoop_add_classpath "$HADOOP_HOME/etc/hadoop" after
  hadoop_add_classpath "/opt/module/tez/*" after
  hadoop_add_classpath "/opt/module/tez/lib/*" after

}

5)修改Hive的計算引擎

[wolffy@hadoop102 software]$ vim $HIVE_HOME/conf/hive-site.xml

添加

<property>
    <name>hive.execution.engine</name>
    <value>tez</value>
</property>
<property>
    <name>hive.tez.container.size</name>
    <value>1024</value>
</property>

6)解決日誌Jar包衝突

[wolffy@hadoop102 software]$ rm /opt/module/tez/lib/slf4j-log4j12-1.7.10.jar

11.4 業務分析

11.4.1 統計視頻觀看數Top10

思路:使用order by按照views欄位做一個全局排序即可,同時我們設置只顯示前10條。

最終代碼:

SELECT 

   videoId,

   views 

FROM 

   gulivideo_orc

ORDER BY 

   views DESC 

LIMIT 10;

11.4.2 統計視頻類別熱度Top10

思路:

(1)即統計每個類別有多少個視頻,顯示出包含視頻最多的前10個類別。

(2)我們需要按照類別group by聚合,然後count組內的videoId個數即可。

(3)因為當前表結構為:一個視頻對應一個或多個類別。所以如果要group by類別,需要先將類別進行列轉行(展開),然後再進行count即可。

(4)最後按照熱度排序,顯示前10條。

最終代碼:

SELECT 
  t1.category_name , 
  COUNT(t1.videoId) hot
FROM 
(
SELECT 
  videoId, 
  category_name 
FROM 
  gulivideo_orc 
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
) t1
GROUP BY 
  t1.category_name 
ORDER BY
  hot 
DESC 
LIMIT 10

11.4.3 統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數

思路:

(1)先找到觀看數最高的20個視頻所屬條目的所有信息,降序排列

(2)把這20條信息中的category分裂出來(列轉行)

(3)最後查詢視頻分類名稱和該分類下有多少個Top20的視頻

最終代碼:

SELECT 
    t2.category_name,
    COUNT(t2.videoId) video_sum
FROM 
(
SELECT
    t1.videoId,
    category_name
FROM 
(
SELECT 
    videoId, 
    views ,
    category 
FROM 
    gulivideo_orc
ORDER BY 
    views 
DESC 
LIMIT 20 
) t1
lateral VIEW explode(t1.category) t1_tmp AS category_name
) t2
GROUP BY t2.category_name

11.4.4 統計視頻觀看數Top50所關聯視頻的所屬類別排序

代碼:

SELECT
   t6.category_name,
   t6.video_sum,
   rank() over(ORDER BY t6.video_sum DESC ) rk
FROM
(
SELECT
   t5.category_name,
   COUNT(t5.relatedid_id) video_sum
FROM
(
SELECT
  t4.relatedid_id,
  category_name
FROM
(
SELECT 
  t2.relatedid_id ,
  t3.category 
FROM 
(
SELECT 
   relatedid_id
FROM 
(
SELECT 
   videoId, 
   views,
   relatedid 
FROM 
   gulivideo_orc
ORDER BY
   views 
DESC 
LIMIT 50
)t1
lateral VIEW explode(t1.relatedid) t1_tmp AS relatedid_id
)t2 
JOIN 
   gulivideo_orc t3 
ON 
 t2.relatedid_id = t3.videoId 
) t4 
lateral VIEW explode(t4.category) t4_tmp AS category_name
) t5
GROUP BY
  t5.category_name
ORDER BY 
  video_sum
DESC 
) t6

11.4.5 統計每個類別中的視頻熱度Top10,以Music為例

思路:

(1)要想統計Music類別中的視頻熱度Top10,需要先找到Music類別,那麼就需要將category展開,所以可以創建一張表用於存放categoryId展開的數據。

(2)向category展開的表中插入數據。

(3)統計對應類別(Music)中的視頻熱度。

統計Music類別的Top10(也可以統計其他)

SELECT 
    t1.videoId, 
    t1.views,
    t1.category_name
FROM 
(
SELECT
    videoId,
    views,
    category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
)t1    
WHERE 
    t1.category_name = "Music" 
ORDER BY 
    t1.views 
DESC 
LIMIT 10

11.4.6 統計每個類別視頻觀看數Top10

最終代碼:

SELECT 
  t2.videoId,
  t2.views,
  t2.category_name,
  t2.rk
FROM 
(
SELECT 
   t1.videoId,
   t1.views,
   t1.category_name,
   rank() over(PARTITION BY t1.category_name ORDER BY t1.views DESC ) rk
FROM    
(
SELECT
    videoId,
    views,
    category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
)t1
)t2
WHERE t2.rk <=10

11.4.7 統計上傳視頻最多的用戶Top10以及他們上傳的視頻觀看次數在前20的視頻

思路:

(1)求出上傳視頻最多的10個用戶

(2)關聯gulivideo_orc表,求出這10個用戶上傳的所有的視頻,按照觀看數取前20

最終代碼:

SELECT 
   t2.videoId,
   t2.views,
   t2.uploader
FROM
(
SELECT 
   uploader,
   videos
FROM gulivideo_user_orc 
ORDER BY 
   videos
DESC
LIMIT 10    
) t1
JOIN gulivideo_orc t2 
ON t1.uploader = t2.uploader
ORDER BY 
  t2.views 
DESC
LIMIT 20

IT學習網站

牛牛IT網站

大數據高薪訓練營 完結

搜狗截圖20220608012235

鏈接:https://pan.baidu.com/s/1ssRD-BYOiiMw30EV_BLMWQ
提取碼:dghu
失效加V:x923713

QQ交流群 歡迎加入

WechatIMG135

本文來自博客園,作者:大數據Reasearch,轉載請註明原文鏈接:https://www.cnblogs.com/niuniu2022/p/16354086.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文參考書:操作系統真像還原、電腦組成原理(微課版) 所謂記憶體管理包含: 物理記憶體 虛擬地址空間 以上就是記憶體管理中所要管理的資源。那麼記憶體管理的第一步就應該是整理出這兩種資源。 物理記憶體要分為兩部分: ①內核記憶體 ②用戶記憶體 在內核態下也經常會有一些記憶體申請,比如申請個pcb、頁表等等。內核態和 ...
  • 基本元器件原理及功能 常用元器件 CAP 電容 RES 電阻 CRYSTAL 晶振 7SEG 數位管 sounder 蜂鳴器 BUTTON LED-BIBY 發光二極體 二極體PN結,P陽極N陰極,電流方向P極流向N極 共陰極高電平亮,共陽極低電平亮 數位管 dp g f e d c b a 0 0 ...
  • 作為目前資料庫引擎的兩種主要數據結構,LSM-tree和B+-tree在業界已經有非常廣泛的研究。相比B+-tree,LSM-tree犧牲一定的讀性能以換取更小的寫放大以及更低的存儲成本,但這必須建立在已有的HDD和SSD的基礎上。 探索前沿研究,聚焦技術創新,本期DB·洞見由騰訊雲資料庫高級工程師 ...
  • 一般我安裝mysql用以下兩個方法: 一.phpstudy環境下的mysql安裝 只需將mysql的bin目錄配置到系統環境變數即可, 輸入預設密碼root即可登錄 二.本地直接安裝mysql資料庫 1.官網下載鏈接:https://dev.mysql.com/downloads/mysql/ 2. ...
  • 位元組的 DataCatalog 系統,在 2021 年進行過大規模重構,新版本的存儲層基於 Apache Atlas 實現。遷移過程中,我們遇到了比較多的性能問題。本文以 Data Catalog 系統升級過程為例,與大家討論業務系統性能優化方面的思考,也會介紹我們關於 Apache Atlas 相... ...
  • 01 背景和問題 目前,模型開發的流程越來越規範化,通常可以分為業務分析、樣本準備、特征工程、模型構建、模型評估及監控這幾個步驟。其中,特征工程和模型構建在建模的整個流程中依然非常耗時,並且非常依賴於模型開發者對業務的理解及數據處理的能力。 在目前實際業務場景下,面臨的最大的一個問題是,如何快速地構 ...
  • 在新建一張賬單結算信息表bill_settlement_info的時候,建立的唯一索引uk_bill_no(bill_no,tenant_id)。由於列表查詢用到該表的欄位。所以在sql中自然做了jeft join查詢。 on條件是bill.billNo=bill_settlement_info.b ...
  • 2022年6月7日,北京時間11:30,隨著高考第一場科目語文考試結束,全國各地的高考作文題也正式在公眾面前“登臺亮相”。今年全國乙捲的高考作文題目是“跨越,再跨越”,雙奧之城閃耀世界,兩次奧運會展示了我國綜合國力的跨越式發展,同期騰訊雲資料庫也實現了從兒童向有為青年的跨越。 卓越永無止境,跨越永不 ...
一周排行
    -Advertisement-
    Play Games
  • 基於.NET Framework 4.8 開發的深度學習模型部署測試平臺,提供了YOLO框架的主流系列模型,包括YOLOv8~v9,以及其系列下的Det、Seg、Pose、Obb、Cls等應用場景,同時支持圖像與視頻檢測。模型部署引擎使用的是OpenVINO™、TensorRT、ONNX runti... ...
  • 十年沉澱,重啟開發之路 十年前,我沉浸在開發的海洋中,每日與代碼為伍,與演算法共舞。那時的我,滿懷激情,對技術的追求近乎狂熱。然而,隨著歲月的流逝,生活的忙碌逐漸占據了我的大部分時間,讓我無暇顧及技術的沉澱與積累。 十年間,我經歷了職業生涯的起伏和變遷。從初出茅廬的菜鳥到逐漸嶄露頭角的開發者,我見證了 ...
  • C# 是一種簡單、現代、面向對象和類型安全的編程語言。.NET 是由 Microsoft 創建的開發平臺,平臺包含了語言規範、工具、運行,支持開發各種應用,如Web、移動、桌面等。.NET框架有多個實現,如.NET Framework、.NET Core(及後續的.NET 5+版本),以及社區版本M... ...
  • 前言 本文介紹瞭如何使用三菱提供的MX Component插件實現對三菱PLC軟元件數據的讀寫,記錄了使用電腦模擬,模擬PLC,直至完成測試的詳細流程,並重點介紹了在這個過程中的易錯點,供參考。 用到的軟體: 1. PLC開發編程環境GX Works2,GX Works2下載鏈接 https:// ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • 1、jQuery介紹 jQuery是什麼 jQuery是一個快速、簡潔的JavaScript框架,是繼Prototype之後又一個優秀的JavaScript代碼庫(或JavaScript框架)。jQuery設計的宗旨是“write Less,Do More”,即倡導寫更少的代碼,做更多的事情。它封裝 ...
  • 前言 之前的文章把js引擎(aardio封裝庫) 微軟開源的js引擎(ChakraCore))寫好了,這篇文章整點js代碼來測一下bug。測試網站:https://fanyi.youdao.com/index.html#/ 逆向思路 逆向思路可以看有道翻譯js逆向(MD5加密,AES加密)附完整源碼 ...
  • 引言 現代的操作系統(Windows,Linux,Mac OS)等都可以同時打開多個軟體(任務),這些軟體在我們的感知上是同時運行的,例如我們可以一邊瀏覽網頁,一邊聽音樂。而CPU執行代碼同一時間只能執行一條,但即使我們的電腦是單核CPU也可以同時運行多個任務,如下圖所示,這是因為我們的 CPU 的 ...
  • 掌握使用Python進行文本英文統計的基本方法,並瞭解如何進一步優化和擴展這些方法,以應對更複雜的文本分析任務。 ...
  • 背景 Redis多數據源常見的場景: 分區數據處理:當數據量增長時,單個Redis實例可能無法處理所有的數據。通過使用多個Redis數據源,可以將數據分區存儲在不同的實例中,使得數據處理更加高效。 多租戶應用程式:對於多租戶應用程式,每個租戶可以擁有自己的Redis數據源,以確保數據隔離和安全性。 ...