大數據技術之Hive 第11章 Hive實戰

来源:https://www.cnblogs.com/niuniu2022/archive/2022/06/08/16354086.html
-Advertisement-
Play Games

一、基本說明 • Oracle 中的函數可以返回表類型,但是這個表類型實際上是集合類型(與數組類似)。從 Oracle 9i 開始,提供了一個叫做"管道化表函數"來解決此問題。 • 管道化表函數,必須返回一個集合類型,且標明 pipelined。它不能返回具體變數,必須以一個空 return 返回, ...


第11章 Hive實戰

11.1 需求描述

統計矽谷影音視頻網站的常規指標,各種TopN指標:

-- 統計視頻觀看數Top10

-- 統計視頻類別熱度Top10

-- 統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數

-- 統計視頻觀看數Top50所關聯視頻的所屬類別Rank

-- 統計每個類別中的視頻熱度Top10,以Music為例

-- 統計每個類別視頻觀看數Top10

-- 統計上傳視頻最多的用戶Top10以及他們上傳的視頻觀看次數在前20的視頻

11.2 數據結構

1)視頻表

視頻表

欄位 備註 詳細描述
videoId 視頻唯一id(String) 11位字元串
uploader 視頻上傳者(String) 上傳視頻的用戶名String
age 視頻年齡(int) 視頻在平臺上的整數天
category 視頻類別(Array 上傳視頻指定的視頻分類
length 視頻長度(Int) 整形數字標識的視頻長度
views 觀看次數(Int) 視頻被瀏覽的次數
rate 視頻評分(Double) 滿分5分
Ratings 流量(Int) 視頻的流量,整型數字
conments 評論數(Int) 一個視頻的整數評論數
relatedId 相關視頻id(Array 相關視頻的id,最多20個

2)用戶表

用戶表

欄位 備註 欄位類型
uploader 上傳者用戶名 string
videos 上傳視頻數 int
friends 朋友數量 int

11.3 準備工作

11.3.1 ETL

通過觀察原始數據形式,可以發現,視頻可以有多個所屬分類,每個所屬分類用&符號分割,且分割的兩邊有空格字元,同時相關視頻也是可以有多個元素,多個相關視頻又用“\t”進行分割。為了分析數據時方便對存在多個子元素的數據進行操作,我們首先進行數據重組清洗操作。即:將所有的類別用“&”分割,同時去掉兩邊空格,多個相關視頻id也使用“&”進行分割。

1)ETL之封裝工具類

public class ETLUtil {
    /**
 	* 數據清洗方法
 	*/
   public static  String  etlData(String srcData){
        StringBuffer resultData = new StringBuffer();
        //1. 先將數據通過\t 切割
        String[] datas = srcData.split("\t");
        //2. 判斷長度是否小於9
        if(datas.length <9){
            return null ;
        }
        //3. 將數據中的視頻類別的空格去掉
        datas[3]=datas[3].replaceAll(" ","");
        //4. 將數據中的關聯視頻id通過&拼接
        for (int i = 0; i < datas.length; i++) {
            if(i < 9){
                //4.1 沒有關聯視頻的情況
                if(i == datas.length-1){
                    resultData.append(datas[i]);
                }else{
                    resultData.append(datas[i]).append("\t");
                }
            }else{
                //4.2 有關聯視頻的情況
                if(i == datas.length-1){
                    resultData.append(datas[i]);
                }else{
                    resultData.append(datas[i]).append("&");
                }
            }
        }
        return resultData.toString();
    }
	}  

2)ETL之Mapper

  /**
 * 清洗穀粒影音的原始數據
 * 清洗規則
 *  1. 將數據長度小於9的清洗掉
 *  2. 將數據中的視頻類別中間的空格去掉   People & Blogs
 *  3. 將數據中的關聯視頻id通過&符號拼接
 */
public class EtlMapper extends Mapper<LongWritable, Text,Text, NullWritable> {
    private Text k = new Text();
    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
       //獲取一行
        String line = value.toString();
        //清洗
        String resultData = ETLUtil.etlData(line);

        if(resultData != null) {
            //寫出
            k.set(resultData);
            context.write(k,NullWritable.get());
        }
    }
}

3)ETL之Driver

 package com.wolffy.gulivideo.etl;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class EtlDriver {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job  = Job.getInstance(conf);
        job.setJarByClass(EtlDriver.class);
        job.setMapperClass(EtlMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(NullWritable.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(NullWritable.class);
        job.setNumReduceTasks(0);
        FileInputFormat.setInputPaths(job,new Path(args[0]));
        FileOutputFormat.setOutputPath(job,new Path(args[1]));
        job.waitForCompletion(true);
    }
}  

4)將ETL程式打包為etl.jar 並上傳到Linux的 /opt/module/hive/datas 目錄下

5)上傳原始數據到HDFS

[wolffy@hadoop102 datas] pwd
/opt/module/hive/datas
[wolffy@hadoop102 datas] hadoop fs -mkdir -p  /gulivideo/video
[wolffy@hadoop102 datas] hadoop fs -mkdir -p  /gulivideo/user
[wolffy@hadoop102 datas] hadoop fs -put gulivideo/user/user.txt  /gulivideo/user
[wolffy@hadoop102 datas] hadoop fs -put gulivideo/video/*.txt  /gulivideo/video

6)ETL數據

[wolffy@hadoop102 datas] hadoop jar  etl.jar  com.wolffy.hive.etl.EtlDriver /gulivideo/video /gulivideo/video/output

11.3.2 準備表

1)需要準備的表

創建原始數據表:gulivideo_ori,gulivideo_user_ori,

創建最終表:gulivideo_orc,gulivideo_user_orc

2)創建原始數據表:

(1)gulivideo_ori

create table gulivideo_ori(
    videoId string, 
    uploader string, 
    age int, 
    category array<string>, 
    length int, 
    views int, 
    rate float, 
    ratings int, 
    comments int,
    relatedId array<string>)
row format delimited fields terminated by "\t"
collection items terminated by "&"
stored as textfile;

(2)創建原始數據表: gulivideo_user_ori

ccreate table gulivideo_user_ori(
    uploader string,
    videos int,
    friends int)
row format delimited 
fields terminated by "\t" 
stored as textfile;

1) 創建orc存儲格式帶snappy壓縮的表:

(1)gulivideo_orc

create table gulivideo_orc(
    videoId string, 
    uploader string, 
    age int, 
    category array<string>, 
    length int, 
    views int, 
    rate float, 
    ratings int, 
    comments int,
    relatedId array<string>)
stored as orc
tblproperties("orc.compress"="SNAPPY");

(2)gulivideo_user_orc

create table gulivideo_user_orc(
    uploader string,
    videos int,
    friends int)
row format delimited 
fields terminated by "\t" 
stored as orc
tblproperties("orc.compress"="SNAPPY");

(3)向ori表插入數據

load data inpath "/gulivideo/video/output" into table gulivideo_ori;
load data inpath "/gulivideo/user" into table gulivideo_user_ori;

(4)向orc表插入數據

insert into table gulivideo_orc select * from gulivideo_ori;
insert into table gulivideo_user_orc select * from gulivideo_user_ori;

11.3.3 安裝Tez引擎(瞭解)

Tez是一個Hive的運行引擎,性能優於MR。為什麼優於MR呢?看下。

image-20220608005640657

用Hive直接編寫MR程式,假設有四個有依賴關係的MR作業,上圖中,綠色是Reduce Task,雲狀表示寫屏蔽,需要將中間結果持久化寫到HDFS。

Tez可以將多個有依賴的作業轉換為一個作業,這樣只需寫一次HDFS,且中間節點較少,從而大大提升作業的計算性能。

1)將tez安裝包拷貝到集群,並解壓tar包

[wolffy@hadoop102 software]$ mkdir /opt/module/tez

[wolffy@hadoop102 software]$ tar -zxvf /opt/software/tez-0.10.1-SNAPSHOT-minimal.tar.gz -C /opt/module/tez

2)上傳tez依賴到HDFS

[wolffy@hadoop102 software]$ hadoop fs -mkdir /tez

[wolffy@hadoop102 software]$ hadoop fs -put /opt/software/tez-0.10.1-SNAPSHOT.tar.gz /tez

3)新建tez-site.xml

[wolffy@hadoop102 software]$ vim $HADOOP_HOME/etc/hadoop/tez-site.xml

添加如下內容:

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
	<name>tez.lib.uris</name>
    <value>${fs.defaultFS}/tez/tez-0.10.1-SNAPSHOT.tar.gz</value>
</property>
<property>
     <name>tez.use.cluster.hadoop-libs</name>
     <value>true</value>
</property>
<property>
     <name>tez.am.resource.memory.mb</name>
     <value>1024</value>
</property>
<property>
     <name>tez.am.resource.cpu.vcores</name>
     <value>1</value>
</property>
<property>
     <name>tez.container.max.java.heap.fraction</name>
     <value>0.4</value>
</property>
<property>
     <name>tez.task.resource.memory.mb</name>
     <value>1024</value>
</property>
<property>
     <name>tez.task.resource.cpu.vcores</name>
     <value>1</value>
</property>
</configuration>

4)修改Hadoop環境變數

 [wolffy@hadoop102 software]$ vim $HADOOP_HOME/etc/hadoop/shellprofile.d/tez.sh

添加Tez的Jar包相關信息

hadoop_add_profile tez
function _tez_hadoop_classpath
{
  hadoop_add_classpath "$HADOOP_HOME/etc/hadoop" after
  hadoop_add_classpath "/opt/module/tez/*" after
  hadoop_add_classpath "/opt/module/tez/lib/*" after

}

5)修改Hive的計算引擎

[wolffy@hadoop102 software]$ vim $HIVE_HOME/conf/hive-site.xml

添加

<property>
    <name>hive.execution.engine</name>
    <value>tez</value>
</property>
<property>
    <name>hive.tez.container.size</name>
    <value>1024</value>
</property>

6)解決日誌Jar包衝突

[wolffy@hadoop102 software]$ rm /opt/module/tez/lib/slf4j-log4j12-1.7.10.jar

11.4 業務分析

11.4.1 統計視頻觀看數Top10

思路:使用order by按照views欄位做一個全局排序即可,同時我們設置只顯示前10條。

最終代碼:

SELECT 

   videoId,

   views 

FROM 

   gulivideo_orc

ORDER BY 

   views DESC 

LIMIT 10;

11.4.2 統計視頻類別熱度Top10

思路:

(1)即統計每個類別有多少個視頻,顯示出包含視頻最多的前10個類別。

(2)我們需要按照類別group by聚合,然後count組內的videoId個數即可。

(3)因為當前表結構為:一個視頻對應一個或多個類別。所以如果要group by類別,需要先將類別進行列轉行(展開),然後再進行count即可。

(4)最後按照熱度排序,顯示前10條。

最終代碼:

SELECT 
  t1.category_name , 
  COUNT(t1.videoId) hot
FROM 
(
SELECT 
  videoId, 
  category_name 
FROM 
  gulivideo_orc 
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
) t1
GROUP BY 
  t1.category_name 
ORDER BY
  hot 
DESC 
LIMIT 10

11.4.3 統計出視頻觀看數最高的20個視頻的所屬類別以及類別包含Top20視頻的個數

思路:

(1)先找到觀看數最高的20個視頻所屬條目的所有信息,降序排列

(2)把這20條信息中的category分裂出來(列轉行)

(3)最後查詢視頻分類名稱和該分類下有多少個Top20的視頻

最終代碼:

SELECT 
    t2.category_name,
    COUNT(t2.videoId) video_sum
FROM 
(
SELECT
    t1.videoId,
    category_name
FROM 
(
SELECT 
    videoId, 
    views ,
    category 
FROM 
    gulivideo_orc
ORDER BY 
    views 
DESC 
LIMIT 20 
) t1
lateral VIEW explode(t1.category) t1_tmp AS category_name
) t2
GROUP BY t2.category_name

11.4.4 統計視頻觀看數Top50所關聯視頻的所屬類別排序

代碼:

SELECT
   t6.category_name,
   t6.video_sum,
   rank() over(ORDER BY t6.video_sum DESC ) rk
FROM
(
SELECT
   t5.category_name,
   COUNT(t5.relatedid_id) video_sum
FROM
(
SELECT
  t4.relatedid_id,
  category_name
FROM
(
SELECT 
  t2.relatedid_id ,
  t3.category 
FROM 
(
SELECT 
   relatedid_id
FROM 
(
SELECT 
   videoId, 
   views,
   relatedid 
FROM 
   gulivideo_orc
ORDER BY
   views 
DESC 
LIMIT 50
)t1
lateral VIEW explode(t1.relatedid) t1_tmp AS relatedid_id
)t2 
JOIN 
   gulivideo_orc t3 
ON 
 t2.relatedid_id = t3.videoId 
) t4 
lateral VIEW explode(t4.category) t4_tmp AS category_name
) t5
GROUP BY
  t5.category_name
ORDER BY 
  video_sum
DESC 
) t6

11.4.5 統計每個類別中的視頻熱度Top10,以Music為例

思路:

(1)要想統計Music類別中的視頻熱度Top10,需要先找到Music類別,那麼就需要將category展開,所以可以創建一張表用於存放categoryId展開的數據。

(2)向category展開的表中插入數據。

(3)統計對應類別(Music)中的視頻熱度。

統計Music類別的Top10(也可以統計其他)

SELECT 
    t1.videoId, 
    t1.views,
    t1.category_name
FROM 
(
SELECT
    videoId,
    views,
    category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
)t1    
WHERE 
    t1.category_name = "Music" 
ORDER BY 
    t1.views 
DESC 
LIMIT 10

11.4.6 統計每個類別視頻觀看數Top10

最終代碼:

SELECT 
  t2.videoId,
  t2.views,
  t2.category_name,
  t2.rk
FROM 
(
SELECT 
   t1.videoId,
   t1.views,
   t1.category_name,
   rank() over(PARTITION BY t1.category_name ORDER BY t1.views DESC ) rk
FROM    
(
SELECT
    videoId,
    views,
    category_name
FROM gulivideo_orc
lateral VIEW explode(category) gulivideo_orc_tmp AS category_name
)t1
)t2
WHERE t2.rk <=10

11.4.7 統計上傳視頻最多的用戶Top10以及他們上傳的視頻觀看次數在前20的視頻

思路:

(1)求出上傳視頻最多的10個用戶

(2)關聯gulivideo_orc表,求出這10個用戶上傳的所有的視頻,按照觀看數取前20

最終代碼:

SELECT 
   t2.videoId,
   t2.views,
   t2.uploader
FROM
(
SELECT 
   uploader,
   videos
FROM gulivideo_user_orc 
ORDER BY 
   videos
DESC
LIMIT 10    
) t1
JOIN gulivideo_orc t2 
ON t1.uploader = t2.uploader
ORDER BY 
  t2.views 
DESC
LIMIT 20

IT學習網站

牛牛IT網站

大數據高薪訓練營 完結

搜狗截圖20220608012235

鏈接:https://pan.baidu.com/s/1ssRD-BYOiiMw30EV_BLMWQ
提取碼:dghu
失效加V:x923713

QQ交流群 歡迎加入

WechatIMG135

本文來自博客園,作者:大數據Reasearch,轉載請註明原文鏈接:https://www.cnblogs.com/niuniu2022/p/16354086.html


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 本文參考書:操作系統真像還原、電腦組成原理(微課版) 所謂記憶體管理包含: 物理記憶體 虛擬地址空間 以上就是記憶體管理中所要管理的資源。那麼記憶體管理的第一步就應該是整理出這兩種資源。 物理記憶體要分為兩部分: ①內核記憶體 ②用戶記憶體 在內核態下也經常會有一些記憶體申請,比如申請個pcb、頁表等等。內核態和 ...
  • 基本元器件原理及功能 常用元器件 CAP 電容 RES 電阻 CRYSTAL 晶振 7SEG 數位管 sounder 蜂鳴器 BUTTON LED-BIBY 發光二極體 二極體PN結,P陽極N陰極,電流方向P極流向N極 共陰極高電平亮,共陽極低電平亮 數位管 dp g f e d c b a 0 0 ...
  • 作為目前資料庫引擎的兩種主要數據結構,LSM-tree和B+-tree在業界已經有非常廣泛的研究。相比B+-tree,LSM-tree犧牲一定的讀性能以換取更小的寫放大以及更低的存儲成本,但這必須建立在已有的HDD和SSD的基礎上。 探索前沿研究,聚焦技術創新,本期DB·洞見由騰訊雲資料庫高級工程師 ...
  • 一般我安裝mysql用以下兩個方法: 一.phpstudy環境下的mysql安裝 只需將mysql的bin目錄配置到系統環境變數即可, 輸入預設密碼root即可登錄 二.本地直接安裝mysql資料庫 1.官網下載鏈接:https://dev.mysql.com/downloads/mysql/ 2. ...
  • 位元組的 DataCatalog 系統,在 2021 年進行過大規模重構,新版本的存儲層基於 Apache Atlas 實現。遷移過程中,我們遇到了比較多的性能問題。本文以 Data Catalog 系統升級過程為例,與大家討論業務系統性能優化方面的思考,也會介紹我們關於 Apache Atlas 相... ...
  • 01 背景和問題 目前,模型開發的流程越來越規範化,通常可以分為業務分析、樣本準備、特征工程、模型構建、模型評估及監控這幾個步驟。其中,特征工程和模型構建在建模的整個流程中依然非常耗時,並且非常依賴於模型開發者對業務的理解及數據處理的能力。 在目前實際業務場景下,面臨的最大的一個問題是,如何快速地構 ...
  • 在新建一張賬單結算信息表bill_settlement_info的時候,建立的唯一索引uk_bill_no(bill_no,tenant_id)。由於列表查詢用到該表的欄位。所以在sql中自然做了jeft join查詢。 on條件是bill.billNo=bill_settlement_info.b ...
  • 2022年6月7日,北京時間11:30,隨著高考第一場科目語文考試結束,全國各地的高考作文題也正式在公眾面前“登臺亮相”。今年全國乙捲的高考作文題目是“跨越,再跨越”,雙奧之城閃耀世界,兩次奧運會展示了我國綜合國力的跨越式發展,同期騰訊雲資料庫也實現了從兒童向有為青年的跨越。 卓越永無止境,跨越永不 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...