大數據——綜合案例

来源:https://www.cnblogs.com/Salinger/archive/2022/09/26/16731463.html
-Advertisement-
Play Games

一、本地數據集上傳到到數據倉庫Hive 1、 實驗數據集的下載 1. 將user.zip下載到指定目錄 2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權 3.創建一個dataset目錄用於保存數據集 4.解壓縮user.zip文件 5.可以看到dataset目錄下由兩個文件 6 ...


一、本地數據集上傳到到數據倉庫Hive

1、 實驗數據集的下載

1. 將user.zip下載到指定目錄

 

2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權

 

3.創建一個dataset目錄用於保存數據集

 

4.解壓縮user.zip文件

 

 5.可以看到dataset目錄下由兩個文件

 

 6.查看文件前五條記錄

 

 

2、 數據集的預處理

1. 刪除文件第一行記錄(即欄位名稱)

 

2. 對欄位進行預處理

1)新建一個腳本文件pre_deal.sh並放在dataset目錄下

 

2)在pre_deal.sh下麵加入以下代碼

 

3)執行pre_deal.sh腳本文件,對small_user.csv進行數據預處理操作

 

4)用head命令查看前10行數據

 

 

3、 導入資料庫

1. 啟動hdfs

 

執行jps命令查看當前運行的進程

 

 

2.把user_table.txt上傳到hadoop中

1)在hdfs根目錄下創建新目錄

 

2)把本地文件系統中的user_table.txt上傳到hdfs系統的目錄下

 

3)查看HDFS中的user_table.txt的前10條記錄

 

 

3. 在Hive上創建數據

1)啟動MySQL資料庫

 

2)進入hive

 

3)在Hive中創建一個資料庫dblab

 

4. 創建外部表

 

 

5. 查詢數據

1)查看bigdata_user表的信息

 

2)查看表的簡單結構

 

 

3)查詢相關數據

 

 

 

二、 Hive數據分析

1、 簡單查詢分析

1. 查看前10位用戶對商品的行為

 

 

2.查詢前20位用戶購買商品時的時間和商品的種類

 

 

3.設置列的別名

 

 

2、 查詢條數統計分析

1.用聚合函數count()計算出表內由多少行數據

 

 

2.在函數內部加上distinct,查出uid不重覆的數據由多少條

 

 

3.查詢不重覆的數據有多少條(為了排除客戶刷單情況)

 

 

3、關鍵字條件查詢分析

1.以關鍵字的存在區間為條件的查詢

(1)查詢2014年12月10日到2014年12月13日有多少人瀏覽了商品

 

執行結果:

 

 

(2)以月的第n天為統計單位,依次顯示第n天網站賣出去的商品的個數。

 

執行結果:

 

 

2.關鍵字賦予定值為條件,對其他數據進行分析

取給定時間和給定地點,求當天發出到該地點的貨物的數量。

 

執行結果:

 

 

4、 根據用戶行為分析

1.查詢一件商品在某天的購買比例

 

執行結果:

 

查詢一件商品在某天的瀏覽比例

 

執行結果:

 

 

2.查詢某個用戶在某一天點擊網站占該天所有點擊行為的比例

 

 

 

 

 

3.給定購物商品的數量範圍,查詢某一天在該網站的購買該數量商品的用戶id

 

 

 

5、 用戶實時查詢分析

查詢某個地區的用戶當天瀏覽網站的次數,語句如下:

創建新的數據表進行存儲

 

導入數據

 

顯示結果

 

執行結果如下:

 

 

三、 Hive、MySQL、HBase數據互導

1、 Hive預操作

1.創建臨時表user_action

 

查看是否創建成功

 

 

2.將bigdata_user表中的數據插入到user_action

 

查看是否插入成功

 

 

 

 

2、 使用Sqoop將數據從Hive導入MySQL

1.將前面生成的臨時表數據從Hive導入到MySQL中

1)、登錄MySQL

新建終端,執行以下命令

 

2)、創建資料庫

 

使用以下命令查看資料庫編碼是否utf8

 

3)創建表

在MySQL資料庫中dblab中創建一個新表user_action,並設置編碼為utf8

 

Exit

 

查看是否創建成功

 

4)導入數據

 

 

2.查看MySQL中的user_action表數據

啟動MySQL資料庫

 

執行命令查詢user_action表中的數據

 

 

3、使用sqoop將數據從MySQL導入HBase

1.啟動Hadoop、MySQL、HBase

因為前面的操作所以除了HBase以外都啟動了,故此次啟動HBase,新建一個終端

 

 

2.啟動Hbase shell

 

 

3.創建表user_action

 

 

4.新建終端,進入sqoop,導入數據

 

 

5.查看hbase中user_action表數據

 

 

 

 

4、 使用HBase Java API 把數據從本地導入到HBase中

1.啟動Hadoop、HBase

 

 

 

2.數據準備

將之前的user_action數據從hdfs複製到linux系統的本地文件系統中,操作如下

先進入/usr/local/bigdatacase/dataset中

 

將hdfs上的user_action數據複製到本地當前目錄中

 

查看前10行數據

 

將00000*文件複製一份重命名為user_action.output(*表示通配符)

 

查看user_action.output前十行

 

 

3.編寫數據導入程式

啟動eclipse

 

創建java project並命名為ImportHBase

 

 

新建HBaseImportTest class,並輸入以下代碼

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.ResultScanner;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.util.Bytes;

public class HBaseImportTest extends Thread {

    public Configuration config;

    public HTable table;

    public HBaseAdmin admin;

    public HBaseImportTest() {

        config = HBaseConfiguration.create();

//      config.set("hbase.master", "master:60000");

//      config.set("hbase.zookeeper.quorum", "master");

        try {

            table = new HTable(config, Bytes.toBytes("user_action"));

            admin = new HBaseAdmin(config);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) throws Exception {

        if (args.length == 0) {       //第一個參數是該jar所使用的類,第二個參數是數據集所存放的路徑

            throw new Exception("You must set input path!");

        }

        String fileName = args[args.length-1];  //輸入的文件路徑是最後一個參數

        HBaseImportTest test = new HBaseImportTest();

        test.importLocalFileToHBase(fileName);

    }

    public void importLocalFileToHBase(String fileName) {

        long st = System.currentTimeMillis();

        BufferedReader br = null;

        try {

            br = new BufferedReader(new InputStreamReader(new FileInputStream(

                    fileName)));

            String line = null;

            int count = 0;

            while ((line = br.readLine()) != null) {

                count++;

                put(line);

                if (count % 10000 == 0)

                    System.out.println(count);

            }

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            if (br != null) {

                try {

                    br.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

            try {

                table.flushCommits();

                table.close(); // must close the client

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

    @SuppressWarnings("deprecation")

    public void put(String line) throws IOException {

        String[] arr = line.split("\t", -1);

        String[] column = {"id","uid","item_id","behavior_type","item_category","date","province"};

 

        if (arr.length == 7) {

            Put put = new Put(Bytes.toBytes(arr[0]));// rowkey

            for(int i=1;i<arr.length;i++){

                put.add(Bytes.toBytes("f1"), Bytes.toBytes(column[i]),Bytes.toBytes(arr[i]));

            }

            table.put(put); // put to server

        }

    }

    public void get(String rowkey, String columnFamily, String column,

            int versions) throws IOException {

        long st = System.currentTimeMillis();

        Get get = new Get(Bytes.toBytes(rowkey));

        get.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column));

        Scan scanner = new Scan(get);

        scanner.setMaxVersions(versions);

        ResultScanner rsScanner = table.getScanner(scanner);

        for (Result result : rsScanner) {

            final List<KeyValue> list = result.list();

            for (final KeyValue kv : list) {

                System.out.println(Bytes.toStringBinary(kv.getValue()) + "\t"

                        + kv.getTimestamp()); // mid + time

            }

        }

        rsScanner.close();

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

}

 

 

在/usr/local/bigdatacase下新建hbase子目錄,用來存放導出的ImportHBase.jar

 

打包成可執行jar包並導出至/usr/local/bigdatacase/hbase目錄下

 

 

4.數據導入

在導入數據前,先把user_action表清空

 

 

運行hadoop jar命令來運行剛剛的jar包

 

 

 

5.查看HBase中user_action表數據

 

 

 

四、利用R進行數據可視化分析

1、安裝R

用vim編輯器打開/etc/apt/sources.list文件

 

在文件的最後一行添加廈門大學的鏡像源

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

 

執行如下命令安裝R語言

 

 

用vim編輯器打開/etc/apt/sources.list文件

 

在文件最後一行添加下列語句

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

執行如下命令安裝R語言

 

 

 

啟動R

 

執行以下命令退出

 

 

2、安裝依賴庫

進入R命令模式,輸入以下命令

 

出現以下錯誤信息

 

執行下列語句

 

再次執行RMySQL下載命令

 

 

執行如下命令安裝繪圖包ggplot2

 

 

運行以下命令安裝devtools

 

安裝相應的包

 

 

 

 

 

 

 

Install.packages(‘相應的依賴’)

 

 

 

再次嘗試下載devtools,成功。

 

最後執行如下命令安裝taiyun/recharts.

 

 

 

3、可視化分析

1、連接MySQL,並獲取數據

新建終端,並啟動mysql

 

進入mysql命令提示符狀態

 

輸入SQL語句查詢數據

 

切換到R命令視窗,連接到MySQL資料庫

 

 

2、分析消費者對商品的行為

使用summary()函數查看MySQL資料庫表user_action的欄位behavior_type的類型

 

看出user_action表中欄位behavior_type的類型是字元型,這樣不方便作比較,需要將其轉換為數值型,命令與執行結果如下

 

用柱狀圖展示消費者的行為類型的行為類型分佈情況

 

 

 

 

3、分析銷量排名前十的商品及其銷量

獲取子數據集,排序,並獲取第1個到第10個排序結果(第一行是商品分類,第二行表示該類的銷量)

 

採用散點圖展示上面的分析結果

將count矩陣結果轉換成數據框,完成散點圖繪製

 

 

 

 

4、分析每年的哪個月銷量最大

在數據集中增加一列關於月份的數據

visti_date變數中截取月份,user_ation中增加一列月份數據

 

用柱狀圖展示消費者在一年的不同月份的購買量情況

 

 

 

 

5、分析國內哪個省份的消費者最有購買欲望

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 什麼是Git Git 是一個開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的項目。 Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 Git 與常用的版本控制工具 CVS, Subversion 等不同,它採用了分散式版本庫的 ...
  • 使用過 nginx 的小伙伴應該都知道,這個中間件是可以設置跨域的,作為今天的主角,同樣的 反向代理中間件的 YARP 毫無意外也支持了跨域請求設置。 有些小伙伴可能會問了,怎樣才算是跨域呢? 在 HTML 中,一些標簽,例如 img、a 等,還有我們非常熟悉的 Ajax,都是可以指向非本站的資源的 ...
  • 前言 在上一篇文章CLR類型系統概述里提到,當運行時掛起時, 垃圾回收會執行堆棧遍歷器(stack walker)去拿到堆棧上值類型的大小和堆棧根。這裡我們來翻譯BotR里一篇專門介紹Stackwalking的文章,希望能加深理解。 順便說一句,StackWalker在中文里似乎還沒有統一的翻譯,J ...
  • Array.Sort Array類中相當實用的我認為是Sort方法,相比起冗長的冒泡排序,它的出現讓排序更加的簡化 結果如下: 還可以聲明一個靜態方法用來專門調用指定數組排序,從名為 array 的一維數組中 a 索引處開始,到 b 元素 從小到大排序。 註意: a + b 不能大於 array 的 ...
  • Github / Gitee QQ群(1群) : 813100564 / QQ群(2群) : 579033769 視頻教學 介紹 MiniWord .NET Word模板引擎,藉由Word模板和數據簡單、快速生成文件。 Getting Started 安裝 nuget link : https:// ...
  • 軟體安裝 在Linux系統中,安裝軟體的方式主要有四種,這四種安裝方式的特點如下: | 安裝方式 | 特點 | | | | | 二進位發佈包安裝 | 軟體已經針對具體平臺編譯打包發佈,只要解壓,修改配置即可 | | rpm安裝 | 軟體已經按照redhat的包管理規範進行打包,使用rpm命令進行安裝 ...
  • 1、簡介 這裡先介紹下軟體定時器和硬體定時器的區別 硬體定時器: CPU內部自帶的定時器模塊,通過初始化、配置可以實現定時,定時時間到以後就會執行相應的定時器中斷處理函數。硬體定時器一般都帶有其它功能,比如PWM輸出、輸入捕獲等等功能。但是缺點是硬體定時器數量少!! 軟體定時器: 軟體定時器允許設置 ...
  • 一、關機重啟命令 shutdown -h now 立刻進行關機 halt 關機 reboot 重啟電腦 sync 把記憶體數據同步到磁碟 ==關機重啟命令均需要root許可權執行== 二、用戶登錄和註銷命令 su username: 切換用戶,不帶任何參數會進入root;低許可權用戶切換高許可權用戶需要輸入 ...
一周排行
    -Advertisement-
    Play Games
  • 前言 在我們開發過程中基本上不可或缺的用到一些敏感機密數據,比如SQL伺服器的連接串或者是OAuth2的Secret等,這些敏感數據在代碼中是不太安全的,我們不應該在源代碼中存儲密碼和其他的敏感數據,一種推薦的方式是通過Asp.Net Core的機密管理器。 機密管理器 在 ASP.NET Core ...
  • 新改進提供的Taurus Rpc 功能,可以簡化微服務間的調用,同時可以不用再手動輸出模塊名稱,或調用路徑,包括負載均衡,這一切,由框架實現並提供了。新的Taurus Rpc 功能,將使得服務間的調用,更加輕鬆、簡約、高效。 ...
  • 順序棧的介面程式 目錄順序棧的介面程式頭文件創建順序棧入棧出棧利用棧將10進位轉16進位數驗證 頭文件 #include <stdio.h> #include <stdbool.h> #include <stdlib.h> 創建順序棧 // 指的是順序棧中的元素的數據類型,用戶可以根據需要進行修改 ...
  • 前言 整理這個官方翻譯的系列,原因是網上大部分的 tomcat 版本比較舊,此版本為 v11 最新的版本。 開源項目 從零手寫實現 tomcat minicat 別稱【嗅虎】心有猛虎,輕嗅薔薇。 系列文章 web server apache tomcat11-01-官方文檔入門介紹 web serv ...
  • C總結與剖析:關鍵字篇 -- <<C語言深度解剖>> 目錄C總結與剖析:關鍵字篇 -- <<C語言深度解剖>>程式的本質:二進位文件變數1.變數:記憶體上的某個位置開闢的空間2.變數的初始化3.為什麼要有變數4.局部變數與全局變數5.變數的大小由類型決定6.任何一個變數,記憶體賦值都是從低地址開始往高地 ...
  • 如果讓你來做一個有狀態流式應用的故障恢復,你會如何來做呢? 單機和多機會遇到什麼不同的問題? Flink Checkpoint 是做什麼用的?原理是什麼? ...
  • C++ 多級繼承 多級繼承是一種面向對象編程(OOP)特性,允許一個類從多個基類繼承屬性和方法。它使代碼更易於組織和維護,並促進代碼重用。 多級繼承的語法 在 C++ 中,使用 : 符號來指定繼承關係。多級繼承的語法如下: class DerivedClass : public BaseClass1 ...
  • 前言 什麼是SpringCloud? Spring Cloud 是一系列框架的有序集合,它利用 Spring Boot 的開發便利性簡化了分散式系統的開發,比如服務註冊、服務發現、網關、路由、鏈路追蹤等。Spring Cloud 並不是重覆造輪子,而是將市面上開發得比較好的模塊集成進去,進行封裝,從 ...
  • class_template 類模板和函數模板的定義和使用類似,我們已經進行了介紹。有時,有兩個或多個類,其功能是相同的,僅僅是數據類型不同。類模板用於實現類所需數據的類型參數化 template<class NameType, class AgeType> class Person { publi ...
  • 目錄system v IPC簡介共用記憶體需要用到的函數介面shmget函數--獲取對象IDshmat函數--獲得映射空間shmctl函數--釋放資源共用記憶體實現思路註意 system v IPC簡介 消息隊列、共用記憶體和信號量統稱為system v IPC(進程間通信機制),V是羅馬數字5,是UNI ...