大數據——綜合案例

来源:https://www.cnblogs.com/Salinger/archive/2022/09/26/16731463.html
-Advertisement-
Play Games

一、本地數據集上傳到到數據倉庫Hive 1、 實驗數據集的下載 1. 將user.zip下載到指定目錄 2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權 3.創建一個dataset目錄用於保存數據集 4.解壓縮user.zip文件 5.可以看到dataset目錄下由兩個文件 6 ...


一、本地數據集上傳到到數據倉庫Hive

1、 實驗數據集的下載

1. 將user.zip下載到指定目錄

 

2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權

 

3.創建一個dataset目錄用於保存數據集

 

4.解壓縮user.zip文件

 

 5.可以看到dataset目錄下由兩個文件

 

 6.查看文件前五條記錄

 

 

2、 數據集的預處理

1. 刪除文件第一行記錄(即欄位名稱)

 

2. 對欄位進行預處理

1)新建一個腳本文件pre_deal.sh並放在dataset目錄下

 

2)在pre_deal.sh下麵加入以下代碼

 

3)執行pre_deal.sh腳本文件,對small_user.csv進行數據預處理操作

 

4)用head命令查看前10行數據

 

 

3、 導入資料庫

1. 啟動hdfs

 

執行jps命令查看當前運行的進程

 

 

2.把user_table.txt上傳到hadoop中

1)在hdfs根目錄下創建新目錄

 

2)把本地文件系統中的user_table.txt上傳到hdfs系統的目錄下

 

3)查看HDFS中的user_table.txt的前10條記錄

 

 

3. 在Hive上創建數據

1)啟動MySQL資料庫

 

2)進入hive

 

3)在Hive中創建一個資料庫dblab

 

4. 創建外部表

 

 

5. 查詢數據

1)查看bigdata_user表的信息

 

2)查看表的簡單結構

 

 

3)查詢相關數據

 

 

 

二、 Hive數據分析

1、 簡單查詢分析

1. 查看前10位用戶對商品的行為

 

 

2.查詢前20位用戶購買商品時的時間和商品的種類

 

 

3.設置列的別名

 

 

2、 查詢條數統計分析

1.用聚合函數count()計算出表內由多少行數據

 

 

2.在函數內部加上distinct,查出uid不重覆的數據由多少條

 

 

3.查詢不重覆的數據有多少條(為了排除客戶刷單情況)

 

 

3、關鍵字條件查詢分析

1.以關鍵字的存在區間為條件的查詢

(1)查詢2014年12月10日到2014年12月13日有多少人瀏覽了商品

 

執行結果:

 

 

(2)以月的第n天為統計單位,依次顯示第n天網站賣出去的商品的個數。

 

執行結果:

 

 

2.關鍵字賦予定值為條件,對其他數據進行分析

取給定時間和給定地點,求當天發出到該地點的貨物的數量。

 

執行結果:

 

 

4、 根據用戶行為分析

1.查詢一件商品在某天的購買比例

 

執行結果:

 

查詢一件商品在某天的瀏覽比例

 

執行結果:

 

 

2.查詢某個用戶在某一天點擊網站占該天所有點擊行為的比例

 

 

 

 

 

3.給定購物商品的數量範圍,查詢某一天在該網站的購買該數量商品的用戶id

 

 

 

5、 用戶實時查詢分析

查詢某個地區的用戶當天瀏覽網站的次數,語句如下:

創建新的數據表進行存儲

 

導入數據

 

顯示結果

 

執行結果如下:

 

 

三、 Hive、MySQL、HBase數據互導

1、 Hive預操作

1.創建臨時表user_action

 

查看是否創建成功

 

 

2.將bigdata_user表中的數據插入到user_action

 

查看是否插入成功

 

 

 

 

2、 使用Sqoop將數據從Hive導入MySQL

1.將前面生成的臨時表數據從Hive導入到MySQL中

1)、登錄MySQL

新建終端,執行以下命令

 

2)、創建資料庫

 

使用以下命令查看資料庫編碼是否utf8

 

3)創建表

在MySQL資料庫中dblab中創建一個新表user_action,並設置編碼為utf8

 

Exit

 

查看是否創建成功

 

4)導入數據

 

 

2.查看MySQL中的user_action表數據

啟動MySQL資料庫

 

執行命令查詢user_action表中的數據

 

 

3、使用sqoop將數據從MySQL導入HBase

1.啟動Hadoop、MySQL、HBase

因為前面的操作所以除了HBase以外都啟動了,故此次啟動HBase,新建一個終端

 

 

2.啟動Hbase shell

 

 

3.創建表user_action

 

 

4.新建終端,進入sqoop,導入數據

 

 

5.查看hbase中user_action表數據

 

 

 

 

4、 使用HBase Java API 把數據從本地導入到HBase中

1.啟動Hadoop、HBase

 

 

 

2.數據準備

將之前的user_action數據從hdfs複製到linux系統的本地文件系統中,操作如下

先進入/usr/local/bigdatacase/dataset中

 

將hdfs上的user_action數據複製到本地當前目錄中

 

查看前10行數據

 

將00000*文件複製一份重命名為user_action.output(*表示通配符)

 

查看user_action.output前十行

 

 

3.編寫數據導入程式

啟動eclipse

 

創建java project並命名為ImportHBase

 

 

新建HBaseImportTest class,並輸入以下代碼

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.ResultScanner;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.util.Bytes;

public class HBaseImportTest extends Thread {

    public Configuration config;

    public HTable table;

    public HBaseAdmin admin;

    public HBaseImportTest() {

        config = HBaseConfiguration.create();

//      config.set("hbase.master", "master:60000");

//      config.set("hbase.zookeeper.quorum", "master");

        try {

            table = new HTable(config, Bytes.toBytes("user_action"));

            admin = new HBaseAdmin(config);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) throws Exception {

        if (args.length == 0) {       //第一個參數是該jar所使用的類,第二個參數是數據集所存放的路徑

            throw new Exception("You must set input path!");

        }

        String fileName = args[args.length-1];  //輸入的文件路徑是最後一個參數

        HBaseImportTest test = new HBaseImportTest();

        test.importLocalFileToHBase(fileName);

    }

    public void importLocalFileToHBase(String fileName) {

        long st = System.currentTimeMillis();

        BufferedReader br = null;

        try {

            br = new BufferedReader(new InputStreamReader(new FileInputStream(

                    fileName)));

            String line = null;

            int count = 0;

            while ((line = br.readLine()) != null) {

                count++;

                put(line);

                if (count % 10000 == 0)

                    System.out.println(count);

            }

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            if (br != null) {

                try {

                    br.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

            try {

                table.flushCommits();

                table.close(); // must close the client

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

    @SuppressWarnings("deprecation")

    public void put(String line) throws IOException {

        String[] arr = line.split("\t", -1);

        String[] column = {"id","uid","item_id","behavior_type","item_category","date","province"};

 

        if (arr.length == 7) {

            Put put = new Put(Bytes.toBytes(arr[0]));// rowkey

            for(int i=1;i<arr.length;i++){

                put.add(Bytes.toBytes("f1"), Bytes.toBytes(column[i]),Bytes.toBytes(arr[i]));

            }

            table.put(put); // put to server

        }

    }

    public void get(String rowkey, String columnFamily, String column,

            int versions) throws IOException {

        long st = System.currentTimeMillis();

        Get get = new Get(Bytes.toBytes(rowkey));

        get.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column));

        Scan scanner = new Scan(get);

        scanner.setMaxVersions(versions);

        ResultScanner rsScanner = table.getScanner(scanner);

        for (Result result : rsScanner) {

            final List<KeyValue> list = result.list();

            for (final KeyValue kv : list) {

                System.out.println(Bytes.toStringBinary(kv.getValue()) + "\t"

                        + kv.getTimestamp()); // mid + time

            }

        }

        rsScanner.close();

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

}

 

 

在/usr/local/bigdatacase下新建hbase子目錄,用來存放導出的ImportHBase.jar

 

打包成可執行jar包並導出至/usr/local/bigdatacase/hbase目錄下

 

 

4.數據導入

在導入數據前,先把user_action表清空

 

 

運行hadoop jar命令來運行剛剛的jar包

 

 

 

5.查看HBase中user_action表數據

 

 

 

四、利用R進行數據可視化分析

1、安裝R

用vim編輯器打開/etc/apt/sources.list文件

 

在文件的最後一行添加廈門大學的鏡像源

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

 

執行如下命令安裝R語言

 

 

用vim編輯器打開/etc/apt/sources.list文件

 

在文件最後一行添加下列語句

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

執行如下命令安裝R語言

 

 

 

啟動R

 

執行以下命令退出

 

 

2、安裝依賴庫

進入R命令模式,輸入以下命令

 

出現以下錯誤信息

 

執行下列語句

 

再次執行RMySQL下載命令

 

 

執行如下命令安裝繪圖包ggplot2

 

 

運行以下命令安裝devtools

 

安裝相應的包

 

 

 

 

 

 

 

Install.packages(‘相應的依賴’)

 

 

 

再次嘗試下載devtools,成功。

 

最後執行如下命令安裝taiyun/recharts.

 

 

 

3、可視化分析

1、連接MySQL,並獲取數據

新建終端,並啟動mysql

 

進入mysql命令提示符狀態

 

輸入SQL語句查詢數據

 

切換到R命令視窗,連接到MySQL資料庫

 

 

2、分析消費者對商品的行為

使用summary()函數查看MySQL資料庫表user_action的欄位behavior_type的類型

 

看出user_action表中欄位behavior_type的類型是字元型,這樣不方便作比較,需要將其轉換為數值型,命令與執行結果如下

 

用柱狀圖展示消費者的行為類型的行為類型分佈情況

 

 

 

 

3、分析銷量排名前十的商品及其銷量

獲取子數據集,排序,並獲取第1個到第10個排序結果(第一行是商品分類,第二行表示該類的銷量)

 

採用散點圖展示上面的分析結果

將count矩陣結果轉換成數據框,完成散點圖繪製

 

 

 

 

4、分析每年的哪個月銷量最大

在數據集中增加一列關於月份的數據

visti_date變數中截取月份,user_ation中增加一列月份數據

 

用柱狀圖展示消費者在一年的不同月份的購買量情況

 

 

 

 

5、分析國內哪個省份的消費者最有購買欲望

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 什麼是Git Git 是一個開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的項目。 Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 Git 與常用的版本控制工具 CVS, Subversion 等不同,它採用了分散式版本庫的 ...
  • 使用過 nginx 的小伙伴應該都知道,這個中間件是可以設置跨域的,作為今天的主角,同樣的 反向代理中間件的 YARP 毫無意外也支持了跨域請求設置。 有些小伙伴可能會問了,怎樣才算是跨域呢? 在 HTML 中,一些標簽,例如 img、a 等,還有我們非常熟悉的 Ajax,都是可以指向非本站的資源的 ...
  • 前言 在上一篇文章CLR類型系統概述里提到,當運行時掛起時, 垃圾回收會執行堆棧遍歷器(stack walker)去拿到堆棧上值類型的大小和堆棧根。這裡我們來翻譯BotR里一篇專門介紹Stackwalking的文章,希望能加深理解。 順便說一句,StackWalker在中文里似乎還沒有統一的翻譯,J ...
  • Array.Sort Array類中相當實用的我認為是Sort方法,相比起冗長的冒泡排序,它的出現讓排序更加的簡化 結果如下: 還可以聲明一個靜態方法用來專門調用指定數組排序,從名為 array 的一維數組中 a 索引處開始,到 b 元素 從小到大排序。 註意: a + b 不能大於 array 的 ...
  • Github / Gitee QQ群(1群) : 813100564 / QQ群(2群) : 579033769 視頻教學 介紹 MiniWord .NET Word模板引擎,藉由Word模板和數據簡單、快速生成文件。 Getting Started 安裝 nuget link : https:// ...
  • 軟體安裝 在Linux系統中,安裝軟體的方式主要有四種,這四種安裝方式的特點如下: | 安裝方式 | 特點 | | | | | 二進位發佈包安裝 | 軟體已經針對具體平臺編譯打包發佈,只要解壓,修改配置即可 | | rpm安裝 | 軟體已經按照redhat的包管理規範進行打包,使用rpm命令進行安裝 ...
  • 1、簡介 這裡先介紹下軟體定時器和硬體定時器的區別 硬體定時器: CPU內部自帶的定時器模塊,通過初始化、配置可以實現定時,定時時間到以後就會執行相應的定時器中斷處理函數。硬體定時器一般都帶有其它功能,比如PWM輸出、輸入捕獲等等功能。但是缺點是硬體定時器數量少!! 軟體定時器: 軟體定時器允許設置 ...
  • 一、關機重啟命令 shutdown -h now 立刻進行關機 halt 關機 reboot 重啟電腦 sync 把記憶體數據同步到磁碟 ==關機重啟命令均需要root許可權執行== 二、用戶登錄和註銷命令 su username: 切換用戶,不帶任何參數會進入root;低許可權用戶切換高許可權用戶需要輸入 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...