大數據——綜合案例

来源:https://www.cnblogs.com/Salinger/archive/2022/09/26/16731463.html
-Advertisement-
Play Games

一、本地數據集上傳到到數據倉庫Hive 1、 實驗數據集的下載 1. 將user.zip下載到指定目錄 2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權 3.創建一個dataset目錄用於保存數據集 4.解壓縮user.zip文件 5.可以看到dataset目錄下由兩個文件 6 ...


一、本地數據集上傳到到數據倉庫Hive

1、 實驗數據集的下載

1. 將user.zip下載到指定目錄

 

2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權

 

3.創建一個dataset目錄用於保存數據集

 

4.解壓縮user.zip文件

 

 5.可以看到dataset目錄下由兩個文件

 

 6.查看文件前五條記錄

 

 

2、 數據集的預處理

1. 刪除文件第一行記錄(即欄位名稱)

 

2. 對欄位進行預處理

1)新建一個腳本文件pre_deal.sh並放在dataset目錄下

 

2)在pre_deal.sh下麵加入以下代碼

 

3)執行pre_deal.sh腳本文件,對small_user.csv進行數據預處理操作

 

4)用head命令查看前10行數據

 

 

3、 導入資料庫

1. 啟動hdfs

 

執行jps命令查看當前運行的進程

 

 

2.把user_table.txt上傳到hadoop中

1)在hdfs根目錄下創建新目錄

 

2)把本地文件系統中的user_table.txt上傳到hdfs系統的目錄下

 

3)查看HDFS中的user_table.txt的前10條記錄

 

 

3. 在Hive上創建數據

1)啟動MySQL資料庫

 

2)進入hive

 

3)在Hive中創建一個資料庫dblab

 

4. 創建外部表

 

 

5. 查詢數據

1)查看bigdata_user表的信息

 

2)查看表的簡單結構

 

 

3)查詢相關數據

 

 

 

二、 Hive數據分析

1、 簡單查詢分析

1. 查看前10位用戶對商品的行為

 

 

2.查詢前20位用戶購買商品時的時間和商品的種類

 

 

3.設置列的別名

 

 

2、 查詢條數統計分析

1.用聚合函數count()計算出表內由多少行數據

 

 

2.在函數內部加上distinct,查出uid不重覆的數據由多少條

 

 

3.查詢不重覆的數據有多少條(為了排除客戶刷單情況)

 

 

3、關鍵字條件查詢分析

1.以關鍵字的存在區間為條件的查詢

(1)查詢2014年12月10日到2014年12月13日有多少人瀏覽了商品

 

執行結果:

 

 

(2)以月的第n天為統計單位,依次顯示第n天網站賣出去的商品的個數。

 

執行結果:

 

 

2.關鍵字賦予定值為條件,對其他數據進行分析

取給定時間和給定地點,求當天發出到該地點的貨物的數量。

 

執行結果:

 

 

4、 根據用戶行為分析

1.查詢一件商品在某天的購買比例

 

執行結果:

 

查詢一件商品在某天的瀏覽比例

 

執行結果:

 

 

2.查詢某個用戶在某一天點擊網站占該天所有點擊行為的比例

 

 

 

 

 

3.給定購物商品的數量範圍,查詢某一天在該網站的購買該數量商品的用戶id

 

 

 

5、 用戶實時查詢分析

查詢某個地區的用戶當天瀏覽網站的次數,語句如下:

創建新的數據表進行存儲

 

導入數據

 

顯示結果

 

執行結果如下:

 

 

三、 Hive、MySQL、HBase數據互導

1、 Hive預操作

1.創建臨時表user_action

 

查看是否創建成功

 

 

2.將bigdata_user表中的數據插入到user_action

 

查看是否插入成功

 

 

 

 

2、 使用Sqoop將數據從Hive導入MySQL

1.將前面生成的臨時表數據從Hive導入到MySQL中

1)、登錄MySQL

新建終端,執行以下命令

 

2)、創建資料庫

 

使用以下命令查看資料庫編碼是否utf8

 

3)創建表

在MySQL資料庫中dblab中創建一個新表user_action,並設置編碼為utf8

 

Exit

 

查看是否創建成功

 

4)導入數據

 

 

2.查看MySQL中的user_action表數據

啟動MySQL資料庫

 

執行命令查詢user_action表中的數據

 

 

3、使用sqoop將數據從MySQL導入HBase

1.啟動Hadoop、MySQL、HBase

因為前面的操作所以除了HBase以外都啟動了,故此次啟動HBase,新建一個終端

 

 

2.啟動Hbase shell

 

 

3.創建表user_action

 

 

4.新建終端,進入sqoop,導入數據

 

 

5.查看hbase中user_action表數據

 

 

 

 

4、 使用HBase Java API 把數據從本地導入到HBase中

1.啟動Hadoop、HBase

 

 

 

2.數據準備

將之前的user_action數據從hdfs複製到linux系統的本地文件系統中,操作如下

先進入/usr/local/bigdatacase/dataset中

 

將hdfs上的user_action數據複製到本地當前目錄中

 

查看前10行數據

 

將00000*文件複製一份重命名為user_action.output(*表示通配符)

 

查看user_action.output前十行

 

 

3.編寫數據導入程式

啟動eclipse

 

創建java project並命名為ImportHBase

 

 

新建HBaseImportTest class,並輸入以下代碼

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.ResultScanner;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.util.Bytes;

public class HBaseImportTest extends Thread {

    public Configuration config;

    public HTable table;

    public HBaseAdmin admin;

    public HBaseImportTest() {

        config = HBaseConfiguration.create();

//      config.set("hbase.master", "master:60000");

//      config.set("hbase.zookeeper.quorum", "master");

        try {

            table = new HTable(config, Bytes.toBytes("user_action"));

            admin = new HBaseAdmin(config);

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

    public static void main(String[] args) throws Exception {

        if (args.length == 0) {       //第一個參數是該jar所使用的類,第二個參數是數據集所存放的路徑

            throw new Exception("You must set input path!");

        }

        String fileName = args[args.length-1];  //輸入的文件路徑是最後一個參數

        HBaseImportTest test = new HBaseImportTest();

        test.importLocalFileToHBase(fileName);

    }

    public void importLocalFileToHBase(String fileName) {

        long st = System.currentTimeMillis();

        BufferedReader br = null;

        try {

            br = new BufferedReader(new InputStreamReader(new FileInputStream(

                    fileName)));

            String line = null;

            int count = 0;

            while ((line = br.readLine()) != null) {

                count++;

                put(line);

                if (count % 10000 == 0)

                    System.out.println(count);

            }

        } catch (IOException e) {

            e.printStackTrace();

        } finally {

            if (br != null) {

                try {

                    br.close();

                } catch (IOException e) {

                    e.printStackTrace();

                }

            }

            try {

                table.flushCommits();

                table.close(); // must close the client

            } catch (IOException e) {

                e.printStackTrace();

            }

        }

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

    @SuppressWarnings("deprecation")

    public void put(String line) throws IOException {

        String[] arr = line.split("\t", -1);

        String[] column = {"id","uid","item_id","behavior_type","item_category","date","province"};

 

        if (arr.length == 7) {

            Put put = new Put(Bytes.toBytes(arr[0]));// rowkey

            for(int i=1;i<arr.length;i++){

                put.add(Bytes.toBytes("f1"), Bytes.toBytes(column[i]),Bytes.toBytes(arr[i]));

            }

            table.put(put); // put to server

        }

    }

    public void get(String rowkey, String columnFamily, String column,

            int versions) throws IOException {

        long st = System.currentTimeMillis();

        Get get = new Get(Bytes.toBytes(rowkey));

        get.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column));

        Scan scanner = new Scan(get);

        scanner.setMaxVersions(versions);

        ResultScanner rsScanner = table.getScanner(scanner);

        for (Result result : rsScanner) {

            final List<KeyValue> list = result.list();

            for (final KeyValue kv : list) {

                System.out.println(Bytes.toStringBinary(kv.getValue()) + "\t"

                        + kv.getTimestamp()); // mid + time

            }

        }

        rsScanner.close();

        long en2 = System.currentTimeMillis();

        System.out.println("Total Time: " + (en2 - st) + " ms");

    }

}

 

 

在/usr/local/bigdatacase下新建hbase子目錄,用來存放導出的ImportHBase.jar

 

打包成可執行jar包並導出至/usr/local/bigdatacase/hbase目錄下

 

 

4.數據導入

在導入數據前,先把user_action表清空

 

 

運行hadoop jar命令來運行剛剛的jar包

 

 

 

5.查看HBase中user_action表數據

 

 

 

四、利用R進行數據可視化分析

1、安裝R

用vim編輯器打開/etc/apt/sources.list文件

 

在文件的最後一行添加廈門大學的鏡像源

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

 

執行如下命令安裝R語言

 

 

用vim編輯器打開/etc/apt/sources.list文件

 

在文件最後一行添加下列語句

 

保存文件退出vim編輯器,執行如下命令更新軟體源列表

 

執行如下命令安裝R語言

 

 

 

啟動R

 

執行以下命令退出

 

 

2、安裝依賴庫

進入R命令模式,輸入以下命令

 

出現以下錯誤信息

 

執行下列語句

 

再次執行RMySQL下載命令

 

 

執行如下命令安裝繪圖包ggplot2

 

 

運行以下命令安裝devtools

 

安裝相應的包

 

 

 

 

 

 

 

Install.packages(‘相應的依賴’)

 

 

 

再次嘗試下載devtools,成功。

 

最後執行如下命令安裝taiyun/recharts.

 

 

 

3、可視化分析

1、連接MySQL,並獲取數據

新建終端,並啟動mysql

 

進入mysql命令提示符狀態

 

輸入SQL語句查詢數據

 

切換到R命令視窗,連接到MySQL資料庫

 

 

2、分析消費者對商品的行為

使用summary()函數查看MySQL資料庫表user_action的欄位behavior_type的類型

 

看出user_action表中欄位behavior_type的類型是字元型,這樣不方便作比較,需要將其轉換為數值型,命令與執行結果如下

 

用柱狀圖展示消費者的行為類型的行為類型分佈情況

 

 

 

 

3、分析銷量排名前十的商品及其銷量

獲取子數據集,排序,並獲取第1個到第10個排序結果(第一行是商品分類,第二行表示該類的銷量)

 

採用散點圖展示上面的分析結果

將count矩陣結果轉換成數據框,完成散點圖繪製

 

 

 

 

4、分析每年的哪個月銷量最大

在數據集中增加一列關於月份的數據

visti_date變數中截取月份,user_ation中增加一列月份數據

 

用柱狀圖展示消費者在一年的不同月份的購買量情況

 

 

 

 

5、分析國內哪個省份的消費者最有購買欲望

 

 

 

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 什麼是Git Git 是一個開源的分散式版本控制系統,用於敏捷高效地處理任何或小或大的項目。 Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 Git 與常用的版本控制工具 CVS, Subversion 等不同,它採用了分散式版本庫的 ...
  • 使用過 nginx 的小伙伴應該都知道,這個中間件是可以設置跨域的,作為今天的主角,同樣的 反向代理中間件的 YARP 毫無意外也支持了跨域請求設置。 有些小伙伴可能會問了,怎樣才算是跨域呢? 在 HTML 中,一些標簽,例如 img、a 等,還有我們非常熟悉的 Ajax,都是可以指向非本站的資源的 ...
  • 前言 在上一篇文章CLR類型系統概述里提到,當運行時掛起時, 垃圾回收會執行堆棧遍歷器(stack walker)去拿到堆棧上值類型的大小和堆棧根。這裡我們來翻譯BotR里一篇專門介紹Stackwalking的文章,希望能加深理解。 順便說一句,StackWalker在中文里似乎還沒有統一的翻譯,J ...
  • Array.Sort Array類中相當實用的我認為是Sort方法,相比起冗長的冒泡排序,它的出現讓排序更加的簡化 結果如下: 還可以聲明一個靜態方法用來專門調用指定數組排序,從名為 array 的一維數組中 a 索引處開始,到 b 元素 從小到大排序。 註意: a + b 不能大於 array 的 ...
  • Github / Gitee QQ群(1群) : 813100564 / QQ群(2群) : 579033769 視頻教學 介紹 MiniWord .NET Word模板引擎,藉由Word模板和數據簡單、快速生成文件。 Getting Started 安裝 nuget link : https:// ...
  • 軟體安裝 在Linux系統中,安裝軟體的方式主要有四種,這四種安裝方式的特點如下: | 安裝方式 | 特點 | | | | | 二進位發佈包安裝 | 軟體已經針對具體平臺編譯打包發佈,只要解壓,修改配置即可 | | rpm安裝 | 軟體已經按照redhat的包管理規範進行打包,使用rpm命令進行安裝 ...
  • 1、簡介 這裡先介紹下軟體定時器和硬體定時器的區別 硬體定時器: CPU內部自帶的定時器模塊,通過初始化、配置可以實現定時,定時時間到以後就會執行相應的定時器中斷處理函數。硬體定時器一般都帶有其它功能,比如PWM輸出、輸入捕獲等等功能。但是缺點是硬體定時器數量少!! 軟體定時器: 軟體定時器允許設置 ...
  • 一、關機重啟命令 shutdown -h now 立刻進行關機 halt 關機 reboot 重啟電腦 sync 把記憶體數據同步到磁碟 ==關機重啟命令均需要root許可權執行== 二、用戶登錄和註銷命令 su username: 切換用戶,不帶任何參數會進入root;低許可權用戶切換高許可權用戶需要輸入 ...
一周排行
    -Advertisement-
    Play Games
  • C#TMS系統代碼-基礎頁面BaseCity學習 本人純新手,剛進公司跟領導報道,我說我是java全棧,他問我會不會C#,我說大學學過,他說這個TMS系統就給你來管了。外包已經把代碼給我了,這幾天先把增刪改查的代碼背一下,說不定後面就要趕鴨子上架了 Service頁面 //using => impo ...
  • 委托與事件 委托 委托的定義 委托是C#中的一種類型,用於存儲對方法的引用。它允許將方法作為參數傳遞給其他方法,實現回調、事件處理和動態調用等功能。通俗來講,就是委托包含方法的記憶體地址,方法匹配與委托相同的簽名,因此通過使用正確的參數類型來調用方法。 委托的特性 引用方法:委托允許存儲對方法的引用, ...
  • 前言 這幾天閑來沒事看看ABP vNext的文檔和源碼,關於關於依賴註入(屬性註入)這塊兒產生了興趣。 我們都知道。Volo.ABP 依賴註入容器使用了第三方組件Autofac實現的。有三種註入方式,構造函數註入和方法註入和屬性註入。 ABP的屬性註入原則參考如下: 這時候我就開始疑惑了,因為我知道 ...
  • C#TMS系統代碼-業務頁面ShippingNotice學習 學一個業務頁面,ok,領導開完會就被裁掉了,很突然啊,他收拾東西的時候我還以為他要旅游提前請假了,還在尋思為什麼回家連自己買的幾箱飲料都要叫跑腿帶走,怕被偷嗎?還好我在他開會之前拿了兩瓶芬達 感覺感覺前面的BaseCity差不太多,這邊的 ...
  • 概述:在C#中,通過`Expression`類、`AndAlso`和`OrElse`方法可組合兩個`Expression<Func<T, bool>>`,實現多條件動態查詢。通過創建表達式樹,可輕鬆構建複雜的查詢條件。 在C#中,可以使用AndAlso和OrElse方法組合兩個Expression< ...
  • 閑來無聊在我的Biwen.QuickApi中實現一下極簡的事件匯流排,其實代碼還是蠻簡單的,對於初學者可能有些幫助 就貼出來,有什麼不足的地方也歡迎板磚交流~ 首先定義一個事件約定的空介面 public interface IEvent{} 然後定義事件訂閱者介面 public interface I ...
  • 1. 案例 成某三甲醫預約系統, 該項目在2024年初進行上線測試,在正常運行了兩天後,業務系統報錯:The connection pool has been exhausted, either raise MaxPoolSize (currently 800) or Timeout (curren ...
  • 背景 我們有些工具在 Web 版中已經有了很好的實踐,而在 WPF 中重新開發也是一種費時費力的操作,那麼直接集成則是最省事省力的方法了。 思路解釋 為什麼要使用 WPF?莫問為什麼,老 C# 開發的堅持,另外因為 Windows 上已經裝了 Webview2/edge 整體打包比 electron ...
  • EDP是一套集組織架構,許可權框架【功能許可權,操作許可權,數據訪問許可權,WebApi許可權】,自動化日誌,動態Interface,WebApi管理等基礎功能於一體的,基於.net的企業應用開發框架。通過友好的編碼方式實現數據行、列許可權的管控。 ...
  • .Net8.0 Blazor Hybird 桌面端 (WPF/Winform) 實測可以完整運行在 win7sp1/win10/win11. 如果用其他工具打包,還可以運行在mac/linux下, 傳送門BlazorHybrid 發佈為無依賴包方式 安裝 WebView2Runtime 1.57 M ...