大數據——綜合案例

来源:https://www.cnblogs.com/Salinger/archive/2022/09/26/16731463.html

-Advertisement-

Play Games

一、本地數據集上傳到到數據倉庫Hive 1、實驗數據集的下載 1. 將user.zip下載到指定目錄 2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權 3.創建一個dataset目錄用於保存數據集 4.解壓縮user.zip文件 5.可以看到dataset目錄下由兩個文件 6 ...

一、本地數據集上傳到到數據倉庫Hive

1、實驗數據集的下載

1. 將user.zip下載到指定目錄

2.給hadoop用戶賦予針對bigdatacase目錄的各種操作許可權

3.創建一個dataset目錄用於保存數據集

4.解壓縮user.zip文件

5.可以看到dataset目錄下由兩個文件

6.查看文件前五條記錄

2、數據集的預處理

1. 刪除文件第一行記錄（即欄位名稱）

2. 對欄位進行預處理

1）新建一個腳本文件pre_deal.sh並放在dataset目錄下

2）在pre_deal.sh下麵加入以下代碼

3）執行pre_deal.sh腳本文件，對small_user.csv進行數據預處理操作

4）用head命令查看前10行數據

3、導入資料庫

1. 啟動hdfs

執行jps命令查看當前運行的進程

2.把user_table.txt上傳到hadoop中

1）在hdfs根目錄下創建新目錄

2）把本地文件系統中的user_table.txt上傳到hdfs系統的目錄下

3）查看HDFS中的user_table.txt的前10條記錄

3. 在Hive上創建數據

1）啟動MySQL資料庫

2）進入hive

3）在Hive中創建一個資料庫dblab

4. 創建外部表

5. 查詢數據

1）查看bigdata_user表的信息

2）查看表的簡單結構

3）查詢相關數據

二、 Hive數據分析

1、簡單查詢分析

1. 查看前10位用戶對商品的行為

2.查詢前20位用戶購買商品時的時間和商品的種類

3.設置列的別名

2、查詢條數統計分析

1.用聚合函數count()計算出表內由多少行數據

2.在函數內部加上distinct,查出uid不重覆的數據由多少條

3.查詢不重覆的數據有多少條（為了排除客戶刷單情況）

3、關鍵字條件查詢分析

1.以關鍵字的存在區間為條件的查詢

（1）查詢2014年12月10日到2014年12月13日有多少人瀏覽了商品

執行結果：

（2）以月的第n天為統計單位，依次顯示第n天網站賣出去的商品的個數。

執行結果：

2.關鍵字賦予定值為條件，對其他數據進行分析

取給定時間和給定地點，求當天發出到該地點的貨物的數量。

執行結果：

4、根據用戶行為分析

1.查詢一件商品在某天的購買比例

執行結果：

查詢一件商品在某天的瀏覽比例

執行結果：

2.查詢某個用戶在某一天點擊網站占該天所有點擊行為的比例

3.給定購物商品的數量範圍，查詢某一天在該網站的購買該數量商品的用戶id

5、用戶實時查詢分析

查詢某個地區的用戶當天瀏覽網站的次數，語句如下：

創建新的數據表進行存儲

導入數據

顯示結果

執行結果如下：

三、 Hive、MySQL、HBase數據互導

1、 Hive預操作

1.創建臨時表user_action

查看是否創建成功

2.將bigdata_user表中的數據插入到user_action

查看是否插入成功

2、使用Sqoop將數據從Hive導入MySQL

1.將前面生成的臨時表數據從Hive導入到MySQL中

1）、登錄MySQL

新建終端，執行以下命令

2）、創建資料庫

使用以下命令查看資料庫編碼是否utf8

3）創建表

在MySQL資料庫中dblab中創建一個新表user_action，並設置編碼為utf8

Exit

查看是否創建成功

4）導入數據

2.查看MySQL中的user_action表數據

啟動MySQL資料庫

執行命令查詢user_action表中的數據

3、使用sqoop將數據從MySQL導入HBase

1.啟動Hadoop、MySQL、HBase

因為前面的操作所以除了HBase以外都啟動了，故此次啟動HBase，新建一個終端

2.啟動Hbase shell

3.創建表user_action

4.新建終端，進入sqoop,導入數據

5.查看hbase中user_action表數據

4、使用HBase Java API 把數據從本地導入到HBase中

1.啟動Hadoop、HBase

2.數據準備

將之前的user_action數據從hdfs複製到linux系統的本地文件系統中，操作如下

先進入/usr/local/bigdatacase/dataset中

將hdfs上的user_action數據複製到本地當前目錄中

查看前10行數據

將00000*文件複製一份重命名為user_action.output（*表示通配符）

查看user_action.output前十行

3.編寫數據導入程式

啟動eclipse

創建java project並命名為ImportHBase

新建HBaseImportTest class,並輸入以下代碼

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.hbase.HBaseConfiguration;

import org.apache.hadoop.hbase.KeyValue;

import org.apache.hadoop.hbase.client.Get;

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.HTable;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.client.Result;

import org.apache.hadoop.hbase.client.ResultScanner;

import org.apache.hadoop.hbase.client.Scan;

import org.apache.hadoop.hbase.util.Bytes;

public class HBaseImportTest extends Thread {

public Configuration config;

public HTable table;

public HBaseAdmin admin;

public HBaseImportTest() {

config = HBaseConfiguration.create();

// config.set("hbase.master", "master:60000");

// config.set("hbase.zookeeper.quorum", "master");

try {

table = new HTable(config, Bytes.toBytes("user_action"));

admin = new HBaseAdmin(config);

} catch (IOException e) {

e.printStackTrace();

}

}

public static void main(String[] args) throws Exception {

if (args.length == 0) { //第一個參數是該jar所使用的類，第二個參數是數據集所存放的路徑

throw new Exception("You must set input path!");

}

String fileName = args[args.length-1]; //輸入的文件路徑是最後一個參數

HBaseImportTest test = new HBaseImportTest();

test.importLocalFileToHBase(fileName);

}

public void importLocalFileToHBase(String fileName) {

long st = System.currentTimeMillis();

BufferedReader br = null;

try {

br = new BufferedReader(new InputStreamReader(new FileInputStream(

fileName)));

String line = null;

int count = 0;

while ((line = br.readLine()) != null) {

count++;

put(line);

if (count % 10000 == 0)

System.out.println(count);

}

} catch (IOException e) {

e.printStackTrace();

} finally {

if (br != null) {

try {

br.close();

} catch (IOException e) {

e.printStackTrace();

}

}

try {

table.flushCommits();

table.close(); // must close the client

} catch (IOException e) {

e.printStackTrace();

}

}

long en2 = System.currentTimeMillis();

System.out.println("Total Time: " + (en2 - st) + " ms");

}

@SuppressWarnings("deprecation")

public void put(String line) throws IOException {

String[] arr = line.split("\t", -1);

String[] column = {"id","uid","item_id","behavior_type","item_category","date","province"};

if (arr.length == 7) {

Put put = new Put(Bytes.toBytes(arr[0]));// rowkey

for(int i=1;i<arr.length;i++){

put.add(Bytes.toBytes("f1"), Bytes.toBytes(column[i]),Bytes.toBytes(arr[i]));

}

table.put(put); // put to server

}

}

public void get(String rowkey, String columnFamily, String column,

int versions) throws IOException {

long st = System.currentTimeMillis();

Get get = new Get(Bytes.toBytes(rowkey));

get.addColumn(Bytes.toBytes(columnFamily), Bytes.toBytes(column));

Scan scanner = new Scan(get);

scanner.setMaxVersions(versions);

ResultScanner rsScanner = table.getScanner(scanner);

for (Result result : rsScanner) {

final List<KeyValue> list = result.list();

for (final KeyValue kv : list) {

System.out.println(Bytes.toStringBinary(kv.getValue()) + "\t"

+ kv.getTimestamp()); // mid + time

}

}

rsScanner.close();

long en2 = System.currentTimeMillis();

System.out.println("Total Time: " + (en2 - st) + " ms");

}

}

在/usr/local/bigdatacase下新建hbase子目錄，用來存放導出的ImportHBase.jar

打包成可執行jar包並導出至/usr/local/bigdatacase/hbase目錄下

4.數據導入

在導入數據前，先把user_action表清空

運行hadoop jar命令來運行剛剛的jar包

5.查看HBase中user_action表數據

四、利用R進行數據可視化分析

1、安裝R

用vim編輯器打開/etc/apt/sources.list文件

在文件的最後一行添加廈門大學的鏡像源

保存文件退出vim編輯器，執行如下命令更新軟體源列表

執行如下命令安裝R語言

用vim編輯器打開/etc/apt/sources.list文件

在文件最後一行添加下列語句

保存文件退出vim編輯器，執行如下命令更新軟體源列表

執行如下命令安裝R語言

啟動R

執行以下命令退出

2、安裝依賴庫

進入R命令模式，輸入以下命令

出現以下錯誤信息

執行下列語句

再次執行RMySQL下載命令

執行如下命令安裝繪圖包ggplot2

運行以下命令安裝devtools

安裝相應的包

Install.packages(‘相應的依賴’)

再次嘗試下載devtools，成功。

最後執行如下命令安裝taiyun/recharts.

3、可視化分析

1、連接MySQL，並獲取數據

新建終端，並啟動mysql

進入mysql命令提示符狀態

輸入SQL語句查詢數據

切換到R命令視窗，連接到MySQL資料庫

2、分析消費者對商品的行為

使用summary()函數查看MySQL資料庫表user_action的欄位behavior_type的類型

看出user_action表中欄位behavior_type的類型是字元型，這樣不方便作比較，需要將其轉換為數值型，命令與執行結果如下

用柱狀圖展示消費者的行為類型的行為類型分佈情況

3、分析銷量排名前十的商品及其銷量

獲取子數據集，排序，並獲取第1個到第10個排序結果（第一行是商品分類，第二行表示該類的銷量）

採用散點圖展示上面的分析結果

將count矩陣結果轉換成數據框，完成散點圖繪製

4、分析每年的哪個月銷量最大

在數據集中增加一列關於月份的數據

visti_date變數中截取月份，user_ation中增加一列月份數據

用柱狀圖展示消費者在一年的不同月份的購買量情況

5、分析國內哪個省份的消費者最有購買欲望

您的分享是我們最大的動力!

-Advertisement-

Play Games

更多相關文章

Git 分支管理規範

什麼是Git Git 是一個開源的分散式版本控制系統，用於敏捷高效地處理任何或小或大的項目。 Git 是 Linus Torvalds 為了幫助管理 Linux 內核開發而開發的一個開放源碼的版本控制軟體。 Git 與常用的版本控制工具 CVS, Subversion 等不同，它採用了分散式版本庫的 ...
.NET 反向代理 YARP 跨域請求 CORS

使用過 nginx 的小伙伴應該都知道，這個中間件是可以設置跨域的，作為今天的主角，同樣的反向代理中間件的 YARP 毫無意外也支持了跨域請求設置。有些小伙伴可能會問了，怎樣才算是跨域呢？在 HTML 中，一些標簽，例如 img、a 等，還有我們非常熟悉的 Ajax，都是可以指向非本站的資源的 ...
【BotR】CLR堆棧遍歷（Stackwalking in CLR）

前言在上一篇文章CLR類型系統概述里提到，當運行時掛起時，垃圾回收會執行堆棧遍歷器（stack walker）去拿到堆棧上值類型的大小和堆棧根。這裡我們來翻譯BotR里一篇專門介紹Stackwalking的文章，希望能加深理解。順便說一句，StackWalker在中文里似乎還沒有統一的翻譯，J ...
C#中Array類中的常用方法（本章選出較常用方法，並不是所有方法）

Array.Sort Array類中相當實用的我認為是Sort方法，相比起冗長的冒泡排序，它的出現讓排序更加的簡化結果如下：還可以聲明一個靜態方法用來專門調用指定數組排序，從名為 array 的一維數組中 a 索引處開始，到 b 元素從小到大排序。註意： a + b 不能大於 array 的 ...
MiniWord .NET Word模板引擎，藉由Word模板和數據簡單、快速生成文件。

Github / Gitee QQ群(1群) : 813100564 / QQ群(2群) : 579033769 視頻教學介紹 MiniWord .NET Word模板引擎，藉由Word模板和數據簡單、快速生成文件。 Getting Started 安裝 nuget link : https:// ...
Linux中CentOS 7版本安裝JDK、Tomcat、MySQL、lezsz、maven軟體詳解

軟體安裝在Linux系統中，安裝軟體的方式主要有四種，這四種安裝方式的特點如下： | 安裝方式 | 特點 | | | | | 二進位發佈包安裝 | 軟體已經針對具體平臺編譯打包發佈，只要解壓，修改配置即可 | | rpm安裝 | 軟體已經按照redhat的包管理規範進行打包，使用rpm命令進行安裝 ...
關於軟體定時器的一些討論

1、簡介這裡先介紹下軟體定時器和硬體定時器的區別硬體定時器： CPU內部自帶的定時器模塊，通過初始化、配置可以實現定時，定時時間到以後就會執行相應的定時器中斷處理函數。硬體定時器一般都帶有其它功能，比如PWM輸出、輸入捕獲等等功能。但是缺點是硬體定時器數量少！！軟體定時器：軟體定時器允許設置 ...
用戶相關命令

一、關機重啟命令 shutdown -h now 立刻進行關機 halt 關機 reboot 重啟電腦 sync 把記憶體數據同步到磁碟 ==關機重啟命令均需要root許可權執行== 二、用戶登錄和註銷命令 su username：切換用戶，不帶任何參數會進入root；低許可權用戶切換高許可權用戶需要輸入 ...

一周排行

-Advertisement-

Play Games

移動開發（一）：使用.NET MAUI開發第一個安卓APP

移動開發（一）：使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說，近來想嘗試開發一款安卓APP，考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP，畢竟是使用Visual Studio開發工具，使用起來也比較的順手，結合微軟官方的教程進行了安卓 ...
wpf ToggleButton選中效果和一個登錄界面

前言 QuestPDF 是一個開源 .NET 庫，用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。項目介紹 QuestPDF 是一個革命性的開源 .NET 庫，它徹底改變了我們生成 PDF 文檔的方 ...
彈幕樹洞項目功能新增篇

項目地址項目後端地址： https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址： ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址： http://tree ...
第27篇 sqlserver2022詳細安裝步驟

話不多說，直接開乾一.下載 1.官方鏈接下載： https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe，運行開始下載SQL server；二. ...
.NET 開源高性能 MQTT 類庫

前言隨著物聯網（IoT）技術的迅猛發展，MQTT（消息隊列遙測傳輸）協議憑藉其輕量級和高效性，已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫，為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。本文將全面介紹 MQTTnet 的核心功能 ...
Serilog文檔翻譯系列（六） - 可用的接收器、增強器、格式化輸出

Serilog支持多種接收器用於日誌存儲，增強器用於添加屬性，LogContext管理動態屬性，支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項，適用於不同需求。 ...
警惕 Visual Studio 屬性求值副作用導致邏輯不符合預期

目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章簡介動態內容網站使用 JavaScript 腳本動態檢索和渲染數據，爬取信息時需要模擬瀏覽器行為，否則獲取到的源碼基本是空的。本文使用的爬取步驟如下：使用 Selenium 獲取渲染後的 HTML 文檔使用 HtmlAgility ...
[使用目前最新版]HybridCLR6.9.0+YooAsset2.2.4實現純C# Unity熱更新方案 (一)

1.前言什麼是熱更新游戲或者軟體更新時，無需重新下載客戶端進行安裝，而是在應用程式啟動的情況下，在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR，Xlua，ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles，Addressable， ...
在 ASP.NET Core Web API 中使用操作篩選器統一處理通用操作

本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺，其實像阿裡雲，騰訊雲上面也可以。首先我們先去互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號註冊完成賬號後，它會送 ...
第28篇如何.net中實現高效可靠數據同步api

通過以下方式可以高效，並保證數據同步的可靠性 1.API設計使用RESTful設計，確保API端點明確，並使用適當的HTTP方法（如POST用於創建，PUT用於更新）。設計清晰的請求和響應模型，以確保客戶端能夠理解預期格式。 2.數據驗證在伺服器端進行嚴格的數據驗證，確保接收到的數據符合預期格 ...

所有分類