(記錄自用,參考價值低)分散式大數據處理Hadoop學習與探索1:虛擬機

来源:https://www.cnblogs.com/z2284074843/archive/2022/08/11/16571847.html
-Advertisement-
Play Games

首先nosql可以被理解為not only sql 泛指非關係型資料庫,也就是說不僅僅是sql,所以它既包含了sql的一些東西,但是又和sql不同,併在其的基礎上改變或者說擴展了一些東西。 提到nosql,首先我們就要分析一下關係型資料庫的行式存儲和非關係型資料庫的列式存儲區別在哪? 行式存儲我們都 ...


一、實驗環境

  1. 系統:window 10
  2. 配置:記憶體16GB;可用磁碟:300G;cpu核心數:8
  3. 使用軟體與版本:
    vmware 15.5 pro
    linux CentOS 7.5

二、學習探索內容

  1. 基本需求:完成linux虛擬機創建啟動,並使用linux虛擬機搭建Hadoop分散式大數據處理環境。
  2. 進階1:基於Hadoop環境,完成離線、實時數據處理任務。並使環境、任務穩定運行一段時間。
  3. 進階2:學習探索虛擬機搭建、大數據環境搭建過程中磁碟、記憶體、網路等指標的範圍與需求。
  4. 進階3:學習探索Hadoop大數據組件的基礎配置與配置調優。
  5. 進階4:搭建、維護k8s集群。

三、安裝vmware

參考博客:https://www.cnblogs.com/fuzongle/p/12760193.html
(完成難度:低)

四、使用vmware創建虛擬機

1. CentOS7.5鏡像下載:鏈接:https://pan.baidu.com/s/18hdcWE4tYQOxMov2w0IlBQ?pwd=486k 提取碼:486k
2. 安裝過程參考:https://blog.csdn.net/bdqn_zyjy/article/details/120975586

(完成難度:中等)
根據這篇博客,我們就可以搭建一個linux虛擬機。其中的記憶體、磁碟、cpu數、核心數可根據宿主機配置與需求修改,下麵會詳細分析一下。

3. 安裝位置與磁碟

安裝位置不建議放預設的C盤,可以在其他盤創建一個專門存放虛擬機的文件夾。關於虛擬機磁碟大小,即使給虛擬機分配了100GB磁碟,只是創建、啟動並不會占用多少宿主機磁碟(啟動會占用記憶體),但是再後續使用的過程中虛擬機下載安裝軟體、存放數據,會增大宿主機磁碟占用。

a. 虛擬機磁碟占用與宿主機占用

  • CentOS 桌面版創建、啟動後的系統磁碟占用:
  • 查看宿主機磁碟大小:發現可用容量減少了幾GB
  • 關機後查看宿主機磁碟:可用容量增加4GB左右
  • 安裝jdk、hadoop環境之後,開機與關機分別占用宿主機的磁碟大小
    待補充

b. 虛擬機設定值過大會怎麼樣

  • 將本來100GB的磁碟空間擴展為400GB。擴容後、啟動虛擬機,打開任務管理器。

    結果顯示可以正常創建、使用。不過推測肯定不能存儲400GB數據(實際上我電腦所有盤的可用空間加起來都沒有400GB了),虛擬機理論上要小於宿主機的可用空間。

c. 小結
虛擬機磁碟大小隻是設置一個可用磁碟上限,並不是實際占用,也不是實際可用(所以可以隨便點,不要太小就可以)。這裡根據我們的需求,需創建3個虛擬機,每個100GB就可以了。

4. cpu數與核心數

cpu虛擬化

  • 不考慮電腦虛擬化技術的話,虛擬機台數 * 虛擬機cpu個數 * cpu核心數 <= 宿主機cpu個數 * cpu核心數。我的電腦只有8核,要創建3個虛擬機,2 2 4是比較合理的分配。

  • 但是既然cpu有虛擬化技術,我們試下多配置幾個核心。

    不讓配!多次測試後發現最多只能配置8個。那我們多開個虛擬機試試。
    創建、啟動虛擬機後,查看虛擬機的基本信息(這次是最小安裝,用命令行看一下)。

    這裡測試了2個4核虛擬機,1個8核虛擬機可以同時正常運行。

  • 小結

單個虛擬機配置有要求,多個虛擬機cpu內核總數可超過宿主機cpu核心數。根據我們需求,三各虛擬機,4 4 4分配,或者2 2 4都是可以的。

5. 記憶體
  1. 開啟虛擬機後,宿主機的記憶體變化時很明顯的。理論上來說,虛擬機占用記憶體+宿主機占用記憶體<宿主機物理記憶體。
  2. 但根據實踐,是有一些偏差的。
  3. 宿主機常用軟體與windows大概占用40%(6.4GB)左右。測試中開啟3個4GB記憶體的虛擬機(每個配置了4GB記憶體),宿主機記憶體占用70%-80%。
  4. 如果計算配置記憶體(每個虛擬機4GB),肯定超過了宿主機的實際記憶體,顯然並不是配置了多少記憶體開機就占用多少。
  5. 虛擬機實際占用記憶體 = 200MB(最小化安裝)+800MB(圖形化安裝)+200MB(最小化安裝)+虛擬機記憶體損耗,這樣比較合理。
  6. 小結:雖然配置記憶體並不代表實際占用記憶體,但是配置記憶體過高時,虛擬機使用到了,會導致宿主機記憶體不夠用。根據需求,三個虛擬機4GB 3GB 3GB這樣來配置。
6. 網路

這裡有兩個需要註意的地方:1.能連網 2.配置靜態ip(linux預設ip自動分配,被坑過,關、開機一次ip變了)

安裝時點了一下乙太網模塊的開啟按鈕,啟動虛擬機直接就連上了。但這是我之前配置好了VMware的結果。
總體來講需要配置3個地方:宿主機,VMware,虛擬機。

1.電腦(運行虛擬機的windows)(PS:網上很多博客缺少這部分)

設置->查找設置->網路連接->啟用VMnet8->滑鼠右鍵點擊VMnet8->屬性->ipv4設置

IP地址:使用下麵的IP地址

設置 value
IP地址 192.168.10.15
子網掩碼 255.255.255.0
預設網關 192.168.10.2

dns設置:使用下麵的DNS地址

設置 value
首選DNS 192.168.10.2
備用DNS 8.8.8.8
2.vmware設置

編輯->虛擬網路編輯器->右下的'更改設置'

VMnet信息

  • 選中NAT模式
  • 子網IP:192.168.10.0
  • 子網掩碼:255.255.255.0

編輯->虛擬網路編輯器->右下的'更改設置'->NAT設置

  • 網關:192.168.10.2
3.虛擬機設置
vi /etc/sysconfig/network-scripts/ifcfg-ens33

#替換為以下內容
#註意這裡第四行配置了靜態ip

DEVICE=ens33
TYPE=Ethernet
ONBOOT=yes
BOOTPROTO=static
NAME="ens33"
IPADDR=192.168.10.102
PREFIX=24
GATEWAY=192.168.10.2
DNS1=192.168.10.2
#重啟網卡
/etc/init.d/network restart 
7. 最小安裝與圖形化的使用體驗

GOME圖形化安裝:

  • 使用方便。設置密碼、查看圖形化任務管理器、火狐瀏覽器、視頻播放器、文本編輯器等都很好用。喜歡命令行也可以隨時打開終端進行操作。

最小化安裝:

  • 安裝快。 圖形化安裝1400個包,最小化安裝300個包。
  • 占用記憶體小。最小安裝需要不到200MB記憶體,而圖形化系統需要多於800MB記憶體。

小結:這裡取捨有點難,記憶體緊張,用最小化吧。

8. 最終確認比較合理的虛擬機配置

記憶體4GB 4核心(2 * 2)磁碟100GB 最小化安裝 名稱:superPC01 ip:192.168.10.135
記憶體3GB 2核心(1 * 2)磁碟100GB 最小化安裝 名稱:superPC02 ip:192.168.10.136
記憶體3GB 2核心(1 * 2)磁碟100GB 最小化安裝 名稱:superPC03 ip:192.168.10.137

弄好一個,克隆,修改。
安裝個 network-tools.x86_64,可以使用ifconfig命令看ip地址。
配一下靜態ip,並確認網路暢通。

#使用命令行測試網路
ping www.baidu.com

您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 1.避免Scoped模式註冊的服務變成Singleton模式 當提供一個生命周期模式為Singleton的服務實例時,如果發現該服務中還依賴生命周期模式為Scoped的服務實例(Scoped服務實例將被一個Singleton服務實例所引用),那麼這個被依賴的Scoped服務實例最終會成為一個Sing ...
  • 作為一個沒有系統學習過依賴註入的開發者而言,如果直接在一個使用依賴註入的框架下進行開發,往往對於依賴註入的存在是沒有明顯的察覺,通過代碼追根溯源你都會看不出對象是從哪裡創建的。但這並不影響你進行開發的工作,你可以參照現有代碼的使用形式,將需要使用的對象加入到構造函數的參數列表上,你就可以使用對象,調 ...
  • 1.JDBC體繫系統 一組規範:介面 JDBC介面(API)包括兩個層次: 面嚮應用的API:Java API,抽象介面,供應用開發人員使用(連接資料庫,執行SQL語句,獲得結果) 面向資料庫的API:Java Driver API,供開發商開發資料庫驅動程式 JDBC是sun公司提供一套用於資料庫 ...
  • 3. ETCD 常用命令 etcdctl是一個命令行的客戶端,它提供了一些命令,可以方便我們在對服務進行測試或者手動修改資料庫內容。etcdctl與kubectl和systemctl的命令原理及操作類似,其基本用法如下所示: etcdctl [global options] command [com ...
  • 前言 最近在centos8系統下部署django項目時,要用到mysql資料庫,在安裝中遇到了點坑,之後參考了一位博主的文章,也是順利的安裝配置成功,博主原文連接: []((20條消息) centos8安裝mysql8.0.22教程(超詳細)_上善若水滴世界的博客-CSDN博客_centos mys ...
  • ​ 點亮 ⭐️ Star · 照亮開源之路 GitHub:https://github.com/apache/dolphinscheduler ​ 版本發佈 2022/8/10 2022 年 8 月 10 日,Apache DolphinScheduler 在經過 3.0.0 alpha、3.0.0 ...
  • 昨晚我正在床上睡得著著的,突然來了一條簡訊。 什麼?線上的訂單無法取消! 我趕緊登錄線上系統,查看業務日誌。發現有MySQL鎖超時的錯誤日誌。 ...
  • 課件獲取:關註公眾號“數棧研習社”,後臺私信 “ChengYing” 獲得直播課件 視頻回放:點擊這裡 ChengYing開源項目地址:github 丨 gitee 喜歡我們的項目給我們點個__ STAR!STAR!!STAR!!!(重要的事情說三遍)__ 技術交流釘釘 qun:30537511 本 ...
一周排行
    -Advertisement-
    Play Games
  • 概述:在C#中,++i和i++都是自增運算符,其中++i先增加值再返回,而i++先返回值再增加。應用場景根據需求選擇,首碼適合先增後用,尾碼適合先用後增。詳細示例提供清晰的代碼演示這兩者的操作時機和實際應用。 在C#中,++i 和 i++ 都是自增運算符,但它們在操作上有細微的差異,主要體現在操作的 ...
  • 上次發佈了:Taurus.MVC 性能壓力測試(ap 壓測 和 linux 下wrk 壓測):.NET Core 版本,今天計劃準備壓測一下 .NET 版本,來測試並記錄一下 Taurus.MVC 框架在 .NET 版本的性能,以便後續持續優化改進。 為了方便對比,本文章的電腦環境和測試思路,儘量和... ...
  • .NET WebAPI作為一種構建RESTful服務的強大工具,為開發者提供了便捷的方式來定義、處理HTTP請求並返迴響應。在設計API介面時,正確地接收和解析客戶端發送的數據至關重要。.NET WebAPI提供了一系列特性,如[FromRoute]、[FromQuery]和[FromBody],用 ...
  • 原因:我之所以想做這個項目,是因為在之前查找關於C#/WPF相關資料時,我發現講解圖像濾鏡的資源非常稀缺。此外,我註意到許多現有的開源庫主要基於CPU進行圖像渲染。這種方式在處理大量圖像時,會導致CPU的渲染負擔過重。因此,我將在下文中介紹如何通過GPU渲染來有效實現圖像的各種濾鏡效果。 生成的效果 ...
  • 引言 上一章我們介紹了在xUnit單元測試中用xUnit.DependencyInject來使用依賴註入,上一章我們的Sample.Repository倉儲層有一個批量註入的介面沒有做單元測試,今天用這個示例來演示一下如何用Bogus創建模擬數據 ,和 EFCore 的種子數據生成 Bogus 的優 ...
  • 一、前言 在自己的項目中,涉及到實時心率曲線的繪製,項目上的曲線繪製,一般很難找到能直接用的第三方庫,而且有些還是定製化的功能,所以還是自己繪製比較方便。很多人一聽到自己畫就害怕,感覺很難,今天就分享一個完整的實時心率數據繪製心率曲線圖的例子;之前的博客也分享給DrawingVisual繪製曲線的方 ...
  • 如果你在自定義的 Main 方法中直接使用 App 類並啟動應用程式,但發現 App.xaml 中定義的資源沒有被正確載入,那麼問題可能在於如何正確配置 App.xaml 與你的 App 類的交互。 確保 App.xaml 文件中的 x:Class 屬性正確指向你的 App 類。這樣,當你創建 Ap ...
  • 一:背景 1. 講故事 上個月有個朋友在微信上找到我,說他們的軟體在客戶那邊隔幾天就要崩潰一次,一直都沒有找到原因,讓我幫忙看下怎麼回事,確實工控類的軟體環境複雜難搞,朋友手上有一個崩潰的dump,剛好丟給我來分析一下。 二:WinDbg分析 1. 程式為什麼會崩潰 windbg 有一個厲害之處在於 ...
  • 前言 .NET生態中有許多依賴註入容器。在大多數情況下,微軟提供的內置容器在易用性和性能方面都非常優秀。外加ASP.NET Core預設使用內置容器,使用很方便。 但是筆者在使用中一直有一個頭疼的問題:服務工廠無法提供請求的服務類型相關的信息。這在一般情況下並沒有影響,但是內置容器支持註冊開放泛型服 ...
  • 一、前言 在項目開發過程中,DataGrid是經常使用到的一個數據展示控制項,而通常表格的最後一列是作為操作列存在,比如會有編輯、刪除等功能按鈕。但WPF的原始DataGrid中,預設只支持固定左側列,這跟大家習慣性操作列放最後不符,今天就來介紹一種簡單的方式實現固定右側列。(這裡的實現方式參考的大佬 ...