構建高可靠hadoop集群之2-機棧

来源:http://www.cnblogs.com/lzfhope/archive/2017/06/13/7000456.html
-Advertisement-
Play Games

本文主要參考 http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/RackAwareness.html hadoop組件是機棧敏感(譯註rack,機棧,可以簡單理解為節點的擺放)。 例如,HDFS塊的分佈會利用 ...


本文主要參考 http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/RackAwareness.html

 

hadoop組件是機棧敏感(譯註rack,機棧,可以簡單理解為節點的擺放)。

例如,HDFS塊的分佈會利用機棧敏感來做容錯,方式是把複製放在不同的機棧。這樣即便網路切換導致故障或者其它斷開導致的故障,也會有一些數據是可用的。

譯註:在重要的系統中,還有完全有必要考慮這個的,網路設備也會出現故障,畢竟這些網路設備的負載也很繁重的。

haoop主守護程式可以獲得集群從屬節點(數據節點)的機棧id,方式是激活一個完畢腳本或者是配置文件制定的java類。無論使用哪種方式,它們的輸出都必須符合java的org.apache.hadoop.net.DNSToSwitchMapping介面。

這個介面要求一一對應,拓撲信息(機器擺放信息)必須形如'/myrack/myhost',其中‘/'是拓撲分隔符,’myrack'是rack的識別符,'myhost'是主機名稱。假定一個rack有24個子網,那麼其中一個就可以使用'/192.168.100.0/192.168.100.5'.

如果要使用java類做拓撲映射,那麼類的名稱必須是通過配置文件的net.topology.node.switch.mapping.impl來設定。例如,networkTopology.java,已經包含在hadoop發佈程式中,管理員可以配置。

使用java類的好處是,當一個新的數據節點加入的時候,hadoop不需要調用外部進程(這樣可以更高效一些)。

如果使用外部腳本,那麼必須使用參數net.topology.script.file.name來配置。不同於java類,完畢拓撲腳本並沒有包含在hadoop發佈程式中,必須由管理員提供。當hadoop調用這些腳本的時候,會發送多個ip地址給ARGV.需要發送給腳本的ip地址個數,是

net.topology.script.number.args控制的,預設值是100.如果net.topology.script.number.args設置為1,那麼數據節點或者幾點管理器每提交一個ip地址,腳本就要被調用一次。

如果net.topology.script.file.name 或者 net.topology.node.switch.mapping.impl的值沒有設置,那麼rack id '/default-rack'就任意ip的返回值。然而,這樣的結果看起來一點也不理想,它可能會導致塊同步問題(譯註:大家一個rack,寫入那裡無所謂,所以可能性能和容錯都會存在一些問題)。

譯註:以上幾個參數都是在core-site.xml中配置的

 

原文,給出了兩個例子,一個是python,一個是bash

------------------------

-- python

------------------------

 

#!/usr/bin/python
# this script makes assumptions about the physical environment.
#  1) each rack is its own layer 3 network with a /24 subnet, which
# could be typical where each rack has its own
#     switch with uplinks to a central core router.
#
#             +-----------+
#             |core router|
#             +-----------+
#            /             \
#   +-----------+        +-----------+
#   |rack switch|        |rack switch|
#   +-----------+        +-----------+
#   | data node |        | data node |
#   +-----------+        +-----------+
#   | data node |        | data node |
#   +-----------+        +-----------+
#
# 2) topology script gets list of IP's as input, calculates network address, and prints '/network_address/ip'.

import netaddr
import sys
sys.argv.pop(0)                                                  # discard name of topology script from argv list as we just want IP addresses

netmask = '255.255.255.0'                                        # set netmask to what's being used in your environment.  The example uses a /24

for ip in sys.argv:                                              # loop over list of datanode IP's
address = '{0}/{1}'.format(ip, netmask)                      # format address string so it looks like 'ip/netmask' to make netaddr work
try:
   network_address = netaddr.IPNetwork(address).network     # calculate and print network address
   print "/{0}".format(network_address)
except:
   print "/rack-unknown"                                    # print catch-all value if unable to calculate network address

 

 

------------------------

-- bash

------------------------

#!/bin/bash
# Here's a bash example to show just how simple these scripts can be
# Assuming we have flat network with everything on a single switch, we can fake a rack topology.
# This could occur in a lab environment where we have limited nodes,like 2-8 physical machines on a unmanaged switch.
# This may also apply to multiple virtual machines running on the same physical hardware.
# The number of machines isn't important, but that we are trying to fake a network topology when there isn't one.
#
#       +----------+    +--------+
#       |jobtracker|    |datanode|
#       +----------+    +--------+
#              \        /
#  +--------+  +--------+  +--------+
#  |datanode|--| switch |--|datanode|
#  +--------+  +--------+  +--------+
#              /        \
#       +--------+    +--------+
#       |datanode|    |namenode|
#       +--------+    +--------+
#
# With this network topology, we are treating each host as a rack.  This is being done by taking the last octet
# in the datanode's IP and prepending it with the word '/rack-'.  The advantage for doing this is so HDFS
# can create its 'off-rack' block copy.
# 1) 'echo $@' will echo all ARGV values to xargs.
# 2) 'xargs' will enforce that we print a single argv value per line
# 3) 'awk' will split fields on dots and append the last field to the string '/rack-'. If awk
#    fails to split on four dots, it will still print '/rack-' last field value

echo $@ | xargs -n 1 | awk -F '.' '{print "/rack-"$NF}'

 

總結:

網路拓撲如何設計,無論在哪個集群中,都是需要密切關註的

 


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 今天博客中,我們就來實現一下一些常用資訊類App中常用的分類選擇的控制項的封裝。本篇博客中沒有使用到什麼新的技術點,如果非得說用到了什麼新的技術點的話,那麼勉強的說,用到了一些iOS9以後UICollectionView添加的一些新的特性。本篇博客所涉及的技術點主要有UICollectionView的 ...
  • 一、官網關於SQL SERVER Browser服務的解釋(谷歌翻譯後稍作修改的): https://docs.microsoft.com/en-us/sql/tools/configuration-manager/sql-server-browser-service 背景: 在SQL Server ...
  • 本文出處:http://www.cnblogs.com/wy123/p/7003157.html 最近無意間看到一個MySQL分頁優化的測試案例,並沒有非常具體地說明測試場景的情況下,給出了一種經典的方案,因為現實中很多情況都不是固定不變的,能總結出來通用性的做法或者說是規律,是要考慮非常多的場景的 ...
  • 標簽:MSSQL/只讀路由 概述 Alwayson相對於資料庫鏡像最大的優勢就是可讀副本,帶來可讀副本的同時還添加了一個新的功能就是配置只讀路由實現讀寫分離;當然這裡的讀寫分離稍微誇張了一點,只能稱之為半讀寫分離吧!看接下來的文章就知道為什麼稱之為半讀寫分離。 db01:192.168.1.22 d ...
  • 線性回歸演算法,是利用數理統計中回歸分析,來確定兩種或兩種以上變數間相互依賴的定量關係的一種統計分析方法。 1. 梯度下降法 線性回歸可以使用最小二乘法,但是速度比較慢,因此一般使用梯度下降法(Gradient Descent),梯度下降法又分為批量梯度下降法(Batch Gradient Desce ...
  • 目錄 一、pymysql 二、SQLAlchemy 一、pymysql pymsql是Python中操作MySQL的模塊,其使用方法和MySQLdb幾乎相同。 1. 下載安裝 2. 使用操作 a. 執行SQL b. 獲取新創建數據自增ID c. 獲取查詢數據 註:在fetch數據時按照順序進行,可以 ...
  • Elasticsearch快速入門 第1篇:Elasticsearch入門 Elasticsearch快速入門 第2篇:Elasticsearch和Kibana安裝 Elasticsearch快速入門 第3篇:Elasticsearch索引和文檔操作 Elasticsearch快速入門 第4篇:El ...
  • 一直習慣使用sys.master_files來統計資料庫的大小以及使用情況,但是發現sys.master_files不能準確統計tempdb的資料庫大小信息。如下所示: SELECT database_id AS DataBaseId ,DB_NAME(database_id) ... ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...