ViewFS Guide ViewFS Guide. 1 1 介紹... 1 2. The Old World(Prior to Federation). 1 2.1單個Namenode Clusters. 1 2.2 路徑使用... 1 2.3 路徑名的最佳實踐... 1 3 New World ...
ViewFS Guide
2. The Old World(Prior to Federation)
3 New World – Federation and ViewFS
3.2 使用ViewFs的每個cluster的Namespace
1 介紹
View File System(ViewFS)提供一個方法來管理hadoop文件系統namespaces。對於多個namnode的集群很有用。在HDFS Federation,ViewFS和client上面的Linux的mount table 類似。ViewFS可以用來創建個人的namespace。
Hadoop系統有多個clusters,每個cluster可能被聯合到多個namespaces。也描述瞭如何在HDFS聯合上使用ViewFS,可以讓應用可以使用相似的方法,操作每個聯合。
2. The Old World(Prior to Federation)
2.1單個Namenode Clusters
在以前HDFS聯合,一個cluster有一個namenode提供了一個文件系統namespace。假設有多個cluster,每個cluster的文件系統namespace都是獨立的。此外集群的存儲也是相互不共用的。(datanode集群間是不共用的)。
Core-site.xml的每個配置屬性設置namenode 的預設文件系統集群:
<property>
<name>fs.default.name</name>
<value>hdfs://namenodeOfClusterX:port</value>
</property>
比如這個配置允許使用相對路徑來訪問cluster namenode。比如使用上面的/foo/bar配置表示hdfs://namenodeOfClusterX:port/foo/bar。
這個配置屬性需要配置在集群的每個gateway,也需要設置在關鍵的服務上,比如JobTracker和Oozie。
2.2 路徑使用
配置了以上設置,通常的路徑名:
1./foo/bar
這個配置等於hdfs://namenodeOfClusterX:port/foo/bar
2. hdfs://namenodeOfClusterX:port/foo/bar
是可用的路徑,使用相對路徑會更好,因為可以根據cluster的變化而變化。
3. hdfs://namenodeOfClusterY:port/foo/bar
指向另外一個集群的路徑,可以使用以下命令複製:
distcp hdfs://namenodeClusterY:port/pathSrc
hdfs://namenodeClusterZ:port/pathDest
4.webhdfs://namenodeClusterX:http_port/foo/bar
URI用來訪問WebHDFS文件系統。註意WebHDFS使用HTTP埠namenode,而不是使用PRC埠。
5.http://namenodeClusterX:http_port/webhdfs/v1/foo/bar 和http://proxyClusterX:http_port/foo/bar
通過WebHDFS RESET API和HDFS代理,HTTP URLs訪問這些文件。
2.3 路徑名的最佳實踐
推薦使用上面類型1而不是類型2的。絕對URI類似於地址並且不允許應用程式轉化數據。
3 New World – Federation and ViewFS
3.1 How The Clusters Look
假設有多個集群。每個集群有一個或者多個namenode。每個namenode都有自己的namespace。一個namenode只屬於一個集群。同一個集群的namenode共用集群中的物理存儲。Namespace關聯的集群是獨立的。
3.2 使用ViewFs的每個cluster的Namespace
為了提供和之前的相容,ViewFS文件系統用來為每個集群創建獨立的集群namespace view。和老的namespace類似。以下圖片顯示了mount table mount了4個namespace:
ViewFS實現了Hadoop file system結構和HDFS和本地文件系統類似。感覺就是一個細微的文件系統用來連接到其他文件系統。因為ViewFs實現了hadoop文件系統的藉口,對hadoop tool透明。比如ViewFs的命令和hdfs和本地文件系統一樣。
在hadoop配置文件可以配置mount表的mount點。在每個集群的配置,預設的文件系統被設置到mount table:
<property>
<name>fs.defaultFS</name>
<value>viewfs://clusterX</value>
</property>
頭上在viewfs://之後是mount table名,推薦使用cluster name。然後hadoop系統查看在配置文件中的clusterx的mount table。操作覆蓋所有gateway和服務來包含所有集群的mount table。對於每個cluster,預設文件系統會被創建為ViewFs mount table和上面描述的一樣。
Mount table 的掛載點在hadoop 配置文件中設置。所有mount table使用fs.viewfs.mounttable配置。Mount point是使用link標簽來鏈接其他文件系統。推薦mount point的名字和掛載目標的一樣。對於所有的namespace沒有配置在mount table中,我們可以使用linkFallback,fallback到預設文件系統。
在以下mount table配置,namespace /data鏈接到文件系統hdfs://nn1-clusterx.example.com:8020/data,/project鏈接到hdfs://nn2-clusterx.example.com:8020/project。所有的namespace沒有被配置在mount table的比如/logs都會被鏈接到hdfs://nn5-clusterx.example.com:8020/home下。
<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./data</name>
<value>hdfs://nn1-clusterx.example.com:8020/data</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./project</name>
<value>hdfs://nn2-clusterx.example.com:8020/project</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./user</name>
<value>hdfs://nn3-clusterx.example.com:8020/user</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./tmp</name>
<value>hdfs://nn4-clusterx.example.com:8020/tmp</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.linkFallback</name>
<value>hdfs://nn5-clusterx.example.com:8020/home</value>
</property>
</configuration>
替代方案,可以通過linkMergeSlash來合併mount table的root。在mount table配置,ClusterY的root使用hdfs://nn1-clustery.example.com:8020合併。
<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterY.linkMergeSlash</name>
<value>hdfs://nn1-clustery.example.com:8020/</value>
</property>
</configuration>
3.3 路徑使用
配置了以上設置,通常的路徑名:
1./foo/bar
這個配置等於hdfs://namenodeOfClusterX:port/foo/bar
2. hdfs://namenodeOfClusterX:port/foo/bar
是可用的路徑,使用相對路徑會更好,因為可以根據cluster的變化而變化。
3. hdfs://namenodeOfClusterY:port/foo/bar
指向另外一個集群的路徑,可以使用以下命令複製:
distcp hdfs://namenodeClusterY:port/pathSrc
hdfs://namenodeClusterZ:port/pathDest
4.webhdfs://namenodeClusterX:http_port/foo/bar
URI用來訪問WebHDFS文件系統。註意WebHDFS使用HTTP埠namenode,而不是使用PRC埠。
5.http://namenodeClusterX:http_port/webhdfs/v1/foo/bar 和http://proxyClusterX:http_port/foo/bar
通過WebHDFS RESET API和HDFS代理,HTTP URLs訪問這些文件。
3.4 路徑使用最佳實踐
推薦使用上面類型1而不是類型2的。絕對URI類似於地址並且不允許應用程式轉化數據。
3.5 通過namespace重命名路徑名
在新的方式下,如果/user和/data在不同的namenode上,那麼就不可以運行。
rename /user/joe/myStuff /data/foo/bar
3.7 FAQ
略
4 附錄:Mount table配置例子
通常,用戶不需要鄧毅表或者core-site.xml來使用mount table。
Mount table可以在core-site.xml中描述,但是最好不要直接在core-site.xml上使用,而是通過一個獨立的文件,比如mountTable.xml,在core-site.xml增加以下配置:
<configuration xmlns:xi="http://www.w3.org/2001/XInclude">
<xi:include href="mountTable.xml" />
</configuration>
在mountTable.xml文件,定義了ClusterX的mount table,ClusterX是三個namespace:
1.nn1-clusterx.example.com:8020,
2.nn2-clusterx.example.com:8020,
3.nn3-clusterx.example.com:8020.
這裡/home和/tmp由nn1-clusterx.example.com:8020 namenode管理,/foo和/bar在聯合集群的其他namenode。Home的base目錄被設置在/home,這樣每個用戶可以通過getHomeDirectory()訪問各自的home目錄,getHomeDirectory()定義可以查看FileSystem/FileContext.
<configuration>
<property>
<name>fs.viewfs.mounttable.ClusterX.homedir</name>
<value>/home</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./home</name>
<value>hdfs://nn1-clusterx.example.com:8020/home</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./tmp</name>
<value>hdfs://nn1-clusterx.example.com:8020/tmp</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./projects/foo</name>
<value>hdfs://nn2-clusterx.example.com:8020/projects/foo</value>
</property>
<property>
<name>fs.viewfs.mounttable.ClusterX.link./projects/bar</name>
<value>hdfs://nn3-clusterx.example.com:8020/projects/bar</value>
</property>
</configuration>