使用hadoop mapreduce分析mongodb數據

-Advertisement-

使用hadoop mapreduce分析mongodb數據（現在很多互聯網爬蟲將數據存入mongdb中，所以研究了一下，寫此文檔）版權聲明：本文為yunshuxueyuan原創文章。如需轉載請標明出處： http://www.cnblogs.com/sxt-zkys/QQ技術交流群：299142 ...

使用hadoop mapreduce分析mongodb數據

（現在很多互聯網爬蟲將數據存入mongdb中，所以研究了一下，寫此文檔）

版權聲明：本文為yunshuxueyuan原創文章。
如需轉載請標明出處： http://www.cnblogs.com/sxt-zkys/
QQ技術交流群：299142667

一、 mongdb的安裝和使用

1、官網下載mongodb-linux-x86_64-rhel70-3.2.9.tgz

2、解壓（可以配置一下環境變數）

3、啟動服務端

./mongod --dbpath=/opt/local/mongodb/data --logpath=/opt/local/mongodb/logs --logappend --fork(後臺啟動)

第一種：不帶auth認證的

第二種：需要帶auth認證的（即需要用戶名和密碼的）

當指定用戶名和密碼在查看數據，發現就可以看得到了

4、啟動客戶端

./mongo

5、客戶端shell命令

show dbs 顯示mongodb中有哪些資料庫

db 顯示當前正在用的資料庫

use db 你要使用的資料庫名

(註：若database不存在，則會創建一個，此時若不做任何操作直接退出，則MongoDB會刪除該資料庫)

db.auth(username,password) username為用戶名,password為密碼登陸你要使用的資料庫

db.getCollectionNames() 查看當前資料庫有哪些表

db.[collectionName].insert({...}) 給指定資料庫添加文檔記錄

db.[collectionName].findOne() 查找文檔的第一條數據

db.[collectionName].find() 查找文檔的全部記錄

db.[collection].update({查詢條件},{$set:{更新內容}}) 更新一條文檔記錄

db.[collection].drop() 刪除資料庫中的集合

db.dropDatabase() 刪除資料庫

二、 Mapreduce 分析mongodb的數據實例

1、編寫mapreduce的代碼前，需要另外添加兩個jar包，還有需（jdk1.7以上）

2、需求介紹與實現

原數據：

結果數據：

代碼編寫：

Job：

Mapper:

Reduce:

最終的結果數據：

三、最後給大家推薦一個mongodb資料庫的管理工具，挺好用的

版權聲明：本文為yunshuxueyuan原創文章。
如需轉載請標明出處： http://www.cnblogs.com/sxt-zkys/
QQ技術交流群：299142667

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

MySQL入門

1. mysql是一種常用的資料庫管理軟體，優點有：免費，開源，跨平臺，本文只是介紹一下MySQL的簡單操作 2.資料庫的基本結構可以把資料庫理解成一個文件夾，資料庫中的數據存放的單位是表，可以理解為excel表格，表格的表頭稱為欄位，表中的每一條數據稱為記錄 3.MySQL安裝 1.從官網下載 ...
SQLite busy handler

SQLite doesn't support high concurrency. In case of a lot of concurrent access from multi-process or multi-thread, calling a SQLite r/w function is pr ...
oracle-視圖(view)

一、視圖的定義視圖也稱為虛表，視圖本身不占用物理存儲空間，視圖存放於數據字典中，簡單的來說視圖可以看做是sql語句的集合。視圖從資料庫中的表產生，這些表稱為視圖的基表，一個視圖可以從另一個視圖中產生。視圖看上去非常象資料庫的物理表，對它的操作同任何其它的表一樣。當通過視圖修改數據時，實際上是在改 ...
MySQL Cluster

本文介紹了MySQL Cluster的概念和架構，並通過幾個實例詳細討論了Cluster的配置方法，啟動關閉，常用維護方法的概念。 ...
2.關於Apache Spark

關於Apache Spark "Why Apache Spark" "關於Apache Spark" "如何安裝Apache Spark" " Apache Spark的工作原理" "spark彈性分散式數據集" "RDD持久性" "spark共用變數" "Spark SQL" "Spark Str ...
主鍵就是聚集索引嗎？

前言最近在一次面試中，討論了一個這樣的問題：主鍵和索引有什麼區別？當時我的回答是這樣的：“主鍵就是加了唯一性約束的聚集索引。” “你確定你所說的是對的？” 面試官反問到。 “應該是對的。” 我不加思索地回答道。 “你回去後研究一下這個問題吧。” 難道我真的錯了？第一次嘗試當問題出現時，請用事實 ...
Spark機器學習(12)：神經網路演算法

1. 神經網路基礎知識 1.1 神經元神經網路（Neural Net）是由大量的處理單元相互連接形成的網路。神經元是神經網路的最小單元，神經網路由若幹個神經元組成。一個神經元的結構如下：上面的神經元x1，x2，x3和1是輸入，hw,b(x)是輸出。其中f(x)是激活函數，常用的激活函數有sig ...
SQL Server事務遭遇網路異常時的處理機制淺析

SQL Server資料庫中，如果應用程式正在執行一個事務的時候突然遭遇了網路異常，例如網路掉包，網路中斷等，那麼這個事務會怎麼樣？ SQL Server資料庫是通過什麼機制來判斷處理呢？估計很多人跟我一樣都有不少疑問，我們下麵構造一個測試實驗來測試驗證一下。如下所示：步驟1：在客戶端連使用S ...