python版mapreduce題目實現尋找共同好友

来源:http://www.cnblogs.com/zlsjjn/archive/2017/08/31/7458511.html
-Advertisement-
Play Games

看到一篇不知道是好好玩還是好玩玩童鞋的博客,發現一道好玩的mapreduce題目,地址http://www.cnblogs.com/songhaowan/p/7239578.html 如圖 由於自己太笨,看到一大堆java代碼就頭暈、心慌,所以用python把這個題目研究了一下。 題目:尋找共同好友 ...


看到一篇不知道是好好玩還是好玩玩童鞋的博客,發現一道好玩的mapreduce題目,地址http://www.cnblogs.com/songhaowan/p/7239578.html

如圖

 

由於自己太笨,看到一大堆java代碼就頭暈、心慌,所以用python把這個題目研究了一下。

 


題目:尋找共同好友。比如A的好友中有C,B的好友中有C,那麼C就是AB的共同好友。

A:B,C,D,F,E,O

B:A,C,E,K

C:F,A,D,I

D:A,E,F,L

E:B,C,D,M,L

F:A,B,C,D,E,O,M

G:A,C,D,E,F

H:A,C,D,E,O

I:A,O

J:B,O

K:A,C,D

L:D,E,F

M:E,F,G

O:A,H,I,J

 


 

m.py

#-*-encoding:utf-8-*-
#!/home/hadoop/anaconda2/bin/python
import sys
result = {}
for line in sys.stdin:
    line = line.strip()
    if len(line)==0:
        continue
    key,vals = line.split(':')
    val = vals.split(',')
    result[key] = val
    if len(result)==1:
        continue
    else:
        for i in result[key]:
            for j in result:
                if i in result[j]:
                    if j<key:
                        print j+key,i
                    elif j>key:
                        print key+j,i

r.py

#-*-encoding:utf-8-*-
import sys
result = {}
for line in sys.stdin:
    line = line.strip()
    k,v = line.split(' ')
    if k in result:
        result[k].append(v)
    else:
        result[k] = [v]
for key,val in result.items():
    print key,val

執行的命令

hadoop jar /home/hadoop/hadoop-2.7.2/hadoop-streaming-2.7.2.jar \
-files /home/hadoop/test/m.py,/home/hadoop/test/r.py \
-input GTHY -output GTHYout \
-mapper 'python m.py' -reducer 'python r.py'

執行情況

packageJobJar: [/tmp/hadoop-unjar2310332345933071298/] [] /tmp/streamjob8006362102585628853.jar tmpDir=null
17/08/31 14:47:59 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.228.200:18040
17/08/31 14:48:00 INFO client.RMProxy: Connecting to ResourceManager at master/192.168.228.200:18040
17/08/31 14:48:00 INFO mapred.FileInputFormat: Total input paths to process : 1
17/08/31 14:48:00 INFO mapreduce.JobSubmitter: number of splits:2
17/08/31 14:48:01 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1504148710826_0003
17/08/31 14:48:01 INFO impl.YarnClientImpl: Submitted application application_1504148710826_0003
17/08/31 14:48:01 INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application_1504148710826_0003/
17/08/31 14:48:01 INFO mapreduce.Job: Running job: job_1504148710826_0003
17/08/31 14:48:08 INFO mapreduce.Job: Job job_1504148710826_0003 running in uber mode : false
17/08/31 14:48:08 INFO mapreduce.Job:  map 0% reduce 0%
17/08/31 14:48:16 INFO mapreduce.Job:  map 100% reduce 0%
17/08/31 14:48:21 INFO mapreduce.Job:  map 100% reduce 100%
17/08/31 14:48:21 INFO mapreduce.Job: Job job_1504148710826_0003 completed successfully
17/08/31 14:48:21 INFO mapreduce.Job: Counters: 49
    File System Counters
        FILE: Number of bytes read=558
        FILE: Number of bytes written=362357
        FILE: Number of read operations=0
        FILE: Number of large read operations=0
        FILE: Number of write operations=0
        HDFS: Number of bytes read=462
        HDFS: Number of bytes written=510
        HDFS: Number of read operations=9
        HDFS: Number of large read operations=0
        HDFS: Number of write operations=2
    Job Counters 
        Launched map tasks=2
        Launched reduce tasks=1
        Data-local map tasks=2
        Total time spent by all maps in occupied slots (ms)=11376
        Total time spent by all reduces in occupied slots (ms)=2888
        Total time spent by all map tasks (ms)=11376
        Total time spent by all reduce tasks (ms)=2888
        Total vcore-milliseconds taken by all map tasks=11376
        Total vcore-milliseconds taken by all reduce tasks=2888
        Total megabyte-milliseconds taken by all map tasks=11649024
        Total megabyte-milliseconds taken by all reduce tasks=2957312
    Map-Reduce Framework
        Map input records=27
        Map output records=69
        Map output bytes=414
        Map output materialized bytes=564
        Input split bytes=192
        Combine input records=0
        Combine output records=0
        Reduce input groups=69
        Reduce shuffle bytes=564
        Reduce input records=69
        Reduce output records=33
        Spilled Records=138
        Shuffled Maps =2
        Failed Shuffles=0
        Merged Map outputs=2
        GC time elapsed (ms)=421
        CPU time spent (ms)=2890
        Physical memory (bytes) snapshot=709611520
        Virtual memory (bytes) snapshot=5725220864
        Total committed heap usage (bytes)=487063552
    Shuffle Errors
        BAD_ID=0
        CONNECTION=0
        IO_ERROR=0
        WRONG_LENGTH=0
        WRONG_MAP=0
        WRONG_REDUCE=0
    File Input Format Counters 
        Bytes Read=270
    File Output Format Counters 
        Bytes Written=510
17/08/31 14:48:21 INFO streaming.StreamJob: Output directory: GTHYout

最終結果

hadoop@master:~/test$ hadoop fs -text GTHYout/part-00000
BD ['A', 'E']    
BE ['C']    
BF ['A', 'C', 'E']    
BG ['A', 'C', 'E']    
BC ['A']    
DF ['A', 'E']    
DG ['A', 'E', 'F']    
DE ['L']    
HJ ['O']    
HK ['A', 'C', 'D']    
HI ['A', 'O']    
HO ['A']    
HL ['D', 'E']    
FG ['A', 'C', 'D', 'E']    
LM ['E', 'F']    
KO ['A']    
AC ['D', 'F']    
AB ['C', 'E']    
AE ['B', 'C', 'D']    
AD ['E', 'F']    
AG ['C', 'D', 'E', 'F']    
AF ['B', 'C', 'D', 'E', 'O']    
EG ['C', 'D']    
EF ['B', 'C', 'D', 'M']    
CG ['A', 'D', 'F']    
CF ['A', 'D']    
CE ['D']    
CD ['A', 'F']    
IK ['A']    
IJ ['O']    
IO ['A']    
HM ['E']    
KL ['D']    

突然發現代碼中居然一句註釋都沒有。果然自己還是太辣雞,還沒養成好習慣。

由於剛接觸大數據不久,對java不熟悉,摸索地很慢。希望python的輕便能助我在大數據的世界探索更多。

有錯的地方還請大佬多多指出~


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 記錄自己在開發中只用一次,但是容易忘記的問題,PL/SQL-ORACLE配置遠程資料庫訪問: 1,下載PL/SQL連接工具,鏈接: https://pan.baidu.com/s/1kVeeLNp 密碼: u2hi 2,解壓壓縮包,配置instantclient_11_2里的tnsnames.ora ...
  • Greenplum(GP)採用了MPP架構,基於開源的資料庫 PostgreSQL(PG)。 1.首先什麼是MPP架構? GreenPlum的架構採用了MPP(大規模並行處理)。在 MPP 系統中,每個 Segment 節點也可以運行自己的操作系統、資料庫等。換言之,每個節點內的 CPU 不能訪問另 ...
  • 一、HBase介紹 1、基本概念 HBase是一種Hadoop資料庫,經常被描述為一種稀疏的,分散式的,持久化的,多維有序映射,它基於行鍵、列鍵和時間戳建立索引,是一個可以隨機訪問的存儲和檢索數據的平臺。HBase不限制存儲的數據的種類,允許動態的、靈活的數據模型,不用SQL語言,也不強調數據之間的 ...
  • 在ORACLE資料庫中,序列(SEQUENCE)是使用非常頻繁的一個資料庫對象,但是有時候會遇到序列(SEQUECNE)跳號(skip sequence numbers)的情形,那麼在哪些情形下會遇到跳號呢? 事務回滾引起的跳號 不管序列有沒有CACHE、事務回滾這種情況下,都會引起序列的跳號。如下... ...
  • 前言:在使用 阿裡雲 上的一些產品時,遇到不少坑。 安裝IIS 時,遇到 因買的配置過低,虛擬記憶體不足,而導致 IIS 總是安裝失敗; 現在 在上面安裝了個 Sql Sever 2012,遠程老是 不能連接,百度找半天,終於能夠連接上了。 實現步驟如下: 1. 找到 安全組配置,打開 安全組配置,點 ...
  • 1. 捲積神經網路 1.1 多層前饋神經網路 多層前饋神經網路是指在多層的神經網路中,每層神經元與下一層神經元完全互連,神經元之間不存在同層連接,也不存在跨層連接的情況,如圖 11所示。 圖 11 對於上圖中隱藏層的第j個神經元的輸出可以表示為: 其中,f是激活函數,bj為每個神經元的偏置。 1.2 ...
  • 1.安裝必要的軟體包 2.關閉記憶體透明大頁 echo "transparent_hugepage=never">> sudo /etc/grub2.cfg 3.創建用戶組 及 用戶 4. chown -R oracle:oinstall /oracle /oradatachmod 755 /orac ...
  • 1、MySQL使用命令行啟動時報錯“發生系統錯誤 5”,如下: 原因:未用管理員身份運行cmd程式 解決方案:在開始菜單里找到命令提示符,右擊選擇以管理員身份運行 2、登錄時報錯“提示mysql不是內部或外部命令,也不是可運行的程式或批處理文件” 解決方案:配置環境變數(右擊我的電腦->高級系統設置 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...