使用DataFlow表達ControlFlow的一些思考

来源:http://www.cnblogs.com/fanzhidongyzby/archive/2017/12/07/8001320.html
-Advertisement-
Play Games

一、控制流 從接觸 面向過程語言 開始,使用控制流編程的概念已是司空見慣。 分支 和 迴圈 是最常見的控制流形式。由於控制條件的存在,總有一部分代碼片段會執行,另一部分不會執行。 在控制流中,想要進行數據傳遞,最關鍵的是藉助於 變數 保存中間狀態。因此,控制流編程看起來是 將數據嵌套在控制流內 的編 ...


一、控制流

從接觸面向過程語言開始,使用控制流編程的概念已是司空見慣。

if (condition) {
  // do something
} else {
  // do something else
}

分支迴圈是最常見的控制流形式。由於控制條件的存在,總有一部分代碼片段會執行,另一部分不會執行。

在控制流中,想要進行數據傳遞,最關鍵的是藉助於變數保存中間狀態。因此,控制流編程看起來是將數據嵌套在控制流內的編程方式。

使用變數保存程式狀態有個很大的優勢。通過變數緩存,可以將編程任務劃分為不同的階段,每個階段只需要完成一部分功能子邏輯即可,這大大降低了複雜流程的思維成本。

但同時,也有一個比較大的劣勢,就是在分散式處理環境下,中間狀態的維護一直是一個很繁瑣的問題。這從另一個方面加大了程式設計的成本。

二、數據流

而數據流編程的概念最初可以探尋到函數式編程語言,以及靈感源於此的FlumeJava類系統(如Spark、Flink等)的編程API。

rdd.map(lambda).filter(lambda).reduce(lambda);

這種類似管道流水線形式的編程介面,每次處理的數據是列表形式的(LISP)。當然,這些列表放在分散式環境下換了一個新的名詞——分散式數據集(RDD/DataSet)。

數據流編程最大的特點是抽象了豐富的運算元,通過UDF為運算元指定用戶處理邏輯。因此,數據流編程其實蘊含了控制流嵌套在數據流內的編程方式。

使用數據流編程最大的優勢就是無需使用變數維護計算中間狀態,另外基本的列表數據格式天然滿足分散式數據存儲的要求。這也是函數式語言在自我宣傳時比較註重的一個優勢:對並行計算支持得更好。

不過,數據流編程的方式也並不是完美。由於事先規劃好的流水線結構,導致了數據處理無法自主地選擇流水線分支進行處理。所以,有時候看似很簡單的控制邏輯,使用數據流表達時就顯得比較繁瑣。

三、數據流表達的控制流

例如:下麵的控制流程使用控制流編程很好表達。

if (arg > MAX) {
  vertices = vertices.map(lambda);
} else {
  vertices = vertices.filter(lambda);
}
return vertices;

這裡的參數arg可能來源於用戶輸入,或者Spark/Flink driver提供的變數。這種使用driver的單機控制流全局統籌的方式好像是解決了數據流選擇選擇流水線管道的目的,但是實際上這是通過重新提交新任務的方式完成的。即條件為真時,才會提交true分支內的計算任務,否則提交false分支的計算任務。

如果不藉助於driver,該如何表達類似的分支控制流程呢?

假定參數arg的類型也是分散式數據集類型DataSet<Integer>,它可能來源於上游流水線的中間結果,那麼表達分支控制流計算可能需要如下類似方式:

// 條件數據集
DataSet<Boolean> condition = arg.map(v -> v > MAX);

// 數據集 true/false 分離
DataSet<Tuple2<Vertex, Boolean>> labelVs = vertices.join(condition);
DataSet<Vertex> trueVs = labelVs.filter(v -> v.f1).map(v -> v.f0);
DataSet<Vertex> falseVs = labelVs.filter(v -> !v.f1).map(v -> v.f0);

// 各自分支處理
trueVs = trueVs.map();
falseVs = falseVs.filter();

return trueVs.union(falseVs);

這裡通過將參數DataSet與輸入數據集vertices做join,然後分離(按條件true/false filter)出兩個新的數據集trueVs和falseVs。當條件為true時,trueVs就是原始數據集vertices,而falseVs為空數據集,反之則反。然後後續只要分別對這兩個數據集做相應的處理,最後把處理結果union合併起來就達到了目的。

通過這樣的方式,實際上是同時執行了條件的true和false的分支邏輯,只不過任何時候總有一個分支的流水線上的數據集為空罷了。

四、思考

通過前面的討論,可以得到一些比較明顯的結論:

  • 控制流天然擅長描述控制邏輯,不過使用變數緩存中間結果不利於分散式計算抽象。
  • 數據流天然對分散式並行計算支持良好,但是在描述控制邏輯時顯得十分乏力。

在計算編程語言設計領域,對控制流和數據流的討論不絕於耳。如何讓開發者更好的操縱這兩類概念也在不斷地探索,要不然也不會出現面向過程和函數式編程等各種編程範式。

而目前主流的計算系統,如Flink、Spark等,基本上處於使用driver的概念表達控制流,使用運算元連接數據流這樣的模式。不過這都是建立在driver通過全局collect操作,將數據集的數據拉取到driver基礎之上的。本質上是driver根據條件分支的運行時結果,重新提交任務而已,這稱不上一個精彩的設計。因為,它並沒有做到讓數據流具備自主選擇流水線的能力。

那如何讓數據流具備自主選擇流水線的能力呢?說白了,自主選擇流水線,本質上是擁有任務運行時修改任務執行計劃的能力,也就是所謂的動態DAGRay的設計中,函數是基本的任務調度單元,而非將UDF連接起來的DAG,或許這種底層的任務抽象能力對於表達動態DAG的能力具有更大的優勢。

詳細瞭解Ray的設計,可以參考文章:高性能分散式執行框架——Ray


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 要使用Linux先要瞭解什麼是Linux,這篇隨筆簡單介紹一個Linux的起源與現狀。(挖坑填) ...
  • 第一次進入博客園 2017年12月7日 之前使用dos視窗時都輸入的是簡短的指令,今天突然感覺小框看著不舒服,就找了一下度娘,在這裡感謝萬能的百度,一鞠躬. 1.win+r打開dos命令視窗 2.cmd+ENTER 3.quit退出wmic模式 退出dos命令視窗時需要重新進行上述操作! ...
  • 1、下載需要的echo模塊https://github.com/openresty/echo-nginx-module/tags# wget https://github.com/openresty/echo-nginx-module/archive/v0.60.tar.gz# tar zxvf v ...
  • 本節學習目的 1)分析printk()函數 2)使用printk()調試驅動 1.在驅動調試中,使用printk(),是最簡單,最方便的辦法 當uboot的命令行里的“console=tty1”時,表示printk()輸出在開發板的LCD屏上 當uboot的命令行里的“console=ttySA0, ...
  • --Oracle中的複合查詢 複合查詢:包含集合運算(操作)的查詢 常見的集合操作有: union: 兩個查詢的並集(無重覆行、按第一個查詢的第一列升序排序) union all:兩個查詢的並集(有重覆行) intersect:兩個查詢的交集(無重覆行、按第一個查詢的第一列升序排序) minus: ... ...
  • --null的原理 --oracle一直將null和空字元串’’同等對待 --1.null的運算 --算術表達式和null 運算總為null,實際上所有的操作符除了||連接操作符外,只要有一個操作符為null,則結果為null。 --------------------------------nul... ...
  • 逝者如斯夫,不捨晝夜 所有的SQL都經過測試,可粘貼,可複製,有問題請各位大神指出...... 後續,會有視圖和索引,以及存儲過程的文章,客官們不要著急,耐心等待......... ...
  • 一、什麼是同義詞 同義詞是先有對象的別名,主要作用是簡化SQL語句、隱藏對象的名稱和所有者、提供對對象的公共訪問。同義詞共有兩種類型,分別是公有同義詞和私有同義詞;公有同義詞可以被所有的資料庫用戶訪問,私有同義詞只能在當前用戶模式下訪問,且不能與當前用戶內的對象或者同義詞同名。Oracle用戶想要創 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...