使用DataFlow表達ControlFlow的一些思考

来源:http://www.cnblogs.com/fanzhidongyzby/archive/2017/12/07/8001320.html
-Advertisement-
Play Games

一、控制流 從接觸 面向過程語言 開始,使用控制流編程的概念已是司空見慣。 分支 和 迴圈 是最常見的控制流形式。由於控制條件的存在,總有一部分代碼片段會執行,另一部分不會執行。 在控制流中,想要進行數據傳遞,最關鍵的是藉助於 變數 保存中間狀態。因此,控制流編程看起來是 將數據嵌套在控制流內 的編 ...


一、控制流

從接觸面向過程語言開始,使用控制流編程的概念已是司空見慣。

if (condition) {
  // do something
} else {
  // do something else
}

分支迴圈是最常見的控制流形式。由於控制條件的存在,總有一部分代碼片段會執行,另一部分不會執行。

在控制流中,想要進行數據傳遞,最關鍵的是藉助於變數保存中間狀態。因此,控制流編程看起來是將數據嵌套在控制流內的編程方式。

使用變數保存程式狀態有個很大的優勢。通過變數緩存,可以將編程任務劃分為不同的階段,每個階段只需要完成一部分功能子邏輯即可,這大大降低了複雜流程的思維成本。

但同時,也有一個比較大的劣勢,就是在分散式處理環境下,中間狀態的維護一直是一個很繁瑣的問題。這從另一個方面加大了程式設計的成本。

二、數據流

而數據流編程的概念最初可以探尋到函數式編程語言,以及靈感源於此的FlumeJava類系統(如Spark、Flink等)的編程API。

rdd.map(lambda).filter(lambda).reduce(lambda);

這種類似管道流水線形式的編程介面,每次處理的數據是列表形式的(LISP)。當然,這些列表放在分散式環境下換了一個新的名詞——分散式數據集(RDD/DataSet)。

數據流編程最大的特點是抽象了豐富的運算元,通過UDF為運算元指定用戶處理邏輯。因此,數據流編程其實蘊含了控制流嵌套在數據流內的編程方式。

使用數據流編程最大的優勢就是無需使用變數維護計算中間狀態,另外基本的列表數據格式天然滿足分散式數據存儲的要求。這也是函數式語言在自我宣傳時比較註重的一個優勢:對並行計算支持得更好。

不過,數據流編程的方式也並不是完美。由於事先規劃好的流水線結構,導致了數據處理無法自主地選擇流水線分支進行處理。所以,有時候看似很簡單的控制邏輯,使用數據流表達時就顯得比較繁瑣。

三、數據流表達的控制流

例如:下麵的控制流程使用控制流編程很好表達。

if (arg > MAX) {
  vertices = vertices.map(lambda);
} else {
  vertices = vertices.filter(lambda);
}
return vertices;

這裡的參數arg可能來源於用戶輸入,或者Spark/Flink driver提供的變數。這種使用driver的單機控制流全局統籌的方式好像是解決了數據流選擇選擇流水線管道的目的,但是實際上這是通過重新提交新任務的方式完成的。即條件為真時,才會提交true分支內的計算任務,否則提交false分支的計算任務。

如果不藉助於driver,該如何表達類似的分支控制流程呢?

假定參數arg的類型也是分散式數據集類型DataSet<Integer>,它可能來源於上游流水線的中間結果,那麼表達分支控制流計算可能需要如下類似方式:

// 條件數據集
DataSet<Boolean> condition = arg.map(v -> v > MAX);

// 數據集 true/false 分離
DataSet<Tuple2<Vertex, Boolean>> labelVs = vertices.join(condition);
DataSet<Vertex> trueVs = labelVs.filter(v -> v.f1).map(v -> v.f0);
DataSet<Vertex> falseVs = labelVs.filter(v -> !v.f1).map(v -> v.f0);

// 各自分支處理
trueVs = trueVs.map();
falseVs = falseVs.filter();

return trueVs.union(falseVs);

這裡通過將參數DataSet與輸入數據集vertices做join,然後分離(按條件true/false filter)出兩個新的數據集trueVs和falseVs。當條件為true時,trueVs就是原始數據集vertices,而falseVs為空數據集,反之則反。然後後續只要分別對這兩個數據集做相應的處理,最後把處理結果union合併起來就達到了目的。

通過這樣的方式,實際上是同時執行了條件的true和false的分支邏輯,只不過任何時候總有一個分支的流水線上的數據集為空罷了。

四、思考

通過前面的討論,可以得到一些比較明顯的結論:

  • 控制流天然擅長描述控制邏輯,不過使用變數緩存中間結果不利於分散式計算抽象。
  • 數據流天然對分散式並行計算支持良好,但是在描述控制邏輯時顯得十分乏力。

在計算編程語言設計領域,對控制流和數據流的討論不絕於耳。如何讓開發者更好的操縱這兩類概念也在不斷地探索,要不然也不會出現面向過程和函數式編程等各種編程範式。

而目前主流的計算系統,如Flink、Spark等,基本上處於使用driver的概念表達控制流,使用運算元連接數據流這樣的模式。不過這都是建立在driver通過全局collect操作,將數據集的數據拉取到driver基礎之上的。本質上是driver根據條件分支的運行時結果,重新提交任務而已,這稱不上一個精彩的設計。因為,它並沒有做到讓數據流具備自主選擇流水線的能力。

那如何讓數據流具備自主選擇流水線的能力呢?說白了,自主選擇流水線,本質上是擁有任務運行時修改任務執行計劃的能力,也就是所謂的動態DAGRay的設計中,函數是基本的任務調度單元,而非將UDF連接起來的DAG,或許這種底層的任務抽象能力對於表達動態DAG的能力具有更大的優勢。

詳細瞭解Ray的設計,可以參考文章:高性能分散式執行框架——Ray


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 要使用Linux先要瞭解什麼是Linux,這篇隨筆簡單介紹一個Linux的起源與現狀。(挖坑填) ...
  • 第一次進入博客園 2017年12月7日 之前使用dos視窗時都輸入的是簡短的指令,今天突然感覺小框看著不舒服,就找了一下度娘,在這裡感謝萬能的百度,一鞠躬. 1.win+r打開dos命令視窗 2.cmd+ENTER 3.quit退出wmic模式 退出dos命令視窗時需要重新進行上述操作! ...
  • 1、下載需要的echo模塊https://github.com/openresty/echo-nginx-module/tags# wget https://github.com/openresty/echo-nginx-module/archive/v0.60.tar.gz# tar zxvf v ...
  • 本節學習目的 1)分析printk()函數 2)使用printk()調試驅動 1.在驅動調試中,使用printk(),是最簡單,最方便的辦法 當uboot的命令行里的“console=tty1”時,表示printk()輸出在開發板的LCD屏上 當uboot的命令行里的“console=ttySA0, ...
  • --Oracle中的複合查詢 複合查詢:包含集合運算(操作)的查詢 常見的集合操作有: union: 兩個查詢的並集(無重覆行、按第一個查詢的第一列升序排序) union all:兩個查詢的並集(有重覆行) intersect:兩個查詢的交集(無重覆行、按第一個查詢的第一列升序排序) minus: ... ...
  • --null的原理 --oracle一直將null和空字元串’’同等對待 --1.null的運算 --算術表達式和null 運算總為null,實際上所有的操作符除了||連接操作符外,只要有一個操作符為null,則結果為null。 --------------------------------nul... ...
  • 逝者如斯夫,不捨晝夜 所有的SQL都經過測試,可粘貼,可複製,有問題請各位大神指出...... 後續,會有視圖和索引,以及存儲過程的文章,客官們不要著急,耐心等待......... ...
  • 一、什麼是同義詞 同義詞是先有對象的別名,主要作用是簡化SQL語句、隱藏對象的名稱和所有者、提供對對象的公共訪問。同義詞共有兩種類型,分別是公有同義詞和私有同義詞;公有同義詞可以被所有的資料庫用戶訪問,私有同義詞只能在當前用戶模式下訪問,且不能與當前用戶內的對象或者同義詞同名。Oracle用戶想要創 ...
一周排行
    -Advertisement-
    Play Games
  • 示例項目結構 在 Visual Studio 中創建一個 WinForms 應用程式後,項目結構如下所示: MyWinFormsApp/ │ ├───Properties/ │ └───Settings.settings │ ├───bin/ │ ├───Debug/ │ └───Release/ ...
  • [STAThread] 特性用於需要與 COM 組件交互的應用程式,尤其是依賴單線程模型(如 Windows Forms 應用程式)的組件。在 STA 模式下,線程擁有自己的消息迴圈,這對於處理用戶界面和某些 COM 組件是必要的。 [STAThread] static void Main(stri ...
  • 在WinForm中使用全局異常捕獲處理 在WinForm應用程式中,全局異常捕獲是確保程式穩定性的關鍵。通過在Program類的Main方法中設置全局異常處理,可以有效地捕獲並處理未預見的異常,從而避免程式崩潰。 註冊全局異常事件 [STAThread] static void Main() { / ...
  • 前言 給大家推薦一款開源的 Winform 控制項庫,可以幫助我們開發更加美觀、漂亮的 WinForm 界面。 項目介紹 SunnyUI.NET 是一個基於 .NET Framework 4.0+、.NET 6、.NET 7 和 .NET 8 的 WinForm 開源控制項庫,同時也提供了工具類庫、擴展 ...
  • 說明 該文章是屬於OverallAuth2.0系列文章,每周更新一篇該系列文章(從0到1完成系統開發)。 該系統文章,我會儘量說的非常詳細,做到不管新手、老手都能看懂。 說明:OverallAuth2.0 是一個簡單、易懂、功能強大的許可權+可視化流程管理系統。 有興趣的朋友,請關註我吧(*^▽^*) ...
  • 一、下載安裝 1.下載git 必須先下載並安裝git,再TortoiseGit下載安裝 git安裝參考教程:https://blog.csdn.net/mukes/article/details/115693833 2.TortoiseGit下載與安裝 TortoiseGit,Git客戶端,32/6 ...
  • 前言 在項目開發過程中,理解數據結構和演算法如同掌握蓋房子的秘訣。演算法不僅能幫助我們編寫高效、優質的代碼,還能解決項目中遇到的各種難題。 給大家推薦一個支持C#的開源免費、新手友好的數據結構與演算法入門教程:Hello演算法。 項目介紹 《Hello Algo》是一本開源免費、新手友好的數據結構與演算法入門 ...
  • 1.生成單個Proto.bat內容 @rem Copyright 2016, Google Inc. @rem All rights reserved. @rem @rem Redistribution and use in source and binary forms, with or with ...
  • 一:背景 1. 講故事 前段時間有位朋友找到我,說他的窗體程式在客戶這邊出現了卡死,讓我幫忙看下怎麼回事?dump也生成了,既然有dump了那就上 windbg 分析吧。 二:WinDbg 分析 1. 為什麼會卡死 窗體程式的卡死,入口門檻很低,後續往下分析就不一定了,不管怎麼說先用 !clrsta ...
  • 前言 人工智慧時代,人臉識別技術已成為安全驗證、身份識別和用戶交互的關鍵工具。 給大家推薦一款.NET 開源提供了強大的人臉識別 API,工具不僅易於集成,還具備高效處理能力。 本文將介紹一款如何利用這些API,為我們的項目添加智能識別的亮點。 項目介紹 GitHub 上擁有 1.2k 星標的 C# ...