Spark作業調度階段分析_ZenDei技術網路在線

Spark作業調度階段分析

-Advertisement-

Spark作為分散式的大數據處理框架必然或涉及到大量的作業調度，如果能夠理解Spark中的調度對我們編寫或優化Spark程式都是有很大幫助的；在Spark中存在轉換操作（Transformation Operation）與行動操作(Action Operation) 兩種；而轉換操作只是會從 ...

Spark作為分散式的大數據處理框架必然或涉及到大量的作業調度，如果能夠理解Spark中的調度對我們編寫或優化Spark程式都是有很大幫助的；
　　在Spark中存在轉換操作（Transformation Operation）與 行動操作(Action Operation)兩種；而轉換操作只是會從一個RDD中生成另一個RDD且是lazy的，Spark中只有行動操作（Action Operation）才會觸發作業的提交，從而引發作業調度；在一個計算任務中可能會多次調用轉換操作這些操作生成的RDD可能存在著依賴關係，而由於轉換都是lazy所以當行動操作（Action Operation ）觸發時才會有真正的RDD生成，這一系列的RDD中就存在著依賴關係形成一個DAG（Directed Acyclc Graph），在Spark中DAGScheuler是基於DAG的頂層調度模塊；

RDD Action作業提交流程

　　這裡根據Spark源碼跟蹤觸發Action操作時觸發的Job提交流程，Count()是RDD中的一個Action操作所以調用Count時會觸發Job提交；
　　在RDD源碼count()調用SparkContext的runJob，在runJob方法中根據partitions(分區)大小創建Arrays存放返回結果；

RDD.scala

/**
* Return the number of elements in the RDD.
*/
def count(): Long = sc.runJob(this, Utils.getIteratorSize _).sum

SparkContext.scala

def runJob[T, U: ClassTag](
  rdd: RDD[T],
  func: (TaskContext, Iterator[T]) => U,
  partitions: Seq[Int],
  resultHandler: (Int, U) => Unit): Unit = {

  val callSite = getCallSite
  val cleanedFunc = clean(func)
  logInfo("Starting job: " + callSite.shortForm)
  if (conf.getBoolean("spark.logLineage", false)) {
    logInfo("RDD's recursive dependencies:\n" + rdd.toDebugString)
  }
  dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, resultHandler, localProperties.get)
}

　　在SparkContext中將調用DAGScheduler的runJob方法提交作業，DAGScheduler主要任務是計算作業與任務依賴關係，處理調用邏輯；DAGScheduler提供了submitJob與runJob方法用於提交作業，runJob方法會一直等待作業完成，submitJob則返回JobWaiter對象可以用於判斷作業執行結果；
　　在runJob方法中將調用submitJob，在submitJob中把提交操作放入到事件迴圈隊列（DAGSchedulerEventProcessLoop）中；

def submitJob[T, U](
  rdd: RDD[T],
  func: (TaskContext, Iterator[T]) => U,
  partitions: Seq[Int],
  callSite: CallSite,
  resultHandler: (Int, U) => Unit,
  properties: Properties): JobWaiter[U] = {
      ......  
      eventProcessLoop.post(JobSubmitted(
      jobId, rdd, func2, partitions.toArray, callSite, waiter,
      SerializationUtils.clone(properties)))
      ......
  }

　　在事件迴圈隊列中將調用eventprocessLoop的onReceive方法；

Stage拆分

　　提交作業時DAGScheduler會從RDD依賴鏈尾部開始，遍歷整個依賴鏈劃分調度階段；劃分階段以ShuffleDependency為依據，當沒有ShuffleDependency時整個Job 只會有一個Stage；在事件迴圈隊列中將會調用DAGScheduler的handleJobSubmitted方法，此方法會拆分Stage、提交Stage；

 private[scheduler] def handleJobSubmitted(jobId: Int,
  finalRDD: RDD[_],
  func: (TaskContext, Iterator[_]) => _,
  partitions: Array[Int],
  callSite: CallSite,
  listener: JobListener,
  properties: Properties) {
var finalStage: ResultStage = null
......
  finalStage = newResultStage(finalRDD, func, partitions, jobId, callSite)
......

val job = new ActiveJob(jobId, finalStage, callSite, listener, properties)
......
val jobSubmissionTime = clock.getTimeMillis()
jobIdToActiveJob(jobId) = job
activeJobs += job
finalStage.setActiveJob(job)
val stageIds = jobIdToStageIds(jobId).toArray
val stageInfos = stageIds.flatMap(id => stageIdToStage.get(id).map(_.latestInfo))
listenerBus.post(
  SparkListenerJobStart(job.jobId, jobSubmissionTime, stageInfos, properties))
submitStage(finalStage)

submitWaitingStages()
}

調度階段提交

　　在提交Stage時會先調用getMissingParentStages獲取父階段Stage，迭代該階段所依賴的父調度階段如果存在則先提交該父階段的Stage 當不存在父Stage或父Stage執行完成時會對當前Stage進行提交；

 private def submitStage(stage: Stage) {
  val jobId = activeJobForStage(stage)
  if (jobId.isDefined) {
    if (!waitingStages(stage) && !runningStages(stage) && !failedStages(stage)) {
      val missing = getMissingParentStages(stage).sortBy(_.id)
      if (missing.isEmpty) {
        submitMissingTasks(stage, jobId.get)
      } else {
        for (parent <- missing) {
          submitStage(parent)
        }
        waitingStages += stage
      }
    }
  }
  ......
}

參考資料：
http://spark.apache.org/docs/latest/

文章首發地址：Solinx
http://www.solinx.co/archives/579

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

UWP開發入門（十）——通過繼承來擴展ListView

本篇之所以起這樣一個名字，是因為重點並非如何自定義控制項，不涉及創建CustomControl和UserControl使用的Template和XAML概念。而是通過繼承的方法來擴展一個現有的類，在繼承的子類中增加屬性和擴展行為。我們在《UWP開發入門（七）——下拉刷新》中提到過嵌套ScrollVie ...
Git學習筆記(2)-創建倉庫

一、Git簡介 1.Git是什麼 Git是分散式版本控制系統 2.Git有什麼特點 (1)Git是分散式的SCM，SVN是集中式的 (2)Git每個歷史版本存儲完整的文件，SVN存儲文件差異 (3)Git可離線完成大部分操作，SVN則相反 (4)Git有著更優雅的分支和合併實現 (5)Git有著更強... ...
Auto Mapper04(MVC中的配置)

學習如何在MVC項目中配置AutoMapper。一：首先在MVC項目中引用AutoMapper的DLL文件，接著創建一個介面，這裡面我們需要定義兩個方法，介面裡面的方法只能定義不能實現，也沒有什麼修飾符，實現介面的類必須實現裡面全部的方法。定義介面IStartupTask,裡面有兩個方法。 pu... ...
C#知識點-GDI繪圖

一、開發環境編譯器：VS2013 .Net版本：4.5 二、開發過程 1.畫一條直線 private void btnDrawLine_Click(object sender, EventArgs e) { //創建一個畫圖圖面 Graphics g = this.CreateGraphics()... ...
C#6.0新特性的嘗試

由於項目升級到了.NetFramework 4.6.1,開發工具轉向了vs2015,趁機嘗試下C#6.0.結果在網上搜的一些教程總結的不是太完整,有的代碼隨著vs正式版的發佈也有所修改.那些個教程也沒更新.所以把自己學習到的記錄一下. 1.自動屬性初始化(Auto-property initiali ...
C#模擬程式驗證生日悖論

生日悖論，指如果一個房間里有23個或23個以上的人，那麼至少有兩個人的生日相同的概率要大於50%，準確的說是50.7左右，這就意味著在一個典型的標準小學班級(30人)中，存在兩人生日相同的可能性更高。對於60或者更多的人，這種概率要大於99%。從引起邏輯矛盾的角度來說生日悖論並不是一種悖論，從這個數 ...
Spring JDBC 框架中, 綁定 SQL 參數的另一種選擇：具名參數(named parameter)

使用spring的jdbcTemplate 使用具名參數在JDBC用法中，SQL參數是用占位符？表示，並且受到位置的限制，定位參數的問題在於，一旦參數的位置發生變化，必須改變參數的綁定，在Spring JDBC中，綁定SQL參數的另一種選擇是使用具名參數，SQL具名參數是按照名稱綁定，而不是位置綁 ...
php---HTML meta refresh 刷新與跳轉(重定向)頁面

refresh用於刷新與跳轉(重定向)頁面 refresh出現在http-equiv屬性中，使用content屬性表示刷新或跳轉的開始時間與跳轉的網址 refresh示例 5秒之後刷新本頁面: <meta http-equiv="refresh" content="5"/> 5秒之後轉到夢之都首頁: ...

Spark作業調度階段分析

相關名詞

RDD Action作業提交流程

Stage拆分

調度階段提交