數據傾斜特征:個別Task處理大部分數據 後果:1.OOM;2.速度變慢,甚至變得慢的不可接受 常見原因: 數據傾斜的定位: 1.WebUI(查看Task運行的數據量的大小)。 2.Log,查看log中哪一行出現OOM,查找具體哪個Stage,進而確定哪一個shuffle產生了數據傾斜。 3.查看代 ...
數據傾斜特征:個別Task處理大部分數據
後果:1.OOM;2.速度變慢,甚至變得慢的不可接受
常見原因:
數據傾斜的定位:
1.WebUI(查看Task運行的數據量的大小)。
2.Log,查看log中哪一行出現OOM,查找具體哪個Stage,進而確定哪一個shuffle產生了數據傾斜。
3.查看代碼,主要是join,groupByKey,reduceByKey等代碼。
4.對數據特征分佈進行分析。