在SparkSQL中Spark為我們提供了兩個新的抽象,分別是DataFrame和DataSet。他們和RDD有什麼區別呢?首先從版本的產生上來看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同樣的數據都給到這三個數據結構 ...
在SparkSQL中Spark為我們提供了兩個新的抽象,分別是DataFrame和DataSet。他們和RDD有什麼區別呢?首先從版本的產生上來看:
RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)
如果同樣的數據都給到這三個數據結構,他們分別計算之後,都會給出相同的結果。不同是的他們的執行效率和執行方式。
在後期的Spark版本中,DataSet會逐步取代RDD和DataFrame成為唯一的API介面。
網址:https://www.cnblogs.com/swordfall/p/9006088.html#auto_id_0