Spark 載入資料庫mysql表中數據進行分析

-Advertisement-

1.工程maven依賴包 2.spark載入資料庫中數據 3.spark支持載入多種資料庫，僅需要用戶依賴不同的資料庫驅動包，並且代碼進行微調即可根據以上java代碼，僅需調整18行，更改驅動載入類即可。 ...

1.工程maven依賴包

 1  
 2 <properties>
 3     <spark_version>2.3.1</spark_version>
 4     <!-- elasticsearch-->
 5     <elasticsearch.version>5.5.2</elasticsearch.version>
 6     <fastjson.version>1.2.28</fastjson.version>
 7     <elasticsearch-hadoop.version>6.3.2</elasticsearch-hadoop.version>
 8     <elasticsearch-spark.version>5.5.2</elasticsearch-spark.version>
 9 </properties>
10 <dependencies>
11     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
12     <dependency>
13         <groupId>org.apache.spark</groupId>
14         <artifactId>spark-core_2.11</artifactId>
15         <version>${spark_version}</version>
16     </dependency>
17     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
18     <dependency>
19         <groupId>org.apache.spark</groupId>
20         <artifactId>spark-sql_2.11</artifactId>
21         <version>${spark_version}</version>
22     </dependency>
23     <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-yarn -->
24     <dependency>
25         <groupId>org.apache.spark</groupId>
26         <artifactId>spark-yarn_2.11</artifactId>
27         <version>${spark_version}</version>
28     </dependency>
29     <dependency>
30         <groupId>org.elasticsearch</groupId>
31         <artifactId>elasticsearch-spark-20_2.11</artifactId>
32         <version>${elasticsearch-spark.version}</version>
33     </dependency>
34     <dependency>
35         <groupId>mysql</groupId>
36         <artifactId>mysql-connector-java</artifactId>
37         <version>5.1.46</version>
38     </dependency>
39 </dependencies>

2.spark載入資料庫中數據

 1 public class GoodsFromMySQL {
 2 
 3     /**
 4      * 載入資料庫數據
 5      *
 6      * @param sc           spark context
 7      * @param sparkSession spark session
 8      */
 9     public static void loadGoodsInfo(SparkContext sc, SparkSession sparkSession) {
10         String url = "jdbc:mysql://x.x.x.x:3306/db-test";
11 
12         String sql = "(SELECT item_name as itemName, goods_category as goodsCategory FROM goods where dict_type='100203' and item_name " +
13                 "is not null) as my-goods";
14 
15         SQLContext sqlContext = SQLContext.getOrCreate(sc);
16         DataFrameReader reader = sqlContext.read().format("jdbc").
17                 option("url", url).option("dbtable", sql).
18                 option("driver", "com.mysql.jdbc.Driver").
19                 option("user", "root").
20                 option("password", "xxxxx");
21 
22 
23         Dataset<Row> goodsDataSet = reader.load();
24 
25         // Looks the schema of this DataFrame.
26         goodsDataSet.printSchema();
27 
28         goodsDataSet.write().mode(SaveMode.Overwrite).json("/data/app/source_new.json");
29     }
30 
31 
32     public static void main(String[] args) {
33         SparkConf conf = new SparkConf().setAppName("my-app");
34         SparkContext sc = new SparkContext(conf);
35 
36         SparkSession sparkSession = new SparkSession(sc);
37 
38         loadGoodsInfo(sc, sparkSession);
39     }
40 }

3.spark支持載入多種資料庫，僅需要用戶依賴不同的資料庫驅動包，並且代碼進行微調即可

　　根據以上java代碼，僅需調整18行，更改驅動載入類即可。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

[20180814]慎用查看表壓縮率腳本.txt

[20180814]慎用查看表壓縮率腳本.txt--//最近看exadata方面書籍,書中提供1個腳本,查看某些表採用那些壓縮模式壓縮比能達到多少.--//通過調用DBMS_COMPRESSION.get_compression_ratio確定壓縮比.例子如下:--//測試版本11.2.0.4.de ...
Oracle子查詢之簡單子查詢

Oracle 簡單子查詢顧名思義，簡單子查詢是嵌套在 SQL 語句中的另一個SELECT 語句，並且子查詢只返回一列數據 1，單行子查詢：子查詢 (內查詢) 在主查詢之前一次執行完成。子查詢的結果被主查詢(外查詢)使用，單行子查詢，一個子查詢語句只返回一行結果，不能返回空值可以使用>,<,< ...
[20180813]刷新共用池與父子游標.txt

[20180813]刷新共用池與父子游標.txt--//測試刷新共用池與父子游標含有那些信息保存在共用池.--//自己最近遇到的問題,感覺自己以前理解有點亂,測試看看.1.環境SCOTT@book> @ ver1PORT_STRING VERSION BANNER x86_64/Linux 2.4. ...
關於從Oracle資料庫中刪除表數據

Oracle刪除語句drop、delete、truncate的差別 ...
mysql 開發進階篇系列 21 磁碟I/O問題(RAID)

一.概述作為應用系統的持久化層，不管資料庫採取了什麼樣的Cache機制，資料庫最終總是要將數據儲存到可以長久保存的I/O設備磁碟上。但磁碟的存取速度顯然要比cpu,ram的速度慢很多。因此，對於比較大的資料庫，磁碟I/0 一般總會總為資料庫的一個性能瓶頸。 ram：又稱作“隨機存儲器”，是與CPU ...
一條SQL生成數據字典

有個字典表並定期維護，對DBA和開發很重要，終於把他們整合在一起了，看有沒問題？一條SQL生成數據字典，包含所有OPEN用戶、表名、欄位名、欄位序號、欄位屬性、預設值、是否非空、欄位意思、主鍵標識、外鍵標識、主鍵表名、主鍵欄位名、外鍵表名、外鍵欄位名、外鍵名、外鍵標識、外鍵表用戶其中聯合外鍵會出現 ...
mssql sqlserver 驗證整型函數分享

轉自:http://www.maomao365.com/?p=6227 摘要: 下文將製作一個isnumber驗證整型的函數，供在sql腳本中做數值判斷，如下所示: 例: 實現原理:判斷是否包含特殊字元，是否全部為0-9的自然數組成 ...
mongodb查詢資料庫中某個欄位中的值包含某個字元串的方法

正則表達式最能解決：例如：這裡主要是註意正則表達式要寫對，該轉義的註意轉義，否則報錯。 ...