SparkR鏈接mysql資料庫（踩坑）

-Advertisement-

本文主要講述sparkR鏈接Mysql的過程和坑。 SparkR的開發可以用RStudio工具進行開發，連接spark可以通過RStudio界面中的Connections進行配置連接;具體方法這裡不做介紹。下麵為spark程式的部分代碼：在集群和sparkR shell里會有一個不知道是不是bu ...

本文主要講述sparkR鏈接Mysql的過程和坑。

SparkR的開發可以用RStudio工具進行開發，連接spark可以通過RStudio界面中的Connections進行配置連接;具體方法這裡不做介紹。

下麵為spark程式的部分代碼：

if (nchar(Sys.getenv("SPARK_HOME")) < 1) {  
  Sys.setenv(SPARK_HOME = "/usr/local/spark/")  
}  
library(SparkR, lib.loc = c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib")))  
sc <- sparkR.init(master = "local[*]", sparkEnvir = list(spark.driver.memory="2g")) 
df<-read.jdbc("jdbc:mysql://192.168.1.181:3306/dsj_test?user=root&password=123456&characterEncoding=utf8","channel",user="root",password="123456")
newdata<-select(df,df$channel,df$stream_id,df$region,df$isp)
省略具體操作
write.jdbc(newdata, "jdbc:mysql://192.168.1.181:3306/dsj_test?user=root&password=123456&characterEncoding=utf8", "testmysql", mode="overwrite", user = "root", password = "123456"

在集群和sparkR shell里會有一個不知道是不是bug的坑。

復現：

1. 啟動sparkR；

2.進入sparkR中，載入mysql驅動：

sparkR.session(sparkPackages="/usr/local/spark/jars/mysql-connector-java-8.0.11.jar")

3. 連接資料庫，獲取數據：

df<-read.jdbc("jdbc:mysql://192.168.1.181:3306/dsj_test?user=root&password=123456&characterEncoding=utf8","channel",user="root",password="123456")

在這一步的時候第一次執行是不會過去的，它會報一個異常：

18/05/21 15:44:56 ERROR RBackendHandler: jdbc on 5 failed

java.lang.reflect.InvocationTargetException......

Caused by: java.sql.SQLException: No suitable driver

at java.sql.DriverManager.getDriver(DriverManager.java:315)

at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions$$anonfun$7.apply(JDBCOptions.scala:84)

at scala.Option.getOrElse(Option.scala:121).......

4. 再次執行第三步，並不會再次報錯，而是顯示成功；

在集群中也一樣，即使添加了mysql驅動也會報出第三步的異常；集群提交的命令為：（載入驅動的三個方式選一個就好，但是提交.jar人物，選--driver-class-path參數）

./spark-submit --master spark://leeco:7077 --packages mysql:mysql-connector-java:8.0.11 --driver-class-path /usr/local/spark/jars/mysql-connector-java-8.0.11.jar --jars /usr/local/spark/jars/mysql-connector-java-8.0.11.jar /Users/leeco/work/R/analysis/analysisF.R

這裡的這個坑是在集群中發現的，主要是sparkR第一次載入驅動的時候報異常，第二次正常運行，不知道是不是bug，還是我的配置有問題，有大神知道可以告知，感激不盡。

解決辦法：

在R語言中捕獲異常，再次執行載入數據語句即可：

possibleError <- tryCatch(
df<-read.jdbc("jdbc:mysql://192.168.1.181:3306/dsj_test?user=root&password=123456&characterEncoding=utf8","channel",user="root",password="123456"),
error=function(e) {0}
)
df<-read.jdbc("jdbc:mysql://192.168.1.181:3306/dsj_test?user=root&password=123456&characterEncoding=utf8","channel",user="root",password="123456")

再次提交集群即可順利完成任務。

您的分享是我們最大的動力!

-Advertisement-

更多相關文章

MariaDB初始化和啟動故障

初始化故障排查 1. so依賴缺失比如報這樣的錯誤：可以用安裝依賴包。實驗發現安裝成功之後，還是報同樣的錯誤。用查詢，。上網找了原因，需要再。而安裝出來是numactl 2.0.9 2.el6.i686；所以需要再安裝，安裝出來是。解決方法，安裝libaio.so.1；但預設 ...
Oracle中函數的使用

1.decode () 例子：它的寫法如下decode('a','b','c','d')，其中a,b,c,d可以是其他函數也可以是數值，依據我們自己的情況來使用，它的含義是如果a=b，那麼結果顯示c，否則d。翻譯成我們更通俗易懂的話就是： if(sex=1) then return '男' els ...
MariaDB與MySQL並存

以下是MariaDB官方文檔說明，MariaDB如何安裝在已經存在MySQL實例的主機上：但是如果是先安裝了MariaDB，然後再安裝MySQL，比如：在做了一個軟鏈接，即具體見《MariaDB安裝》的配置是一樣的。安裝時註意新的MySQL實例的配置文件，比如/etc/my3308.cn ...
sql server 高可用鏡像

一、什麼是資料庫鏡像基本軟體的高可用性解決方案快速的故障轉移恢復(3秒轉移)，低硬體成本基於資料庫級別的實現二、資料庫鏡像中的伺服器角色主體伺服器承載主體資料庫接受用戶連接和事務處理請求鏡像伺服器承載鏡像資料庫作為主體資料庫的熱備份(主體資料庫的變化及時傳到鏡像資料庫中) 僅在故 ...
MySQL 時間函數

轉載請標明出處：http://blog.csdn.net/zhaoyanjun6/article/details/80393761 本文出自 "【趙彥軍的博客】" 獲取當前時間返回當前日期：select curdate() ; 返回當前時間：select curtime() ; 返回當前日期和 ...
MariaDB卸載

二進位安裝方式的MariaDB卸載 1. 關閉mysql服務 2. 刪除數據文件和目錄 3. 刪除軟鏈接，二進文件（如有必要） 4. 刪除自啟動配置，配置文件 5. 刪除mysql用戶和用戶組（如有必要） RPM包安裝方式的MariaDB卸載 1. 關閉mysql服務 2. 檢查mysql組件 3. ...
MariaDB安裝

二進位安裝 (CentOS7 + MariaDB 10.2.8) 安裝前準備 1. 關閉NUMA 2. 檢查NUMA 限制設置 ulimit a查看主要查看open files，max user processes的限制設置。 open files系統打開文件過多，會報 OS error code ...
standby_file_management 參數為manual 導致ORA-01111問題

情景： Dataguard 物理備庫執行恢復報錯： Errors in file /home/u01/app/diag/rdbms/rzorcl11g/ORCL/trace/ORCL_pr00_35893.trc:ORA-01111: name for data file 20 is unknown ...