sqoop import/export使用經驗

来源:https://www.cnblogs.com/dozn/archive/2018/05/21/9066387.html
-Advertisement-
Play Games

一.先創建一個小表(test_01)進行測試(主節點IP:169.254.109.130/oracle伺服器IP:169.254.109.100) 1.測試連接oracle; sqoop list-tables --connect jdbc:oracle:thin:@169.254.109.100/ ...


一.先創建一個小表(test_01)進行測試(主節點IP:169.254.109.130/oracle伺服器IP:169.254.109.100) 1.測試連接oracle; sqoop list-tables --connect jdbc:oracle:thin:@169.254.109.100/ciicods --username odsuser --password odsuser 2.創建HDFS目錄; sudo -u hdfs hdfs dfs -mkdir /oracle 3.先將oracle中的數據導入HDFS; sudo -u hdfs sqoop import --connect jdbc:oracle:thin:@169.254.109.100:1521:ciicods --username odsuser --password odsuser  \ --table TEST_01 \ --target-dir /oracle/TEST_01 \cd --fields-terminated-by "\\01" \ --hive-drop-import-delims     \ --null-string '\\N'           \ --null-non-string '\\N'       \ -m 1 4.許可權控制; sudo -u hdfs hdfs dfs -chmod -R 777 /oracle/* 5.登錄hive創建外部表映射HDFS中的數據; beeline -u jdbc:hive2://169.254.109.130:10000 -n hive -p 123456 create external table test_01(id int,name varchar2(20))location "/oracle/test_01"; 6.查詢是否映射到數據; select * from test_01;   二.從Hive導出表到Oracle   1.在Oracle中創建相應的表,註意欄位類型要一致; 2.把hive中的數據寫入hdfs insert overwrite directory '/user/senior/hive/exp_hive 'select * from emp ;   sqoop  export  --table demo01    --connect jdbc:oracle:thin:@192.168.43.246:1521:ciicods  --username odsuser --password odsuser  --export-dir /oracledb/tmp1/test    --columns  id,name,date_dt   --input-fields-terminated-by ','  -m 3; 三.參數說明 1.import/export通用 選項         含義說明

--connect <jdbc-uri> 指定JDBC連接字元串
--connection-manager <class-name> 指定要使用的連接管理器類
--driver <class-name> 指定要使用的JDBC驅動類
--hadoop-mapred-home <dir> 指定$HADOOP_MAPRED_HOME路徑
--help 列印用法幫助信息
--password-file 設置用於存放認證的密碼信息文件的路徑
-P 從控制台讀取輸入的密碼
--password <password> 設置認證密碼
--username <username> 設置認證用戶名
--verbose 列印詳細的運行信息
--connection-param-file <filename> 可選,指定存儲資料庫連接參數的屬性文件

2.import

選項     含義說明
--append 將數據追加到HDFS上一個已存在的數據集上
--as-avrodatafile 將數據導入到Avro數據文件
--as-sequencefile 將數據導入到SequenceFile
--as-textfile 將數據導入到普通文本文件(預設)
--boundary-query <statement> 邊界查詢,用於創建分片(InputSplit)
--columns <col,col,col…> 從表中導出指定的一組列的數據
--delete-target-dir 如果指定目錄存在,則先刪除掉
--direct 使用直接導入模式(優化導入速度)
--direct-split-size <n> 分割輸入stream的位元組大小(在直接導入模式下)
--fetch-size <n> 從資料庫中批量讀取記錄數
--inline-lob-limit <n> 設置內聯的LOB對象的大小
-m,--num-mappers <n> 使用n個map任務並行導入數據
-e,--query <statement> 導入的查詢語句
--split-by <column-name> 指定按照哪個列去分割數據
--table <table-name> 導入的源表表名
--target-dir <dir> 導入HDFS的目標路徑
--warehouse-dir <dir> HDFS存放表的根路徑
--where <where clause> 指定導出時所使用的查詢條件
-z,--compress 啟用壓縮
--compression-codec <c> 指定Hadoop的codec方式(預設gzip)
--null-string <null-string> 果指定列為字元串類型,使用指定字元串替換值為null的該類列的值
--null-non-string <null-string> 如果指定列為非字元串類型,使用指定字元串替換值為null的該類列的值

 3.export

選項     含義說明
--validate <class-name> 啟用數據副本驗證功能,僅支持單表拷貝,可以指定驗證使用的實現類
--validation-threshold <class-name> 指定驗證門限所使用的類
--direct 使用直接導出模式(優化速度)
--export-dir <dir> 導出過程中HDFS源路徑
-m,--num-mappers <n> 使用n個map任務並行導出
--table <table-name> 導出的目的表名稱
--call <stored-proc-name> 導出數據調用的指定存儲過程名
--update-key <col-name> 更新參考的列名稱,多個列名使用逗號分隔
--update-mode <mode> 指定更新策略,包括:updateonly(預設)、allowinsert
--input-null-string <null-string> 使用指定字元串,替換字元串類型值為null的列
--input-null-non-string <null-string> 使用指定字元串,替換非字元串類型值為null的列
--staging-table <staging-table-name> 在數據導出到資料庫之前,數據臨時存放的表名稱
--clear-staging-table 清除工作區中臨時存放的數據
--batch 使用批量模式導出

  參數說明鏈接地址:https://blog.csdn.net/wangmuming/article/details/25303831          
您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 二進位安裝方式的MariaDB卸載 1. 關閉mysql服務 2. 刪除數據文件和目錄 3. 刪除軟鏈接,二進文件(如有必要) 4. 刪除自啟動配置,配置文件 5. 刪除mysql用戶和用戶組(如有必要) RPM包安裝方式的MariaDB卸載 1. 關閉mysql服務 2. 檢查mysql組件 3. ...
  • 二進位安裝 (CentOS7 + MariaDB 10.2.8) 安裝前準備 1. 關閉NUMA 2. 檢查NUMA 限制設置 ulimit a查看 主要查看open files,max user processes的限制設置。 open files系統打開文件過多,會報 OS error code ...
  • 情景: Dataguard 物理備庫執行恢復報錯: Errors in file /home/u01/app/diag/rdbms/rzorcl11g/ORCL/trace/ORCL_pr00_35893.trc:ORA-01111: name for data file 20 is unknown ...
  • 本文主要講述sparkR鏈接Mysql的過程和坑。 SparkR的開發可以用RStudio工具進行開發,連接spark可以通過RStudio界面中的Connections進行配置連接;具體方法這裡不做介紹。 下麵為spark程式的部分代碼: 在集群和sparkR shell里會有一個不知道是不是bu ...
  • 學習一個工具的最好途徑,就是使用它。在IT領域,在深入瞭解一個系統的原理、實現細節之前,應當先準備好它的運行環境或者源碼閱讀環境。如果能在實際環境下安裝和運行Spark,顯然能夠提升讀者對於Spark的一些感受,對系統能有個大體的印象,有經驗的工程師甚至能夠猜出一些Spark在實現過程中採用的設計模... ...
  • 1.備份一個資料庫 mysqldump -h localhosot -uroot -ppassword 資料庫名>資料庫所在路徑(路徑+資料庫名.sql) 註意:導出的資料庫文件.sql文件不能提前創建;資料庫所在路徑可用相對路徑('\')。 2.還原一個資料庫 mysql -h localhost ...
  • 1、觸發器概念 (1)觸發器(trigger)是SQL server 提供給程式員和數據分析員來保證數據完整性的一種方法,它是與表事件相關的特殊的存儲過程,它的執行不是由程式調用,也不是手工啟動,而是由事件來觸發,比如當對一個表進行操作( insert,delete, update)時就會激活它執行 ...
  • 事物是一種機制,是一種操作序列,它包含了資料庫一組操作命令,這組命令要麼全部執行,要麼都不執行。因此事物是一組不可分割的事物邏輯單元,在資料庫進行併發操作時候,事物是作為最小的控制單元來使用的,這特別適用於多用戶同時操作的數據通信系統。例如:訂票、銀行、保險公司以及證券交易系統等。 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...