基於datax抽取mysql數據到HDFS

来源:https://www.cnblogs.com/wxm2270/archive/2023/03/06/17184651.html
-Advertisement-
Play Games

一、安裝datax 通過https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz這個地址下載datax.tar.gz,解壓到某個目錄,如我的目錄/opt/conf/datax-20230301,解壓完後會在當前 ...


一、安裝datax

通過https://datax-opensource.oss-cn-hangzhou.aliyuncs.com/202210/datax.tar.gz這個地址下載datax.tar.gz,解壓到某個目錄,如我的目錄/opt/conf/datax-20230301,解壓完後會在當前目錄下生成datax目錄,進入datax目錄後的目錄如下圖所示:
image.png
之後在datax安裝目錄下,運行以下命令,賦予執行許可權。

sudo chmod -R 755 ./* 

二、測試datax是否正確安裝

/opt/conf/datax-20230301/datax/bin/datax.py /opt/conf/datax-20230301/datax/job/job.json

運行以上命令,看是否能正確啟動,啟動後運行完結果如下圖:
image.png
如果那個正確運行,說明/opt/conf/datax-20230301/datax/bin/datax.py這個文件的編碼不是utf-8,需要重新編碼。用我這個替換一下即可正常使用。
datax.py

三、編寫配置文件

在datax安裝目錄下的job文件夾,使用以下命令新建配置文件

vim job_air_data_source_mysql_hdfs.json

之後將下麵的json文件內容拷貝粘貼到剛纔打開的文件,保存即可。

{
  "job": {
    "setting": {
      "speed": {
        "channel": 3
      },
      "errorLimit": {
        "record": 0,
        "percentage": 0.02
      }
    },
    "content": [
      {
        "reader": {
          "name": "mysqlreader",
          "parameter": {
            "username": "root",
            "password": "root",
            "column": ["*"],
            "splitPk": "id",
            "connection": [
              {
                "table": [
                  "air_data_source"
                ],
                "jdbcUrl": [
                  "jdbc:mysql://master:3306/air_data"
                ]
              }
            ]
          }
        },
        "writer": {
          "name": "hdfswriter",
          "parameter": {
            "defaultFS": "hdfs://master:9820",
            "fileType": "TEXT",
            "path": "/user/hive/warehouse/air_data.db/air_data_source",
            "fileName": "air_data_source_202302",
            "column": [
              {"name": "	id	","type": "STRING"},	
              {"name": "	airlinelogo	","type": "STRING"},	
              {"name": "	airlineshortcompany	","type": "STRING"},	
              {"name": "	arractcross	","type": "STRING"},	
              {"name": "	arracttime	","type": "STRING"},	
              {"name": "	arrairport	","type": "STRING"},	
              {"name": "	arrcode	","type": "STRING"},	
              {"name": "	arrontimerate	","type": "STRING"},	
              {"name": "	arrplancross	","type": "STRING"},	
              {"name": "	arrplantime	","type": "STRING"},	
              {"name": "	arrterminal	","type": "STRING"},	
              {"name": "	checkintable	","type": "STRING"},	
              {"name": "	checkintablewidth	","type": "STRING"},	
              {"name": "	depactcross	","type": "STRING"},	
              {"name": "	depacttime	","type": "STRING"},	
              {"name": "	depairport	","type": "STRING"},	
              {"name": "	depcode	","type": "STRING"},	
              {"name": "	depplancross	","type": "STRING"},	
              {"name": "	depplantime	","type": "STRING"},	
              {"name": "	depterminal	","type": "STRING"},	
              {"name": "	flightno	","type": "STRING"},	
              {"name": "	flightstate	","type": "STRING"},	
              {"name": "	localdate	","type": "STRING"},	
              {"name": "	mainflightno	","type": "STRING"},	
              {"name": "	shareflag	","type": "STRING"},	
              {"name": "	statecolor	","type": "STRING"}	
            ],
              "writeMode": "truncate",
              "fieldDelimiter": "\u0001",
              "compress":"GZIP"
              }
              }
              }
            ]
              }
              }

四、Hive建資料庫、數據表

create database air_data;
use air_data;
CREATE TABLE `air_data_source`(
  `id` int COMMENT '主鍵',
  `airlinelogo` string COMMENT '航空公司logo',
  `airlineshortcompany` string COMMENT '航空公司簡稱',
  `arractcross` string,
  `arracttime` string COMMENT '實際起飛時間',
  `arrairport` string,
  `arrcode` string,
  `arrontimerate` string COMMENT '到達準點率',
  `arrplancross` string,
  `arrplantime` string COMMENT '計划到達時間',
  `arrterminal` string,
  `checkintable` string,
  `checkintablewidth` string,
  `depactcross` string,
  `depacttime` string COMMENT '實際到達時間',
  `depairport` string COMMENT '到達機場名稱',
  `depcode` string COMMENT '到達機場代碼',
  `depplancross` string,
  `depplantime` string COMMENT '計划起飛時間',
  `depterminal` string,
  `flightno` string COMMENT '航班號',
  `flightstate` string COMMENT '航班狀態',
  `localdate` string,
  `mainflightno` string,
  `shareflag` string,
  `statecolor` string)
COMMENT '航空數據原始表'
ROW FORMAT SERDE
  'org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe'
STORED AS INPUTFORMAT
  'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT
  'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
;

運行完以上任務後,接著可以進行數據抽取了。

四、運行任務

在當前目錄下執行以下命令:

/opt/conf/datax-20230301/datax/bin/datax.py /opt/conf/datax-20230301/datax/job/job_air_data_source_mysql_hdfs.json 

即可正確啟動數據同步任務,運行完結果如下:
image.png
查看HDFS上是否已經有了數據文件,運行一下命令,得到輸出。

hadoop fs -ls hdfs://master:9820/user/hive/warehouse/air_data.db/air_data_source

image.png
至此,利用datax將mysql數據同步到hdfs任務已配置完成。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 可讀、可寫 r+t: 可讀、可寫 w+t: 可寫、可讀 a+t: 可追加、可讀 ## wt with open('36w.txt', 'wt', encoding='utf-8') as fw: print(fw.readable()) print(fw.writable()) False True ...
  • 1.項目 https://github.com/Fody/Costura 2.安裝 Install-Package Costura.Fody -Version 1.6.2 3.反射相關 Assembly.LoadFrom("someLibs.dll").GetType("xxx") 找不到文件 改為 ...
  • 目錄 Fireasy3 揭秘 -- 依賴註入與服務發現 Fireasy3 揭秘 -- 自動服務部署 Fireasy3 揭秘 -- 使用 SourceGeneraor 改進服務發現 Fireasy3 揭秘 -- 使用 SourceGeneraor 實現動態代理(AOP) Fireasy3 揭秘 -- ...
  • 序言 閑來無聊,前段時間發現一個.net開源框架:masa framework。經過一些小型項目使用,發現確實挺不錯的。然後我又去閱讀了整個masa framework源碼,特此來記錄整個源碼閱讀的過程。 如有錯誤之處還請指點 MASA Framework簡介 ​ Masa Framework是 m ...
  • 為啥要關閉自動更新 配置差點的電腦,更新要幾十分鐘,十分影響工作 有BUG的補丁,會讓工作宕機,就10月份微軟發佈的補丁,更新後,共用印表機就不能用了,卸載後,還會自動更新上去,一氣之下關閉了更新功能 關閉更新 服務禁用 WIn+R調出運行 輸入 services.msc 或 此電腦右鍵--管理-- ...
  • 所需工具 x86 DOS 模擬器:dosbox DOS 上運行調試工具:DEBUG.EXE 彙編器(鏈接器):DOS 上運行的 MASM.EXE、LINK.EXE 或者直接使用 MacOs 自帶的 nasm exe 下載地址:鏈接: https://pan.baidu.com/s/1Lf7O9R ...
  • 最近在弄一個報表,要求每行的最後一列欄位顯示餘額金額,就是上一行餘額金額加上當前行的餘額 一開始我都是在程式裡面處理,這次需要用Sql寫出來,一下犯難了。 同事介紹到有個視窗函數可以實現,我用了好多年的SqlServer,都不知有這個東西。 記錄一下,免得以後忘記了 以這個表為例子 --不分組統計 ...
  • 什麼是數據漂移? 數據漂移是 ODS 數據的一個頑疾,通常指 ODS 表的同一個業務日期數據中包含前一天或後一天凌晨附近的數據或者丟失當天的變更數據。 實際場景 公司主營互聯網金融業務,因此有了一張數據量龐大的申請人信息記錄表。這張表裡的時間欄位非常多,因為整個業務場景涉及到好幾段流程: 客戶提交申 ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...