從MySQL向Greenplum集群中導入數據

来源:https://www.cnblogs.com/shengdimaya/archive/2018/04/09/8762059.html
-Advertisement-
Play Games

我們要從MySQL當中導出數據到Greenplum當中,按照以下步驟就可以 以schema_name.table_name為例 導的時候需要註意,一些字元的轉換,對於這張表來說,主要就是在MySQL當中一些時間格式存儲的為INT類型,我們需要進行轉化後然後導出,而且在Greenplum當中建表的時候 ...


我們要從MySQL當中導出數據到Greenplum當中,按照以下步驟就可以

1:將MySQL當中的表導出外部文件

以schema_name.table_name為例

select 
 product_id, number, name, english_name, purchase_name, system_name, bar_code, category_one, category_two, category_three,
 parent_id, parent_number, brand_id, supplier_id, price, ad_word, give_integral, shelf_life, FROM_UNIXTIME(shelve_date), product_area, country,
 sale_unit, specification, weight, length, width, height, storage_conditions, storage, model, refuse_notes, status, is_promote, 
 is_gift, is_book, is_outgoing, is_presale, is_fragile, is_have, is_cod, is_return, is_oos, is_seasonal, is_multicity, is_package, is_show, click,
 favorite, min_purchase_unit, in_price, refer_in_price, mwaverage_price, is_unique_number, is_batch_number, qs_proportion, shelf_life_proportion, box_specification,
 max_unsalable, advent_shelves, pro_warning, FROM_UNIXTIME(add_time), operator_id,FROM_UNIXTIME( audit_time), remark, price_type, new_tag, product_type, business_model, is_sell, return_policy,
 package, inventory, merchant_number, modified_time ,now()
 from schema_name.table_name  INTO OUTFILE '/tmp/table_name.txt';

 

導的時候需要註意,一些字元的轉換,對於這張表來說,主要就是在MySQL當中一些時間格式存儲的為INT類型,我們需要進行轉化後然後導出,而且在Greenplum當中建表的時候會多一個時間欄位,我們這裡預設導出現在時間。按照以上格式進行導出。

2:將文件拷貝到Greenplum伺服器上,並且創建外部表

先將文件拷貝到外部表的目錄下,這個比較簡單,什麼方法都可以,然後創建外部表:

create external  TABLE  schema_name.table_name_ext( product_id int,
number varchar(10),
name varchar(100),
english_name varchar(100),
purchase_name varchar(100),
system_name varchar(100),
bar_code varchar(255),
category_one int,
category_two int,
category_three int,
parent_id int,
parent_number int,
brand_id int,
supplier_id int,
price int,
ad_word varchar(100),
give_integral int,
shelf_life int,
shelve_date timestamp without time zone,
product_area int,
country int,
sale_unit varchar(20),
specification varchar(255),
weight decimal(10,2) ,
length int,
width int,
height int,
storage_conditions varchar(255),
storage smallint,
model varchar(20),
refuse_notes varchar(255),
status smallint,
is_promote smallint,
is_gift smallint,
is_book smallint,
is_outgoing smallint,
is_presale int,
is_fragile smallint,
is_have smallint,
is_cod smallint,
is_return smallint,
is_oos smallint,
is_seasonal smallint,
is_multicity smallint,
is_package smallint,
is_show smallint,
click int,
favorite int,
min_purchase_unit int,
in_price int,
refer_in_price int,
mwaverage_price int,
is_unique_number int,
is_batch_number int,
qs_proportion int,
shelf_life_proportion DOUBLE PRECISION,
box_specification varchar(50),
max_unsalable int,
advent_shelves int,
pro_warning int,
add_time timestamp without time zone,
operator_id int,
audit_time timestamp without time zone,
remark varchar(255),
price_type smallint,
new_tag int,
product_type int,
business_model smallint,
is_sell smallint,
return_policy smallint,
package varchar(200),
inventory varchar(200),
merchant_number int,
modified_time timestamp without time zone,
dw_modified_time timestamp without time zone
)  location(
'gpfdist://172.16.16.34:9888/table_name.txt' ) 
FORMAT
'TEXT' SEGMENT REJECT LIMIT 1000000 rows ;
這裡我們要指定'gpfdist://172.16.16.34:9888/table_name.txt',這個IP地址加上外部表就可以了,後面要把這個文件拷貝到 gpfdist 的目錄當中,我們看下啟動方式gpfdist -d /tmp -p 9888,也就是要把外部文件拷貝到/tmp目錄下才可以。其他的註意列名對應就好
然後查詢一下,一般情況列對上就不會有問題。
3:導入到Greenplum當中正式表

先創建一張正式表:

create table schema_name.table_name ( product_id int,
number varchar(10),
name varchar(100),
english_name varchar(100),
purchase_name varchar(100),
system_name varchar(100),
bar_code varchar(255),
category_one int,
category_two int,
category_three int,
parent_id int,
parent_number int,
brand_id int,
supplier_id int,
price int,
ad_word varchar(100),
give_integral int,
shelf_life int,
shelve_date timestamp without time zone,
product_area int,
country int,
sale_unit varchar(20),
specification varchar(255),
weight decimal(10,2) ,
length int,
width int,
height int,
storage_conditions varchar(255),
storage smallint,
model varchar(20),
refuse_notes varchar(255),
status smallint,
is_promote smallint,
is_gift smallint,
is_book smallint,
is_outgoing smallint,
is_presale int,
is_fragile smallint,
is_have smallint,
is_cod smallint,
is_return smallint,
is_oos smallint,
is_seasonal smallint,
is_multicity smallint,
is_package smallint,
is_show smallint,
click int,
favorite int,
min_purchase_unit int,
in_price int,
refer_in_price int,
mwaverage_price int,
is_unique_number int,
is_batch_number int,
qs_proportion int,
shelf_life_proportion DOUBLE PRECISION,
box_specification varchar(50),
max_unsalable int,
advent_shelves int,
pro_warning int,
add_time timestamp without time zone,
operator_id int,
audit_time timestamp without time zone,
remark varchar(255),
price_type smallint,
new_tag int,
product_type int,
business_model smallint,
is_sell smallint,
return_policy smallint,
package varchar(200),
inventory varchar(200),
merchant_number int,
modified_time timestamp without time zone,
dw_modified_time timestamp without time zone
) distributed by(product_id);

然後導入數據:

insert into schema_name.table_name
select * from schema_name.table_name_ext

 這樣就把外部表數據導出到了內部表,均勻分佈在每個segment上。註意schema_name.table_name的結構要和schema_name.table_name_ext是一致的。


您的分享是我們最大的動力!

-Advertisement-
Play Games
更多相關文章
  • 在事件處理層(evdev.c)中結構體evdev_client定義了一個環形緩衝區(circular buffer),其原理是用數組的方式實現了一個先進先出的迴圈隊列(circular queue),用以緩存內核驅動上報給用戶層的input_event事件。 evdev_client對象維護了三個偏 ...
  • 系統調用 01、什麼是系統調用? 02、Linux系統調用之I/O操作(文件操作) 03、文件描述符的複製:dup(), dup2() 多進程實現多任務 04、進程的介紹 05、Linux可執行文件結構與進程結構 06、多進程實現多任務(一):fork() 07、多進程實現多任務(二):vfork( ...
  • 在linux命令行中經常看到pts/0,這是什麼意思呢??媽蛋!! 先說pts/0吧,man裡面是這樣說的:ptmx and pts - pseudo-terminal master and slave,pts是所謂的偽終端或虛擬終端,具體表現就是你打開一個終端,這個終端就叫pts/0,如果你再打開 ...
  • 下載安裝文件,地址:鏈接:https://pan.baidu.com/s/1gObmWv5_w2Y4Jlf2-RkBYA 密碼:1rx9 安裝手冊參考:鏈接:https://pan.baidu.com/s/1SCGeMmXB_fIjhBZZ3pU4mw 密碼:ubki 安裝手冊的文字可以忽略,可以只 ...
  • 1、SQL中Sum()替換Count使用 SELECT COUNT(OnDutyTime) AS 本周入職 FROM dbo.EmployeeMsg WHERE DATEDIFF(WEEK,OnDutyTime,GETDATE())=0 SELECT ISNULL(SUM(1),0) AS 本周入職 ...
  • 由於畢設需要用到QT讀取資料庫中的數據,並將數據保存至資料庫中。花了一天的時間,總算實現了從QT中讀取資料庫中的數據。網上相關資料很多,但是寫得不是很全,中間出現了一些問題,解決起來比較麻煩。所以本文從MYSQL下載、安裝,QT連接MYSQL儘可能寫詳細,若有不足,還請見諒。 1、QT5.5下載 本 ...
  • 上節主要演示了redis單節點的安裝部署,對於數據量更大的服務可以安裝redis-cluster進行處理 1. 安裝ruby 2.安裝redis-cluster 3.到redis源碼目錄找到集群創建工具 4.創建redis-cluster集群節點 (1)創建節點目錄,修改配置文件 ...
  • oracle數據字典 數據字典是由oracle伺服器創建和維護的一組只讀的系統表。數據字典分為兩類:一是基表,二是數據字典視圖。 數據字典視圖包括用戶名、用戶許可權、對象名、約束和審計等信息,是通過運行catalog.sql腳本文件來產生的。 數據字典存儲瞭如下信息: ü 資料庫的邏輯結構和物理結構, ...
一周排行
    -Advertisement-
    Play Games
  • 移動開發(一):使用.NET MAUI開發第一個安卓APP 對於工作多年的C#程式員來說,近來想嘗試開發一款安卓APP,考慮了很久最終選擇使用.NET MAUI這個微軟官方的框架來嘗試體驗開發安卓APP,畢竟是使用Visual Studio開發工具,使用起來也比較的順手,結合微軟官方的教程進行了安卓 ...
  • 前言 QuestPDF 是一個開源 .NET 庫,用於生成 PDF 文檔。使用了C# Fluent API方式可簡化開發、減少錯誤並提高工作效率。利用它可以輕鬆生成 PDF 報告、發票、導出文件等。 項目介紹 QuestPDF 是一個革命性的開源 .NET 庫,它徹底改變了我們生成 PDF 文檔的方 ...
  • 項目地址 項目後端地址: https://github.com/ZyPLJ/ZYTteeHole 項目前端頁面地址: ZyPLJ/TreeHoleVue (github.com) https://github.com/ZyPLJ/TreeHoleVue 目前項目測試訪問地址: http://tree ...
  • 話不多說,直接開乾 一.下載 1.官方鏈接下載: https://www.microsoft.com/zh-cn/sql-server/sql-server-downloads 2.在下載目錄中找到下麵這個小的安裝包 SQL2022-SSEI-Dev.exe,運行開始下載SQL server; 二. ...
  • 前言 隨著物聯網(IoT)技術的迅猛發展,MQTT(消息隊列遙測傳輸)協議憑藉其輕量級和高效性,已成為眾多物聯網應用的首選通信標準。 MQTTnet 作為一個高性能的 .NET 開源庫,為 .NET 平臺上的 MQTT 客戶端與伺服器開發提供了強大的支持。 本文將全面介紹 MQTTnet 的核心功能 ...
  • Serilog支持多種接收器用於日誌存儲,增強器用於添加屬性,LogContext管理動態屬性,支持多種輸出格式包括純文本、JSON及ExpressionTemplate。還提供了自定義格式化選項,適用於不同需求。 ...
  • 目錄簡介獲取 HTML 文檔解析 HTML 文檔測試參考文章 簡介 動態內容網站使用 JavaScript 腳本動態檢索和渲染數據,爬取信息時需要模擬瀏覽器行為,否則獲取到的源碼基本是空的。 本文使用的爬取步驟如下: 使用 Selenium 獲取渲染後的 HTML 文檔 使用 HtmlAgility ...
  • 1.前言 什麼是熱更新 游戲或者軟體更新時,無需重新下載客戶端進行安裝,而是在應用程式啟動的情況下,在內部進行資源或者代碼更新 Unity目前常用熱更新解決方案 HybridCLR,Xlua,ILRuntime等 Unity目前常用資源管理解決方案 AssetBundles,Addressable, ...
  • 本文章主要是在C# ASP.NET Core Web API框架實現向手機發送驗證碼簡訊功能。這裡我選擇是一個互億無線簡訊驗證碼平臺,其實像阿裡雲,騰訊雲上面也可以。 首先我們先去 互億無線 https://www.ihuyi.com/api/sms.html 去註冊一個賬號 註冊完成賬號後,它會送 ...
  • 通過以下方式可以高效,並保證數據同步的可靠性 1.API設計 使用RESTful設計,確保API端點明確,並使用適當的HTTP方法(如POST用於創建,PUT用於更新)。 設計清晰的請求和響應模型,以確保客戶端能夠理解預期格式。 2.數據驗證 在伺服器端進行嚴格的數據驗證,確保接收到的數據符合預期格 ...