windows server 下使用gpfdist 并行导入数据到 greenplum集群

          windows server 使用gpfdist教程 

linux 下请参考 linux gpfdist

由于工作需要, 需要将在SQL server 上的数据迁移到Greenplum集群 所以 采取并行导入CSV的工具gpfdist 实现并行导入数据

一、部署安装环境

  首相去官网下载gpload.exe 点击安装  安装路径要记住 

  我的安装路径是D: 盘 gpfdist.exe在 D:\bin\

二、启动windows 服务

2.1 命令行创建服务 win+R 输入 cmd 进入dos窗口

创建服务  这个服务是需要手动启动的   




  1. sc create gpfdist binpath="D:\bin\gpfdist.exe -p 2345 -d D:\data -l D:\load_log"

 参数介绍

  -p 打开的端口 2345

  -d 将要扫描的CSV文件存放路径 

  -l 导入数据的日志文件存放路径  

会提示  




  1. [SC] CreateService 成功

2.2 手动去启动服务  右键 启动  <图片粘贴不进来>

  2.2.1 打开任务管理器 选择服务 选择底下的 打开服务

  

  

  2.2.2 找到gpfdist 右键 启动服务

到这里服务创建完毕

如果想重新创建新的服务 要先停着这个运行的 gpfdist 服务

然后 在dos 下 执行 即删除服务


  1. sc delete gpfdist

注意事项:

1. 所导入的CSV文件使用的编码格式必须是utf-8 而windows server 存储的格式是 utf-16

  去百度下载一个iconv.exe

  dos下执行如下命令

  iconv -f utf-16 -t utf-8 filename.csv > filename_utf8.csv 

  等一段时间 就ok了

2.确定CSV文件的分隔符 我这里默认是 "," 

------------------------------分割线---------------------------------------------------------------------------------

接下来在greenplum的master节点进行设置

一、 创建外部表  

IP 地址 192.188.100.236 是windows server的IP地址


  1. create external table test_load
  2. {
  3. id int,
  4. name text
  5. }
  6. LOCATION('gpfdist://192.188.100.236:2345/test_utf8.csv')
  7. FORMAT 'csv' (DELIMITER ',');

二、建表

  


  1. create external table test
  2. {
  3. id int,
  4. name text
  5. }
  6. with(OIDS=FALSE) --可以添加多个自己需要的表特性
  7. distributed Randomly; --随机分布

三 导入数据


  1. insert into test select * from test_load;
时间: 2025-01-21 02:20:03

windows server 下使用gpfdist 并行导入数据到 greenplum集群的相关文章

window下myeclipse的插件连接linux的hadoop集群

问题描述 window下myeclipse的插件连接linux的hadoop集群 解决方案 MyEclipse 配置 Hadoop 插件hadoop-1.2.1 win7 myeclipse 插件编译windows/ Linux下 myeclipse和eclipse下安装配置hadoop插件 解决方案二: http://www.silverlightchina.net/html/windows8/study/2013/0203/21803.html

LDAP Server环境集中化管理IBM PowerHA SystemMirror高可用性集群

IBM System Director 提供了专用的管理平台,将操作整合,并且简化了配置步骤,从而实现了集中化的管理. 由于篇幅的限制,本文无法详细地阐述每一个涉及到的概念和专有名词.您可以针对具体的环境,对于文中出现的概念自行查找相关的资料来了解.本文的重心是强调实际的操作步骤和方法. 文章将会注重表达操作的步骤和操作结果的分析. 一些重要概念的简介 IBM Systems Director IBM Systems Director 是一套平台管理软件.它能够有效地管理物理和虚拟设备,提高系统

Greenplum 通过gpfdist + EXTERNAL TABLE 并行导入数据

Greenplum 提供了快速导入数据的方法,下面通过一个例子演示给大家. 我们用TPCH测试中最大的表做导入测试 首先简单介绍下原理. 1) Greenplum 通过外部表的方式让所有 segment 同时连接到一组外部服务 gpfdist, 同时拉取数据 2) gpfdist 随机分发数据给所有 segment. 3) segment拿到数据后先解析它,根据表的分发规则收下属于自己的数据,把不属于自己的数据再分发给所属的segment. 整个过程充分利用了网络和各 segment 的硬件资源

Windows Server 2008 R2迁移IP配置数据指南

我们知道,将某些服务器角色迁移到 http://www.aliyun.com/zixun/aggregation/13975.html">Windows Server 2008 R2 时必需迁移 IP 配置数据,包括 DHCP 服务器.域名系统 (DNS) 服务器和 Active Directory域服务.本系列文章介绍如何迁移核心 IPv4 和 IPv6 配置设置和数据. 本文则着重阐述如何准备迁移 IP 配置设置和数据. 一.准备目标服务器 1.在目标服务器上安装 Windows Se

在Windows Server下集成Apache、Tomcat和IIS

我在<Perl.PHP.ASP.JSP技术比较>一文中曾经对四种流行的网站设计语言进行了评测和对比,常言道鱼与熊掌皆我所欲,两者不可兼得,那么有没有一种方法,可以做到鱼与熊掌兼得,同时支持这四种语言的Web服务器呢,今天我就介绍一下基于Windows Server 2003的同时在一个80端口支持这四种语言的方法. 我们的策略是:安装三个Web服务器,Apache负责支持perl和php,IIS负责支持asp,Tomcat负责支持jsp,通过Apache的proxy_module将三个服务器集

Windows Server 2012 R2中的VDI数据删除技术工作原理

  重复数据删除技术如何帮助工作负载在虚拟桌面工作?VDI重复数据删除有什么局限性吗? 终端虚拟化使用的技术如虚拟桌面基础结构(VDI)近年来引起了人们的关注,因为组织希望对终端实现集中管理并实施安全措施,同时减少对硬件的依赖.但存储是VDI部署的一个重要的限制,因为每个终端基本上都部署为一个虚拟机(VM).重复数据删除成了VDI中一个引人注目的好处,因为其显著降低了存储,极大地扩展了托管在每个服务器的桌面镜像数量,同时降低了企业级VDI部署所需的服务器数量. 传统的重复数据删除因为要打开/激活

vCenter初始化数据中心和集群

接着上一次的文档"7.vCeenter部署流程2",vcenter软件已经安装在2008上了,同时win2008上的和vmware相关的服务都已经启动,这里一定要检查以下: 打开服务器管理器(就在任务栏第一个,win+1快速启动),有时候开机后回自动启动:       然后在左侧目录中找到配置-服务:   看到途中那两个服务,一定要反点启动,因为一开始他们都是延迟启动的,这里建议直接设置为自动模式" 这样就方便多了(在反点属性里) 这两个服务不启动的话client是登不上去的

Scala-IDE Eclipse(Windows)中开发Spark应用程序,在Ubuntu Spark集群上运行

在进行实际的Spark应用程序开发时,常常会利用Window环境进行程序开发,开发测试好之后提交到Spark集群中利用bin/spark-submit脚本进行程序的发布运行,本教程教将一步一步地教大家如何进行该操作.本教程主要内容如下: Window开发环境说明 Spark集群运行环境说明 Scala IDE For Eclipse中Spark程序开发 利用spark-submit脚本提交到Spark集群当中运行 Windows开发环境说明 (1)Scala-IDE eclipse ,版本号见下

centos6下基于session绑定nat模型的lvs集群教程

实验环境:四台虚拟机,安装的操作系统是CentOS6.5,各自的功能及IP地址如下: Director:     eth0 192.168.2.1(作为VIP使用),eth1:10.0.0.1(作为DIP使用) RS1:     eth0:10.0.0.2 RS2:     eth0:10.0.0.3 数据库服务器:安装的mariadb     eth0:10.0.0.4 拓扑图:  实验步骤: 一.准备数据库服务器,安装mariadb,创建一个用于远程连接数据库的用户,创建一个数据库,用于两台