windows server 下使用gpfdist 并行导入数据到 greenplum集群

windows server 使用gpfdist教程

linux 下请参考 linux gpfdist

由于工作需要，需要将在SQL server 上的数据迁移到Greenplum集群所以采取并行导入CSV的工具gpfdist 实现并行导入数据

一、部署安装环境

首相去官网下载gpload.exe 点击安装安装路径要记住

我的安装路径是D: 盘 gpfdist.exe在 D:\bin\

二、启动windows 服务

2.1 命令行创建服务 win+R 输入 cmd 进入dos窗口

创建服务这个服务是需要手动启动的

sc create gpfdist binpath="D:\bin\gpfdist.exe -p 2345 -d D:\data -l D:\load_log"

参数介绍

-p 打开的端口 2345

-d 将要扫描的CSV文件存放路径

-l 导入数据的日志文件存放路径

会提示

[SC] CreateService 成功

2.2 手动去启动服务右键启动 <图片粘贴不进来>

2.2.1 打开任务管理器选择服务选择底下的打开服务

2.2.2 找到gpfdist 右键启动服务

到这里服务创建完毕

如果想重新创建新的服务要先停着这个运行的 gpfdist 服务

然后在dos 下执行即删除服务

sc delete gpfdist

注意事项：

1. 所导入的CSV文件使用的编码格式必须是utf-8 而windows server 存储的格式是 utf-16

去百度下载一个iconv.exe

dos下执行如下命令

iconv -f utf-16 -t utf-8 filename.csv > filename_utf8.csv

等一段时间就ok了

2.确定CSV文件的分隔符我这里默认是 ","

------------------------------分割线---------------------------------------------------------------------------------

接下来在greenplum的master节点进行设置

一、创建外部表

IP 地址 192.188.100.236 是windows server的IP地址

create external table test_load
{
id int,
name text
}
LOCATION('gpfdist://192.188.100.236:2345/test_utf8.csv')
FORMAT 'csv' (DELIMITER ',');

二、建表

create external table test
{
id int,
name text
}
with(OIDS=FALSE) --可以添加多个自己需要的表特性
distributed Randomly; --随机分布

三导入数据

insert into test select * from test_load;

时间： 2025-01-21 02:20:03

windows server 下使用gpfdist 并行导入数据到 greenplum集群的相关文章

window下myeclipse的插件连接linux的hadoop集群

问题描述 window下myeclipse的插件连接linux的hadoop集群解决方案 MyEclipse 配置 Hadoop 插件hadoop-1.2.1 win7 myeclipse 插件编译windows/ Linux下 myeclipse和eclipse下安装配置hadoop插件解决方案二: http://www.silverlightchina.net/html/windows8/study/2013/0203/21803.html

LDAP Server环境集中化管理IBM PowerHA SystemMirror高可用性集群

IBM System Director 提供了专用的管理平台,将操作整合,并且简化了配置步骤,从而实现了集中化的管理. 由于篇幅的限制,本文无法详细地阐述每一个涉及到的概念和专有名词.您可以针对具体的环境,对于文中出现的概念自行查找相关的资料来了解.本文的重心是强调实际的操作步骤和方法. 文章将会注重表达操作的步骤和操作结果的分析. 一些重要概念的简介 IBM Systems Director IBM Systems Director 是一套平台管理软件.它能够有效地管理物理和虚拟设备,提高系统

Greenplum 通过gpfdist + EXTERNAL TABLE 并行导入数据

Greenplum 提供了快速导入数据的方法,下面通过一个例子演示给大家. 我们用TPCH测试中最大的表做导入测试首先简单介绍下原理. 1) Greenplum 通过外部表的方式让所有 segment 同时连接到一组外部服务 gpfdist, 同时拉取数据 2) gpfdist 随机分发数据给所有 segment. 3) segment拿到数据后先解析它,根据表的分发规则收下属于自己的数据,把不属于自己的数据再分发给所属的segment. 整个过程充分利用了网络和各 segment 的硬件资源

Windows Server 2008 R2迁移IP配置数据指南

我们知道,将某些服务器角色迁移到 http://www.aliyun.com/zixun/aggregation/13975.html">Windows Server 2008 R2 时必需迁移 IP 配置数据,包括 DHCP 服务器.域名系统 (DNS) 服务器和 Active Directory域服务.本系列文章介绍如何迁移核心 IPv4 和 IPv6 配置设置和数据. 本文则着重阐述如何准备迁移 IP 配置设置和数据. 一.准备目标服务器 1.在目标服务器上安装 Windows Se

在Windows Server下集成Apache、Tomcat和IIS

我在<Perl.PHP.ASP.JSP技术比较>一文中曾经对四种流行的网站设计语言进行了评测和对比,常言道鱼与熊掌皆我所欲,两者不可兼得,那么有没有一种方法,可以做到鱼与熊掌兼得,同时支持这四种语言的Web服务器呢,今天我就介绍一下基于Windows Server 2003的同时在一个80端口支持这四种语言的方法. 我们的策略是:安装三个Web服务器,Apache负责支持perl和php,IIS负责支持asp,Tomcat负责支持jsp,通过Apache的proxy_module将三个服务器集

Windows Server 2012 R2中的VDI数据删除技术工作原理

重复数据删除技术如何帮助工作负载在虚拟桌面工作?VDI重复数据删除有什么局限性吗? 终端虚拟化使用的技术如虚拟桌面基础结构(VDI)近年来引起了人们的关注,因为组织希望对终端实现集中管理并实施安全措施,同时减少对硬件的依赖.但存储是VDI部署的一个重要的限制,因为每个终端基本上都部署为一个虚拟机(VM).重复数据删除成了VDI中一个引人注目的好处,因为其显著降低了存储,极大地扩展了托管在每个服务器的桌面镜像数量,同时降低了企业级VDI部署所需的服务器数量. 传统的重复数据删除因为要打开/激活

vCenter初始化数据中心和集群

接着上一次的文档"7.vCeenter部署流程2",vcenter软件已经安装在2008上了,同时win2008上的和vmware相关的服务都已经启动,这里一定要检查以下: 打开服务器管理器(就在任务栏第一个,win+1快速启动),有时候开机后回自动启动: 然后在左侧目录中找到配置-服务: 看到途中那两个服务,一定要反点启动,因为一开始他们都是延迟启动的,这里建议直接设置为自动模式" 这样就方便多了(在反点属性里) 这两个服务不启动的话client是登不上去的

Scala-IDE Eclipse（Windows)中开发Spark应用程序，在Ubuntu Spark集群上运行

在进行实际的Spark应用程序开发时,常常会利用Window环境进行程序开发,开发测试好之后提交到Spark集群中利用bin/spark-submit脚本进行程序的发布运行,本教程教将一步一步地教大家如何进行该操作.本教程主要内容如下: Window开发环境说明 Spark集群运行环境说明 Scala IDE For Eclipse中Spark程序开发利用spark-submit脚本提交到Spark集群当中运行 Windows开发环境说明 (1)Scala-IDE eclipse ,版本号见下

centos6下基于session绑定nat模型的lvs集群教程

实验环境:四台虚拟机,安装的操作系统是CentOS6.5,各自的功能及IP地址如下: Director: eth0 192.168.2.1(作为VIP使用),eth1:10.0.0.1(作为DIP使用) RS1: eth0:10.0.0.2 RS2: eth0:10.0.0.3 数据库服务器:安装的mariadb eth0:10.0.0.4 拓扑图: 实验步骤: 一.准备数据库服务器,安装mariadb,创建一个用于远程连接数据库的用户,创建一个数据库,用于两台

猜你喜欢

MS SQLServer 批量附加数据库

************************************************************ * 标题:MS SQLServer 批量附加数据库 * 说明:请根据下面的注释 ...

走近VB.Net（六）菜单与托盘图标

菜单走近VB.Net(六) 菜单与托盘图标在VB.Net中菜单使用控件而不是菜单编辑器,主菜单使用MainMenu控件,弹出菜单使用ContextMenu,这里说一说弹出菜单,至于主菜单用法也没有 ...

从猫扑抄袭看做站的拿来主义

网站之间的种种抄袭很正常,但有时也不能太过了,抄袭一些创意可以,可不要整体照搬!这是对别人的不尊重,同时你也失去了自己创新的机会!拿来主义不是照搬,而是继承和发扬,并加上自己的创新. 最近,MOP的爱 ...

反思BBS社区：致命的问题在于“效率”

作为"反思bbs社区"系列的最终章,请让我用几个例子直奔主题: 1,craigslist和ebay:这两个美国网站在96年左右几乎同时成立,十几年过去后,ebay市值超过300亿美 ...

亲身体验，更换空间对网站优化的影响

很多站长朋友们肯定更换过空间,原因可能有很多,比如空间不稳定,空间速度不能满足目前的访问量,空间的大小不能满足现在的文件大小等,老曹前几天由于网站空间不稳定就把*******的空间更换了一下,但是这一 ...

常见Datagrid错误

datagrid|错误摘要:学习如何避免在使用 ASP.NET Datagrid 控件进行开发时可能发生的一些常见错误(本文包含一些指向英文站点的链接). Datagrid 控件是 Microsof ...

php获取字符串的长度及截取字符串

三.获取字符串的长度:strlen()函数语法: int strlen(string str); 例: <?php echo strlen("www.bianceng.cn" ...

git基础：本地代码库的使用和提交

git是一个好东西,但对于新手来说,这个工具并不好使用,因为它里面涉及到很多东西,而这些东西新手一时间是无法理解的.不幸的是,本人就是新手一枚,所以,这里并不会讲太多有关于git的原理,什么样的阶 ...

在JavaScript程序中整合Java函数

问题的提出: 假定我们的HTML 页中有一些表单需要处理,并且我们需要初始化数据库中的字段,我们该怎么办?标准的解决办法就是使用CGI脚本或是使用Java Servlet等服务器端程序,但是你有没有想 ...

2010上海世博会官方网站

2010上海世博会酷站欣赏,网上世博会今天在北京正式启动,全世界的网民可以通过访问 www.expo.cn 提前踏上世博之旅,浏览网上中国2010年上海世博会,畅游三维世博园区. 作为上海世博会的两大 ...

IIS服务器下做301定向详细版

IIS服务器下做301定向详细版,以往我们在网上看到如何做301定向都不详细,从来没做过的话,怎么看都看不懂,现在我把详细的方案介绍一下. 第一:首先要进入远程服务器,怎么进呢? 在电脑左下角开始的地 ...

金山毒霸怎么添加信任文件？

金山毒霸怎么添加信任文件?金山毒霸在打开防毒功能的同时经常会阻拦道一些没有毒的文件,从而使得我们的软件或者网页不能用.那么怎么把这些没有毒的被报毒的文件给添加信任从而使得我们可以正常使用呢?今天小 ...

水星路由器无线路由器复位方法

W54R/MW54R+/MW548R/MW108R复位方法加电状态下,按住RESET键5秒钟以上,路由器将恢复到出厂默认值.默认管理地址:192.168.1.1,默认用户名/口令:admin/a ...

Windows7声卡驱动不全怎么办

第一步,你可以进行简单的检查.比如,音响电源.连线是否正常,机箱前置或后置接口是否正常.如果一切都正常,那么可以进行下一步. 第二步,打开"设备管理器",查看"声音. ...

【原】迎接微信winphone 5.0 版本的IE10样式兼容

微信 Android 5.1 和 iPhone 5.1 已正式发布了,据说本12月底,微信将推出 Winphone 5.0版本,全面支持微信支付,它绑定 IE10 浏览器,那么做微信公众号的 H5 页 ...

js实现双向链表互联网机顶盒实战应用实现_javascript技巧

上实战代码: linkedlistnode.js 节点类复制代码代码如下: /* * 链表节点 */ Dare.LinkedListNode = function () { this.data = ...

如何搭建Hadoop集群环境

第一步:安装 (1) 下载hadoop包 http://hadoop.apache.org/ (2) 登录需要配置hadoop的服务器(HadoopSrv01) su -gird(官方建议用grid账 ...

link中如何产生两个一样的随机数？其它随机数不能一样？

问题描述 link中如何产生两个一样的随机数?其它随机数不能一样? link中如何产生两个一样的随机数?其它随机数不能一样? 解决方案产生n-1个不同的随机数,然后随机选择一个随机插入其中. 解决方 ...

WinNT+JDK+TomCat+AXIS+MySQL+MYSQLAdministrator+WinTookit详细配置

Jsp Web Service + MySQL+VC WinTookit详细配置指南配置环境windows2003,配置前,需要先到官方网站下载所需要的服务器组件,因为我们使用的使用Wind ...

应用-麻烦大神写出一个c++程序出来

问题描述麻烦大神写出一个c++程序出来几何图形的简单计算.内容是用C++设计一个业务处理系统,其业务就是进行简单的几何计算:l输入圆的半径,计算并输出圆的周长和面积:l输入圆柱的半径和高,计算并输 ...

结构体链表-c语言链表，输入输出正确但是删除操作报错

问题描述 c语言链表,输入输出正确但是删除操作报错 #include#include#define len sizeof(struct student) struct student{int num; ...

浅析网站买卖所要遵循的三大原则

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅现在很多站长朋友做网站都是为了提高 ...

在 Android 上通过模拟 HTTP multipart/form-data 请求协议信息实现图片上传

通过构造基于 HTTP 协议的传输内容实现图片自动上传到服务器功能 .如果自己编码构造 HTTP 协议,那么编写的代码质量肯定不高,建议模仿 HttpClient .zip examples\mime ...

c-已知一个 A程序里面变量s的地址以及A程序PID值

问题描述已知一个 A程序里面变量s的地址以及A程序PID值 B程序该怎么使用 ReadProcessMemory函数,得到程序变量s的值? 解决方案 http://blog.csdn.net/c ...

想充分利用NFV?Cloud Native是个好方法

近五年前,在网络运营商联合发表的一份白皮书中,就把网络功能虚拟化(NFV)的主要目标说得相当明确:大幅降低部署通信服务的成本和运营成本. 虽然NFV规格以惊人的速度正在发展,但从那时起,大部分的努力都 ...

android中Volley框架问题

问题描述 android中Volley框架问题话说为啥我的问题基本就没解决过的郁闷,闲话不多说,项目中有用到与服务器交互,之前都是自己写的httpurlconnection来进行传送数据,因为服务 ...

access-linux resion 启动报错

问题描述 linux resion 启动报错 Error: Unable to access jarfile ./../lib/resin.jar 求大神指点解决方案 linux中启动nginx是 ...

Eclipse运行Tomcat时遇到的问题？

问题描述 a_914080336:在Eclipse里面编写完JSP代码运行Tomcat6.0时为什么出现StartingTomcat6.0onServerhasencounteredaproblem呢 ...

星巴克：大数据是零售业发展契机

科技决定企业高度现代社会,成功的企业都离不开高科技.例如星巴克,是领先的零售餐饮品牌,同时又非常重视ICT.根据星巴克官网的数据,目前,星巴克在大陆60多个城市运营超过1001家门店. ...

iPhone销量的增长对iPod还是产生了影响

市场调研公司NPD Research日前发布报告称,尽管智能手机的流行导致全球音乐播放器市场不断萎缩,在过去的12个月中出货量下滑了33%,但苹果依旧统治着音乐播放器市场,市场份额高达72%.长期以来 ...

热搜