对账-Hive进行数据比对问题,求帮助

问题描述

Hive进行数据比对问题,求帮助

最近项目中需要在Hadoop平台中做对账的工作,采用hive开做,容易上手,AB双方数据做数据比对的时候,准备用表连接方式来处理,这样存在问题,表连接的时候left join会存在多对多的情况,会出现A方中多条数据和B方一条数据比对成功的情况,需求如下:
1、以A方数据为主查找B方与之匹配的数据,
2、获取到多条时,取第一条,
3、且此条数据不再与A方其他数据进行比对

之前处理的方式是在db2中用存储过程来实现的,用游标遍历A放数据逐条从B方查找来处理的,现在用Hive来做的话就遇到这样的难处了

解决方案

采用循环,类似于db2的存储过程代码来进行比对

解决方案二:

可以参考这个

http://blog.csdn.net/chenyi8888/article/details/7269854

时间: 2025-01-20 14:40:32

对账-Hive进行数据比对问题,求帮助的相关文章

SDN和白盒交换机关系及未来漫谈

一.SDN和白盒的关系 经典SDN的定义是转控分离,通过SDN控制器来实现集中的网络智能控制,并通过北向API来提供快速的应用迭代开发.随着产业界的博弈,所有通过集中的软件来实现业务发放的系统也被称之为SDN.而白盒则是不折不扣的过去三十多年PC技术路线在网络产业的实现,通过标准化硬件的SAI接口,将网络设备的硬件和软件分离,客户可以从A厂商买硬件盒子,从B厂商买软件或自行裁剪开源软件系统安装在A厂商的盒子上,自己组装一个可运行的设备. 某种程度上来讲,经典的SDN也是一种白盒的实现方式,只不过

通过API获取新浪微博的帐号或者邮箱?

问题描述 授权后,要调用哪个API,哪个接口来获取登录用户的邮箱或者登录的账户名呢?在线求答 解决方案 解决方案二:自己顶在线等解决方案三:引用1楼od_huang的回复: 自己顶在线等 AMicroblogAPI,参考有个例子解决方案四:引用2楼chinajiyong的回复: 引用1楼od_huang的回复:自己顶在线等AMicroblogAPI,参考http://open.weibo.com/wiki/Rest_APIhttp://open.weibo.com/wiki/%E9%A6%96%

急,求高手!!hive在向整合hbase的分区表插入数据时报错:Must specify table

问题描述 急,求高手!!hive在向整合hbase的分区表插入数据时报错:Must specify table hadoop版本:hadoop-2.7.12.7.1 hbase版本:hbase-1.1.2 hive版本:apache-hive-2.0.0-bin 本人是新手,在整合了hive和hbase之后,我在hive中创建了一张关联了hbase表的分区表,然后在向表插入数据的时候报错了,下面是插入语句和报错,求懂的人解答. visited_in_hive是关联了hbase表,准备插入数据的表

hive执行select报错,求大神指导

问题描述 hive执行select报错,求大神指导 hive> select * from user; Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.mapred.JobConf.unset(Ljava/lang/String;)V at org.apache.hadoop.hive.ql.io.HiveInputFormat.pushFilters(HiveInputForma

web项目里怎么写一个对账功能求大神指点

问题描述 web项目里怎么写一个对账功能求大神指点 菜鸟 想问下web项目里怎么写个对账功能求给点思路 自己一点思路啊没有 解决方案 http://blog.csdn.net/fangkailove/article/details/4071656 解决方案二: 就是这样的需求要怎么写啊

景泰蓝大师诉求查公司账被驳

作为公司的股东,被誉为"景泰蓝大师"的张同禄要求查阅公司账簿,被拒绝.为此,张同禄起诉公司,要求查阅公司财务报告和会计账簿. 近日,一中院终审以可能涉及商业秘密.损害公司利益为由,判决张同禄仅可查阅会计报告. 70岁的张同禄,是北京禄颖兰釉艺工艺品有限公司(简称工艺品公司)的股东之一. 张同禄称,公司自2000年3月设立以来,从未向他公开过财务账簿,自己曾申请查阅公司账簿,遭拒. 张同禄认为知情权没得到满足,于是提起诉讼,要求容许其查阅公司财务报告和会计账簿. 被告工艺品公司表示,原告

Hive SQL 练习(这个秒退是怎么回事啊?写了半天 东西都没了,瞬间整个人都凌乱了)

首先将练习用的两张表 上传到hdfs上 命令如下: hadoop fs -put /opt/dep.txt /dep.txt hadoop fs -put /opt/employee.txt /employee.txt 然后开始写练习 创建数据库 create database bs17; use bs17; 创建员工信息表 create table employee( emp_id string ,emp_name string ,status string ,salary string ,s

使用Hive构建数据库

如果一家公司没有资源构建一个复杂的大数据分析平台,该怎么办?当业务智 能 (BI).数据仓库和分析工具无法连接到 Apache Hadoop 系统,或者它们比需 求更复杂时,又该怎样办?大多数企业都有一些拥有关系数据库管理系统 (RDBMSes) 和结构化查询语言 (SQL) 经验的员工.Apache Hive 允许这些数据库 开发人员或者数据分析人员使用 Hadoop,无需了解 Java 编程语言或者 MapReduce.现在,您可以设计星型模型的数据仓库,或者常态化的数据库,而不 需要挑战

lib-通过HIVE建立非本地表报错!!

问题描述 通过HIVE建立非本地表报错!! hive 1.0.0 hbase 1.0.0 and hadoop 2.6.0 and zookeeper 3.4.6 建立非本地表报错~~~求帮助!!我已经吧$HBASE_HOME/lib 下所有的包都复制到$HIVE_HOME/lib下了 5/03/10 03:56:00 [htable-pool1-t1]: DEBUG ipc.AbstractRpcClient: Connecting to v2/192.168.81.131:16020 15/