将hdfs 上的文件通过shell脚本 导入到hive上面

一个应用的数据来源从PostgreSql导入到hdfs 需要使用API来定义这样做的好处就是一次写入永久执行
而从hdfs导入到hive表中有多种方式
shell 脚本算一种
在整个应用构建中 处于一个新的模块中
通过new新的文件因为是类sql(导入到hive上)所以文件格式为xxx.hql
整个项目创建或许会产生很多文件 所以对与命名上也需要按照一定的格式xx_yy_zz.hql
xx 表示当前所在文件夹文件名
yy表示所建立的表名与内容性质相关
zz是按照怎样的分区分桶格式如yyyyMMdd 表示按天分区的

drop table if exists ods_company_${yyyymmdd};
create external table ods_company_${yyyymmdd}(
company_id int
,company_address string
,company_attr string
,company_boss string
,company_name string
,company_phone string
)stored as parquet
location '/sqoop/btrip_pg/${yyyymmdd}/tb_company'

${yyyymmdd} 为日期这样保证存储在hdfs上的数据可以与表相对应,

location位置和将PostgreSql上的数据导入到hdfs上的输出文件路径一致

时间: 2024-09-20 08:48:03

将hdfs 上的文件通过shell脚本 导入到hive上面的相关文章

spark计算hdfs上的文件时报错

问题描述 spark计算hdfs上的文件时报错 scala> val rdd = sc.textFile("hdfs://...") scala> rdd.count java.lang.VerifyError: class org.apache.hadoop.hdfs.protocol.proto.ClientNamenodeProtocolProtos$AppendRequestProto overrides final method getUnknownFields.

伪分布模式-读取HDFS上的文件问题

问题描述 读取HDFS上的文件问题 在伪分布模式下测试代码,在eclipse里建了个项目,然后在map函数里我想从hdfs中读取文件数据(testData.csv),然后这几段代码就会出现问题,String str_url="hdfs://localhost:9000";URI.creat(str_url);String str="hdfs://localhost:9000/user/input/testData.csv";Path path=new Path(st

hdfs上传文件难以刷新-hdfs文件系统刷新问题

问题描述 hdfs文件系统刷新问题 hdfs上传文件难以刷新,先是在/usr那里跳个1 ,然后立马变成0 解决方案 看看是不是权限不够,包括hdfs权限和登录用户权限

备份远程服务器文件简单shell脚本

假设有两台服务器: 192.168.0.1  原服务器 192.168.0.2  备份服务器 实现功能: 把192.168.0.1上的/opt/test/cms/目录文件打包压缩备份到备份服务器上.   shell脚本如下:   #! /bin/sh time1=$(date "+%Y%m%d%H%M%S") cd /data/sys_bak mkdir $time1 #bak ssh 192.168.0.1 tar -czvf /opt/test/test2/cms$time1.ta

hdfs上传文件出现Call to localhost/127.0.0.1:9000 failed on local exception

问题描述 求职各位大神,我是个Hadoop新手,在上传文件是遇到个问题解决不了,简直要疯了环境是虚拟机Ubuntu里面Hadoop2.02,0加myeclipse8.5,想写一个javaweb的海量数据管理系统.Hadoop配置应该没有问题,可以看到DFSLocation里面的目录结构但是在上传的时候,只要一运行到FileSystemhdfs=FileSystem.get(URI.create(dst),conf);这句话,就会报错java.io.IOException:Calltolocalh

HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo

26 集群使用初步 HDFS的设计思路 l 设计思想   分而治之:将大文件.大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析:   l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,--)提供数据存储服务   l 重点概念:文件切块,副本存放,元数据 26.1 HDFS使用 1.查看集群状态 命令:   hdfs  dfsadmin –report 可以看出,集群共有3个datanode可用 也可打开web控制台查看

查找目录下同名但不同后缀名文件的shell脚本代码_linux shell

因为后台录入的同事,上传文件的时候,给文件取了相同的名字,但不同的后缀名,由于文件路径非常深,大概十层左右,每一层又有几十个文件,所以人工找起来非常麻烦,所以写了个脚本,帮他们实现查找指定目录下所有子目录及文件,找出相同文件名,不同后缀的文件,然后,手动保留其中一个. 复制代码 代码如下: #!/bin/bash  #判断一下脚本参数的问题  if [ $# -ne 1 ];then     echo "Usage find_same.sh direcroty"     exit  f

linux下保留文件系统下剩余指定数目文件的shell脚本_linux shell

本节内容:保留文件系统下剩余指定数目的文件 例子: 复制代码 代码如下: #!/bin/bash #------------------------------- #Description: Back up your files#site: www.jb51.net#------------------------------- #shell 变量path_source=/mnt/fifth/shell path_backup=/mnt/fifth/backup/shellbackup path

文件夹-shell 脚本 bash she'll

问题描述 shell 脚本 bash she'll 现在需要写一个,分批拷贝某个文件夹文件 例如 data 文件中有5000个文件(5000按照时间生成得xml,具体时间我也不知道) 现在每次我需要到这个data中拷贝200个xml文件,每次拷贝200条直到拷贝完成 急急! 这个脚本如何写???!在线等! 解决方案 for file in `ls .` do if [ -f $file ] then cp xxx fi done 再搞个变量统计个数 解决方案二: 问题:拷贝.每次200个 拷贝应