【大数据技巧】Flume采集网站日志到MaxCompute常见问题汇总

免费开通大数据服务:https://www.aliyun.com/product/odps

本文列举了Flume采集网站日志到MaxCompute的一些常见问题,欢迎大家补充;

Q:找不到指定路径的文件

A:本实验要在Linux系统下运行,路径也要写在Linux下的路径

Q:找不到指定sink
type的类

A:插件错误,需要用新版本的
flume插件
写新版本的 datahub

Q:不能执行SinkRunner

A:插件错误,需要用新版本的
flume插件
写新版本的 datahub

Q:不识别Datahub  endpoint地址

A:填的 endpoint是 ecs上用的,应填写公网地址

Q:更改endpoint地址后依旧报同样的错

A:虚拟机未能ping通外网,重新设置虚拟机,搭建桥接模式

Q:报ak有错

A:先检查ak是否被禁用,若没有不断刷新页面

Q:上传数据成功后往MaxCompute归档时未成功

A:MaxCompute表的字段和Datahub topic字段大小写不一致(还要注意Flume配置文

   件中a1.sinks.k1.serializer.fieldnames的一致性)

Q:错误,找不到主类

A:不支持文件夹命名带空格,如MaxCompute Project,改为MaxCompute_Project

MaxCompute产品地址:https://www.aliyun.com/product/odps

欢迎加入阿里云数加钉钉群讨论

时间: 2024-11-01 22:56:01

【大数据技巧】Flume采集网站日志到MaxCompute常见问题汇总的相关文章

flume采集网站日志到MaxCompute

通过最佳实践帮助您实现上述案例效果 Step1:安装JDK和Flume 1.1 JDK:1.7及以上版本 1.1.1 下载Linux版本的JDK1.7安装包 下载地址为:http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html 1.1.2 安装JDK # cd /usr/local/src # rpm -ivh jdk-7u79-linux-x64.rpm #安装,默认会安装在/usr/

【大数据新手上路】“零基础”系列课程--Flume收集网站日志数据到MaxCompute

免费开通大数据服务:https://www.aliyun.com/product/odps 概述:大数据时代,谁掌握了足够的数据,谁就有可能掌握未来,而其中的数据采集就是将来的流动资产积累. 任何规模的企业,每时每刻都在产生大量的数据,但这些数据如何归集.提炼始终是一个困扰.而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是如何获取大量有价值的数据. 相信很多做过网站管理的人对网站访问日志(Access Log)应该不会陌生,

【大数据技巧】数据导入到MaxCompute的技巧汇总

免费开通大数据服务:https://www.aliyun.com/product/odps 用Fluent实现MySQL到ODPS数据集成 ---可以通过Fluentd将其它系统数据利用DHS导入到ODPS中 海量数据计算应该如何选择数据库 ---MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题 官方文档-数据同步(RDS->MaxCompute)任务 ---MaxCompute 和 RDS 搭配为例介绍大数据应用同步方案 Ma

大数据营销对地方网站及O2O实施与思考

大数据营销是目前互联网提出的新的领域和概念,炒作意义大于实际操作意义.众多站长和互联网人无不欢呼雀跃,似乎又被打了鸡血,又忘记了之前被捧杀无数的各种概念模式的尸骨堆了.对于新事物,我们要充分认识其本质,而不是对于表面的概念所痴迷. 尤其结合本地化和区域门户网站的数据营销的玩法,其实并不是遥不可及的概念,实际上是有规律可循的.真正的大数据营销,没有一定的实力,是一般中小网站难以企及的,但基于数据的营销又是可以去做的,这两点需要注意两者之间的区别. 地方门户网站的数据化营销,应该是基于本地的网友数据

【大数据技巧】MaxCompute中实现IP地址归属地转换

免费开通大数据服务:https://www.aliyun.com/product/odps 大数据平台的成熟使得更多种类的非结构化.半结构化的数据分析成为可能,其中应用非常广泛的一种场景就是日志分析.在日志类型数据的清洗转换过程中把IP地址转换为归属地又是极为常见的一种场景.那么利用MaxCompute如何实现IP地址向归属地的转换呢? 俗话说:巧妇难为无米之炊,要实现IP地址与归属地的转换必须要有IP地址库,不过好在互联网上已经有一些资源,而且还提供免费版本的IP数据库下载详见:www.ipi

【大数据技巧】MaxCompute优化去重计算的性能

免费开通大数据服务:https://www.aliyun.com/product/odps 转载自dachuan 随着双十一数据量的暴增,之前用distinct去重可以简单处理的场景,现在消耗的时间成倍增长.如果用了multiple distinct,那就更要警惕,因为多重去重本身会带来数据量的成倍增长,很可能10分钟的任务,在双十一期间会跑上几个小时都没有结果. 这里介绍一个小技巧,其实在稳定性手册里面已经有过介绍,不过总感觉没有看懂.最近正好做了一次优化,于是在这里小结一下: 例如原来的代码

大数据格局下视频网站的发展之路

大数据最初是指多到无法去进行统计和分析的数据集,后来被衍生成--通过某种方式和方法去分析海量数据,从中获得我们需要的具有巨大价值利益的服务内容. 这是一种逐渐被重视的形式,分析这些数据有难度,存储这些数据一样有难度,也需要使用一些前所未有的方式,现在国内大部分采用的是Hadoop这样开源的分布式数据集群,来满足各种数据统计的需求. 由于海量数据中可以分析出具有巨大价值利益的细分数据,所以很多网站都进行大数据战略,特别是在电商行业和视频行业. 不过更具有挑战性和代表性的应该是针对视频网站的大数据挖

大数据、机器学习与深度学习类命令行工具汇总

抓紧你的键盘!无需鼠标或者GUI,我们完全能够在OS X与Linux上完成大量操作.面向各类*N*X系统的大量出色命令行工具一直在技术行业拥有极高人气,且已经扩展至Python.Go.NodeJS乃至各类混合型工具当中.即使大家并不打算通过命令行运行整条数据处理管道,这些工具仍然能够带来可观助益. <命令行上的数据科学(Data Science at the Command Line)>一书与GitHub皆为我们带来大量高水平的预处理与后处理类工具选项,大家亦可根据需要对其进行针对性调整.在今

阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171122)

  概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全.本文收录了大量的MaxCompute产品介绍.技术介绍,帮助您快速了解MaxCompute/ODPS. MaxCompute 2.0:阿里巴巴的大数