了解采用结构化数据的Hadoop的利与弊

首先,我们来定义一下日志分析的含义。最常见的日志分析用例是运用 ">Apache Hadoop 处理机器生成的日志(通常是指 Web 应用程序及支持 Web 应用程序的点击流)。日志分析需要摄取大量半结构化信息,然后将这些信息汇集成更加易于使用的数据集,并从交互中总结重要信息。(广告位)日志处理是创造 Hadoop 的核心用例,因此它能够在这个场景中正常运转一点也不奇怪。

Google、Yahoo 及许多其他 Internet 属性均通过业务模型运行,采用的业务模型在很大程度上依赖于这些操作而且效果确实不错。不过,绝大部1788.html">分公司在发生 Web 事件时无法及时获悉,而是需要经历一定的延迟(不是以小时或天来计算,而是动辄持续数周)才能通过单击或网络日志行为了解这一情况。由于起点极低,因而实现大幅改观并不困难。

此外,由于大多数公司不愿停用现有的数据分析系统(往往由专门从事 Web 点击分析的第三方担任),采用 Hadoop 的日志分析方案可以说是风险极低,但却是启用大数据技术的良好起点。它并非任务关键型技术。在日志分析用例中,即使操作错误,用户也不会因此受到致命影响,更不会致使大量资金面临风险。

对于刚刚开始运用日志分析技术的许多传统企业而言,推行日志处理用例对于 Hadoop 供应商很有吸引力,因为它依赖于非关键数据,坦白地说,这一点不难做到。失败和实验的成本很低,可以区别于其他生产应用程序及作业流独立完成,并且可以运用通用 Hadoop 分发方案自带的命令行工具完成。您完全不必向企业内的其他员工披露实验或方法。

关于弊端…

关键在于:运用 Hadoop 成功分析日志数据并非典型企业场景的成功预言。促使 Hadoop 适应日志分析的各项因素可能会掩盖真正的企业应用及成功需求。日志数据结构化程度相当大。虽然数据量或许相当大,但可惜重复太多,这也是没有足够的场地供各种来源及各种结构的数据进行测试的真正原因。

我发现,绝大部分日志分析项目往往是静态的非预测项目,因此只能算作日志 ETL 作业而不是分析作业。不需要处理信息沿袭问题,并且往往只有一个信息来源,因而我们假设信息有效且数据质量“过关”。此外,通常无需考虑治理问题(或者说,即使考虑治理问题,也不会实施治理措施)。一般而言无需遵循任何 SLA,作业时常在夜间运行,所以无论作业在早上四点还是六点结束均不会对用例造成任何实际影响。

这些作业要求的可视化程度极低(如果需要的话),这通常由于您只需“碾压”这些数据,然后运用其他系统或手动作业进行处理。没有必要对非开发人员采用 Hadoop 的简便性进行测试。Hadoop 与公司内的其他商业智能和报告系统之间也不存在任何连接。换句话说,这些项目并非现实使用成功案例的代表性测试。它们并未运用真实数据流,并且往往无法在采用相同技术的同一平台上支持第二及第三个用例。

确切的说,并不是说日志分析不是有效的用例,也不是要争辩了解 Hadoop 不好;我要说的是:不要想当然地认为运用 Hadoop 在日志分析领域获得的初步成就一定会造就企业大范围部署成功。不要混淆成功概念,本质上而言这只是执行单域隔离 ETL 的另一种方法,只是没有数据质量和 SLA 要求而已;并不能就此预测哪种方法对您的典型企业生产环境有效。

您认为呢?日志分析技术是开启大数据之旅的良好起点还是糟糕选择?请在评论中对我们谈谈您的想法。

时间: 2024-11-08 19:23:22

了解采用结构化数据的Hadoop的利与弊的相关文章

使用IBM BigSheets分析社交媒体数据和结构化数据

本文将介绍使用 BigSheets 分析通过 BigInsights 随带的示例应用程序收集的社交媒体数据和结构化数据的基本知识.您将学习如何在 BigSheets 中建模此数据,使用内置的宏函数操作此数据,创建图表来可视化您的工作,以及如何采用几种流行输出格式中的一种来导出您的分析结果. 您可能对大数据以及它对http://www.aliyun.com/zixun/aggregation/13782.html">业务分析的影响已经有所耳闻.可能您想知道通过采集.处理和管理从网站.电子传感

分析非结构化数据的10个步骤

如今,数据分析正在成为企业发展的重要组成部分.企业必须对结构化和非结构化数据有所了解,才能更好地为业务发展做出正确决策.以下是帮助企业分析非结构化数据的10个步骤: 1.确定一个数据源 了解有利于小型企业的数据来源非常重要.企业可以使用一个或多个数据源来收集与其业务相关的信息.而从随机数据源收集数据并不是一个好办法,因为这可能会破坏数据,甚至丢失一些数据.因此,建议企业在开始收集数据之前调查相关数据源.企业可以采用一些在线大数据开发工具收集数据. 2.管理非结构化数据搜索工具 收集到的结构化或非

Bigtable:一个分布式的结构化数据存储系统

Bigtable:一个分布式的结构化数据存储系统 本文的英文原文为Google在2006年发布的Google Bigtable paper 本文的翻译版本由Alex完成,原文地址为: http://blademaster.ixiezi.com/ 这是我很长时间以来一直想要翻译的文章,不过由于其文太长,以及本人精力有限,未能如愿,今天偶遇此文,感觉译者此文的翻译已远远超越本人,因此将此翻译版本转载于此. Bigtable:一个分布式的结构化数据存储系统译者:alex 摘要 Bigtable是一个分

从非结构化数据中发现问题 富国银行的风险分析之道

9月初,美国消费者金融保护局称美国富国银行(Wells Fargo)员工在未告知客户的情况下,自2011年起私自建立近两百万个虚假银行账户,富国银行被要求支付1.9亿美金高额的罚款. 9月中旬我也在大洋彼岸见到了美国富国银行企业模型风险部副总裁刘维政(Richard Liu),第二次见面没有客气,一上来我就提出了"幽灵账户"和风险管控的问题.虽然刘维政最近正热衷于研究和学习太极,但他却并没有和我"打太极". "这一现象其实在很多银行都可能发生,可能只是没有

非结构化数据存储与管理

问题描述 非结构化数据该怎么存储与管理呀?在网上看到的使用数据库或者数据库+文件系统,这在hadoop和swift中是如何体现的呢? 解决方案

非结构化数据——RAID模式已过时

一份来自Novell公司Ponemon研究所针对对美国94个大型企业的调查显示,平均每个公司每年花在非结构化数据处理上的成本为210万美元:而一些受到严格监管的行业,比如金融.制药.通讯和医疗行业的成本最高,每年将达到250万美元:另一个来自Unisphere Research的调查则显示,62%的受访者表示非结构化信息的产生是不可避免的,在未来十年内将超过传统数据.此外有35%的人表示,在未来的36个月里,非结构化的信息量将超过传统的关系数据. 据IDC的预测,现在全球数据量每18个月就要翻一

通过企业内容管理(ECM)利用大量非结构化数据

如今的企业无一不受信息泛滥的困扰,这已经不是什么秘密.我们被大量不断增长的数据包围.许多机构内的非结构化内容(从打印文档到社交媒体文章)在无节制的增长.对于许多机构而言,非结构化内容已经占到总体企业信息的 80% 或更高比例.在对纸张密集型流程挥之不去的依赖以及个人和共同使用的数字内容的混乱扩散的驱动下,此类内容不断增长. 好消息是,企业内的人员.设备和系统生成的每一则信息均可用作竞争优势.前瞻性企业已经意识到,用户与内容之间的成功互动在提高业务成果方面发挥着重要的作用.例如,在许多企业中,客户

什么是结构化数据?什么是半结构化数据?

相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档.文本.图片.XML.HTML.各类报表.图像和音频/视频信息等等. 非结构化数据库是指其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库,用它不仅可以处理结构化数据(如数字.符号等信息)而且更适合处理非结构化数据(全文文本.图象.声音.影视.超媒体等信息). 非结构化WEB数据库主要是针对非结构化数据而

面向云存储的非结构化数据存取

面向云存储的非结构化数据存取 谢华成  陈向东 非结构化数据呈爆炸态势增长,现有存储技术在I/O吞吐能力.可扩展性及易管理性等方面亟待改进.存储系统以云存储和可靠性理论为基础,建立了非结构化数据的分布式存储模型,并设计了可靠度函数.采用分布式关系数据库管理系统(RDBMS)作为存储底层,将非结构化数据直接存储于数据表中,实现了非结构化数据和元数据的分离式存储和统一管理,进而提升了存储系统性能.相对于集中式存储,新系统具有较高的可用性.仿真结果显示,存储系统可靠度高且易于扩展.该分布式存储系统可应