企业必须考虑的关于大数据架构的6大问题

在拉斯维加斯举行的Dell EMC World 2017大会上，戴尔EMC系统工程师Cory Minton解释了IT领导者如何更好地思考其大数据部署。

大数据在业务价值方面承诺了很多，但企业可能难以确定如何部署需要利用的架构和工具。

从描述性统计，到预测建模，到人工智能的一切都是由大数据提供支持。而组织希望通过大数据来实现这一目标，并将决定其需要推出的工具。

在5月8日召开的2017年戴尔EMC世界会议上，戴尔EMC数据分析的主要系统工程师Cory Minton发表了演示文稿，解释了组织在部署大数据时必须做出的最大决定。在做出决定开始之前，每个企业都要问这六个问题：

1.购买与构建?

要问的第一个问题是组织是否要购买大型数据系统或从头开始构建。Teradata，SAS，SAP和Splunk的热门产品可以买到并简单实现，而Hortonworks，Cloudera，Databricks，Apache Flink可用于构建大型数据系统。

Minton表示，购买提供更短的时间，以及商品使用的简单性和良好的价值。然而，这种简单性通常会带来更高的成本，而这些工具通常在低多样性数据方面效果最佳。如果组织与供应商存在现有的关系，则可以更容易地分析新产品并尝试使用大型数据工具。

许多用于构建大数据系统的流行工具价格低廉或可以免费使用，并且它们可以更容易地利用独特的价值流。其建设路径为大规模和多样化提供了机会，但这些工具可能非常复杂。互操作性往往是管理员面临的最大问题之一。

2.批量与流数据?

Minton说，由Oracle，Hadoop MapReduce和Apache Spark等产品提供的批量数据是描述性的，可以处理大量的数据。他们也可以安排，并经常被用来建立一个数据科学家进行实验的产品平台。

像Apache Kafka，Splunk和Flink这样的产品可以提供能够捕获的流数据功能，以创建潜在的预测模型。Minton表示，使用流式传输数据，其速度胜过数据保真度，但也提供了巨大的规模和多样性。这对于认同DevOps文化的组织更为有用。

3.Kappa vs. lambda架构?

Twitter是lambda架构的一个例子。其数据被分为两个路径，其中一个路径被馈送到速度层进行快速分析，而另一个路径导致批处理和服务层。Minton表示，这种模式使组织能够访问批量和流媒体的见解，并平衡有损流。他说，这里的挑战是人们必须管理两个代码和应用程序基础。

Kappa架构将所有内容都视为流，但它是一个旨在实时保持数据保真度和流程的实时处理。所有数据都将写入不可变日志，以检查更改。其硬件高效，代码较少，这是Minton推荐给开始实施大数据的组织的一种模式。

4.公共云vs私有云?

大数据的公共和私有云需要许多相同的考虑。对于初学者来说，一个组织必须考虑到最适合他们的人才工作的环境。另外，还应该考虑数据来源，安全性和合规性需求，以及弹性消费模型。

5.虚拟化与物理性?

几年前，虚拟化基础设备与物理基础设施的争论更加激烈，Minton说。然而，虚拟化已经发展到可与物理硬件进行竞争，在大数据部署方面也变得类似。它归结为组织的管理员更舒适，适用于其现有的基础设施。

6.DAS vs. NAS?

Minton说，直接连接存储(DAS)以前是部署Hadoop集群的唯一方式。然而，现在IP网络增加了带宽，网络连接存储(NAS)选项对于大数据更为可行。

使用DAS很容易上手，而且该模型与软件定义的概念一致。它是为了处理性能和存储方面的线性增长而开发的，并且它与流式传输数据相当。

网络连接存储(NAS)可以很好地处理多协议需求，提供大规模的效率，并且还可以满足安全性和合规性需求。

本文作者：Conner Forrest

来源：51CTO

时间： 2024-09-16 00:43:42

企业必须考虑的关于大数据架构的6大问题的相关文章

BDTC PPT集萃（一）：BAT、华为、网易等分享的大数据架构

从2008年60人规模的"Hadoop in China"技术沙龙,到当下数千人规模的行业技术盛宴,七届BDTC(大数据技术大会)完整地见证了中国大数据技术与应用的变革,忠实地描绘了大数据领域内的技术热点,沉淀了无数极具价值的行业实战经验.同时,2014年12月12至14日,第八届中国大数据技术盛会将一如既往的引领当前领域内的技术热点,分享行业实战经验. 为了更好地洞悉行业发展趋势,了解企业技术挑战,在BDTC 2014召开前夕,我们将带大家一起对历届大会沉淀的知识进行挖掘,分享各IT

物联网中的大数据架构、应用案例以及带来的好处

第一节简介近年来"物联网"(IoT)和"大数据"是两个最受瞩目的话题.在物联网的概念里,有关任何开和关切换到网络的设备皆会彼此连接,它们之间都彼此相互连结.这包括了手机.咖啡机.洗衣机.耳机.台灯以及可穿戴的设备,很多物品都是属于这个范畴(图 11.1).这也适用于机器零件,例如:飞机的喷气发动机或石油钻井平台的钻头.无论有没有意识到这一点,我们的生活周围已经被这些依赖于大数据的东西所包围了,不过这也使得生活更美好. 图 11.1 物联网在连接设备的应用

【大数据100分】大数据架构及行业大数据应用(中级教程)

[大数据100分]南大通用CTO武新:大数据架构及行业大数据应用[大数据中级教程] 主讲嘉宾:武新主持人:中关村大数据产业联盟副秘书长陈新河承办:中关村大数据产业联盟武新,南大通用高级副总裁兼CTO,法国奥尔良大学和法国国家科研中心博士:南大通用GBASE系列数据库产品的总设计师.在著名的甲骨文公司任职12年,是世界顶级的Oracle数据库专家.2010年获得中组部实施的国家"千人计划"荣誉(海外高层次人才引进计划),是国内基础软件行业唯一入选的数据库技术专家.对目前最新兴的列

后Hadoop时代的大数据架构

背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理.适合处理非结构化数据,包括HDFS,MapReduce基本组件. HDFS:提供了一种跨服务器的弹性数据存储系统. MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出. Amazon Elastic Map Reduce(EMR): 托

企业如何选择合适的大数据产品测试基准

文章讲的是企业如何选择合适的大数据产品测试基准,随着开源Hapdoop.Map/Reduce.Spark.HDFS.HBASE等技术的商用化,大数据管理技术得到了突飞猛进的发展.一般来说,大数据具有3V特性,即Volume(海量).Velocity(高速)和Variety(多样)[1].TPC联合主席.Cisco高级工程师Raghunath Nambiar进一步认为大数据还面临Value(价值)和Veracity(精确)的挑战. 今天越来越多的企业认识到,大数据的掌控和分析能力将成为竞争力的核心

大数据架构面临技术集成的巨大障碍

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求.但把所有的技术集成在一起并不是一件容易的事. IT团队寻求构建大数据架构时有大量的技术可供选择,他们可以混合搭配各种技术以满足数据处理和分析需求.但是有一个问题存在:把所有需要的技术框架组合到一起是一项艰巨的任务. 在不断扩展的Hadoop生态系统中,选择和部署合适的大数据技术是一个长期反复的过程,周期要以年计.除非公司管理者愿花大量财力和资源来加速推动项目.选择技术的过程中有失误判断是很常见的,一家公司的架构蓝图

BDTC PPT集萃（二）：Facebook、LinkedIn等分享的大数据架构

富士通大数据架构解决方案闪耀存储峰会

文章讲的是富士通大数据架构解决方案闪耀存储峰会,世界领先的ICT综合服务商富士通(Fujitsu)近日亮相2013(第九届)中国存储峰会.作为目前国内存储界规模最大和历史最长的存储大会,本届存储峰会以"数据造化智见未来"为主题,包括富士通在内的30多位专家发表演讲,共同探讨大数据时代下的数据价值.透视未来发展的宏伟蓝图.在会上,富士通(中国)信息系统有限公司产品战略事业部总监李帆与现场嘉宾分享了主题为<富士通大数据架构解决方案>的演讲.他指出大数据时代本质:是科技创新的量

企业互联网时代下的大数据构建之道

文章讲的是企业互联网时代下的大数据构建之道,"现在企业互联网化正在迅速渗透到企业以及所处的产业链和生态圈中,借助互联网,企业可以更容易与前端供应商.服务商包括后端客户.最终客户建立密切的联系.在此过程中新的业务模式包括供应链优化.智能制造.产业链协同.电子商务等正在不断兴起并迅速发展." 用友网络科技股份有限公司助理总裁,兼集团iUAP中心副总经理谢东在接受记者采访时说道. 企业互联网化大数据成为核心资产企业互联网化已经成为一种趋势,它正在改变着企业的传统的业务模式,使得企业内部运

猜你喜欢

浅谈SEO工作的“执行力”问题

从事SEO这么多年,看到了很多中小网站的起起落落,心中有很多话要说,其中最最想说的就是SEO工作者们的"执行力",不知大家有没有感觉:自己的SEO水平与其它同行不相上下,但人家的网 ...

如何使用 Feed4JUnit 进行数据与代码分离的 Java 单元测试

Feed4JUnit 与 JUnit 经常,在应用程序的业务逻辑中存在大量的这样的接口:他们接受不同的输入,然后进行或验证,或处理,进而完成相同的流程.比如网站的登录入口,用户名和密码都有长度的限制 ...

.NET 3.x新特性体验之扩展方法

今天我们接着看一下.NET 3.x的新特性:扩展方法.这里需要说明的是我所说的.NET 3.x的新特性,其实是C# 3.0的一些新特性,考虑到LinQ等我就把这些特性叫做.NET 3.x新特性.可能这 ...

紫光la2800扫描仪驱动下载安装

1.紫光la2800扫描仪驱动适合XP/Vista/Win7/Win8操作系统.驱动程序为可安装程序,直接点击setup应用程序按照安装向导提示进行安装即可. 2.安装驱动时不要连接扫描仪到电脑, ...

如何把命令操作集成到右键菜单？

很多时候,我们需要将文件夹中的文件列表复制出来,或者快速清空剪贴板的内容,可你又不想安装第三方工具,此时虽然可以使用dir等古老的DOS命令实现,但命令参数又相对复杂.其实,通过注册表编辑器,就可 ...

hdu 1009 FatMouse&#39; Trade

FatMouse' Trade Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/32768 K (Java/Others) ...

数字·空间·光艺术｜数字空间和光艺术作品

数字空间和光艺术作品 1.数字空间数字空间的前身可以被认定为我们广为熟知的建筑动画.建筑动画从上世纪末被最早运用在房地产行业以来,给建筑.园林.室内等规划设计方面做出了不可小觑的成绩.然而,随着建筑 ...

z-index堆叠规则

一.z-index z-index用来控制元素重叠时堆叠顺序. 适用于:已经定位的元素(即position:relative/absolute/fixed). 一般理解就是数值越高越靠上,好像很简单, ...

sk buff-sk_buff:源IP/mac 和目标ip/mac 调换，我这么做对么

问题描述 sk_buff:源IP/mac 和目标ip/mac 调换,我这么做对么 /* mac layer /struct ethhdr *eth *temp_eth;eth = eth_hdr(sk ...

招聘网站大起底，找工作究竟谁靠谱？

中介交易 SEO诊断淘宝客云主机技术大厅春风解冻,进入3月,每年的招聘季此时已开始进入火热状态.今年,就业难.招工难仍然是老话题,企业等着用人,大学生.想跳槽的白领和各种打工者们也都在搜索工作 ...

mydumper备份数据库详解（已详细说明）

mydumper是针对mysql数据库备份的一个轻量级第三方的开源工具,备份方式为逻辑备份.它支持多线程,备份速度远高于原生态的mysqldump以及众多优异特性.因此该工具是DBA们的不二选择. ...

c中怎么编写代码实现：判断文件中的一个字符串是拼写错误还是根本不存在！！

问题描述 c中怎么编写代码实现:判断文件中的一个字符串是拼写错误还是根本不存在!! 代码怎么编啊.提供思路也可以,,求各位大神指点,,万分感谢!! 解决方案不是两个if else 么,if. 不为空 ...

关于二维码病毒的问题，求大神解释一一下下

问题描述关于二维码病毒的问题,求大神解释一一下下由于很多二维码软件提供了所谓的智能内容感知和识别,调用了浏览器解释引擎去承载和处理这些代码,实质上就是给"病毒"提供了" ...

Raspberry Pi因为制造过程差错被迫推迟发布

Raspberry Pi 基金会日前宣布,35美元电脑的出货由于工厂生产设备出差错而被迫推迟,问题主要出现在以太网插孔被安排在了错误的PCB位置上,导致网线完全无法使用,因此所有http://www. ...

企业一般如何开发hadoop项目

问题描述刚起步的公司,不知道如何开展hadoop项目,环境都搭建好了,如何开开发呢?是eclipse+hadppplugins还是编译好了打成包再在集群上运行? 解决方案

4G+宽带高歌猛进：移动双线虐杀联通

中国移动.中国联通今天都公布了2016年12月份的运营数据,为过去的一年画上了一个句号. 移动无疑是最为春风得意的,尤其是4G.有线宽带两条战线都是势不可挡.截止2016年12月底,移动4G用户已达5 ...

发帖功能-【新手求助！！】android 中如何实现类似“说说”“帖子”的加载

问题描述 [新手求助!!]android 中如何实现类似"说说""帖子"的加载最近想做一个发帖的功能,但是不知道怎么把写好的"帖子" 加 ...

C#中说接口是让一个类有两个或两个以上基础类的唯一方法，这句话怎么解释，谢谢!

问题描述 C#中说接口是让一个类有两个或两个以上基础类的唯一方法,这句话怎么解释,谢谢!帮忙举个例子,谢谢! 解决方案解决方案二:publicinterfaceI1{voidGetX();}publ ...

国务院扶贫办政府网站启动改版升级工程

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅 3月9日消息,近日从国务院扶贫办了 ...

Bootstrap中CSS的使用方法_javascript技巧

Bootstrap 使用了一些 HTML5 元素和 CSS 属性,所以需要使用 HTML5 文档类型. <!DOCTYPE html> <html lang="zh-CN& ...

JDBC用法小结_java

本文实例总结了JDBC的用法.分享给大家供大家参考.具体分析如下: DriverManger:驱动管理器类要操作数据库,必须先与数据库创建连接,得到连接对象 public static Connect ...

使用Google的广告十天后的观感和博客的钱途

对於Googel的广告好奇心正在逐渐消退,随著了解的深入,对於Googel的广告所能达到的一些作用也开始有更准确的认识.在申请Googel广告的时侯,目前是这样的:1)了解有多少人关心我的文章知识,假 ...

《游戏视频主播手册》——2.5 注册和申请直播间

2.5 注册和申请直播间游戏主播可以分为以下三种类型. 普通主播.普通主播无法得到工资和虚拟道具收入,目前只有虎牙直播允许YY语音的用户不需进行实名认证便可进行视频直播. 认证主播.绝大多数的主播都 ...

Windows 10 安全新特性保障现代企业安全，掌握创新场景机遇

网络攻击总会给企业造成巨大损失.致同国际 2015 年<国际商业调查报告>[ 致同国际于 2014 至 2015 年对 35 个经济体的 2,500 家企业领导人进行调查,并于 2015 ...

《BI那点儿事》Microsoft 线性回归算法

原文:<BI那点儿事>Microsoft 线性回归算法 Microsoft 线性回归算法是 Microsoft 决策树算法的一种变体,有助于计算依赖变量和独立变量之间的线性关系,然后使用该 ...

勒索病毒只有Windows系统有？Linux版的来了

据新华社报道,肆虐全球Windows设备的"永恒之蓝"勒索病毒攻击余波未平,一个Linux版的"永恒之蓝"又出现了. 360官方博客25日紧急发布了Samba远 ...

关于二维码的打印。。

问题描述项目里要求打印类似以下图片效果的"名片"二维码已实现,每个项的内容包括二维码都是动态获得.是要画成PDF格式的么?完全没思路,不知道怎么实现.求高手指点. 解决方案解决 ...

印度信息产业发展经验及对我国西部的启示

印度是一个整体经济水平不高的发展中国家,城乡二元结构突出,工业基础不牢固,工业体系不完整,工业化水平不高,人均GDP在2001年仅为460美元.进入20世纪90年代后,印度准确把握了全球化.信息化发展 ...

weblogic10.0注册成windows服务的问题

问题描述我的操作系统是xp我根据http://blog.csdn.net/wonder4/archive/2007/07/03/1676747.aspx地址下的介绍,配置了服务,并且建立服务成功,但 ...

传统广告业也正被移动互联颠覆

作为最朝阳的行业之一,优秀数字营销人才炙手可热.那在数字营销时代,传统广告业准备好迎接颠覆了吗?一.业务结构传统意义的广告公司和广告业正经历翻天覆地变化,最大转型来自数字化和技术化.2008到2012 ...

热搜