值得一试的4个大数据工具

如今,大数据越来越重要,因为企业需要处理来自多个来源的不断增长的存储数据。

采用大数据可以称之为一场完美风暴。廉价的存储和大量的结构化和非结构化数据的大量涌入,导致了诸多的大型数据工具得以开发,帮助企业“解锁”他们积累的数据,从客户记录到产品性能的结果等更多的数据。

像传统的商业智能(BI),这些新的大数据工具可以分析过去的趋势,并帮助企业识别重要模式,如特定的销售趋势。许多大数据工具现在提供了一个新一代预测和规范性的见解,以及深埋在企业数据中心的所有数据。

对于人们面临的挑战,调查机构Gartner公司分析师道格·兰尼表示,人们还是不要用扩展的基础设施来处理所有这些数据,而是从各种数据本身进行处理。

“对于真正的挑战,企业对自己和客户的交易数据进行处理、整合,并共同构建和理解输入,加上来自合作伙伴和供应商的数据,还有一些外源性数据,如社会媒体的开放数据和聚合数据等等,而这些只是触及了表面。”兰尼在一封电子邮件中说表示。

大数据是一个大问题:您的网络准备好了吗?

尽管Gartner的客户端通过一个2比1的比例说明各种数据是一个更大的问题,对他们来说数据增长的速度越来越快,而数据处理供应商将会继续提供资金更大、更快的解决方案。

ConstellationResearch公司分析师道格·亨森特表示,大数据解决方案肯定是不断发展变化的。

“在我的书中,2014年是发布SQLHadoop公告的一年,但今年企业和销售商开始认识到大数据的机会不只是扩大传统的BI和数据库。”亨森特说,“因此,ApacheSpark开源框架和其他的分析方案已在2015年超越了SQL。2015年,数百家供应商和大公司开始采用ApacheSpark开源框架,IIBM公司拥抱是倡导其他分析选项最明显的厂商,而其他致力于数据集成和大数据平台的很多企业加入这个行列。”

事实上,大数据浪潮似乎来临,每天都会供应商推出的各种解决方案,其中也包括一些相对全面的设计。尽管很难得到一个全面的名单,这四个工具应该出在用户的应用清单中。

(1)数据科学家的H2O.ai

H2O.ai是初创公司Oxdata在2014年底推出的一个独立开源机器学习平台,主要服务于数据科学家和开发者,为其应用提供快速机器学习引擎。Oxdata公司表示,可以在商用硬件上对任何来源(如Hadoop,SQL)的数据进行处理分析,甚至在上千个网络节点或亚马逊的AWS云运行。个人可以尝试并继续免费使用H2O.ai。Oxdata公司将收取企业用户的费用。

“很多公司使用Spark代替Hadoop短期记忆,这就像大数据的内存一样。”H2O公司市场营销和增长副总裁奥列格·罗格斯科说,“在读取你的短期记忆方面,h20.ai的功能超越了Spark,基本上提供了超快速的分析能力。”

罗格斯科说,H2O.ai是旨在提供预测分析的数据工具的一个新品种。他指出,SQL帮助推动了描述性数据分析的早期阶段或“告诉我发生了什么”,其次是“预测期”的产品,看看发生了什么事,尽量帮助客户预测接下来会发生什么-例如:库存用完或产品突破等。

“我们在未来几年将看到第三个阶段是指令性的阶段发挥作用,这个系统说,‘这是我的教训,我认为未来会发生什么,你应该最大限度地实现目标。’”罗格斯科说,他还指出,谷歌地图的主动建议替代路线的能力就是一个规范性解决方案的例子。

H20.ai将自己定位为各种行业数据科学家使用的一个预测工具和“盒子”。例如,网络巨头思科公司有6万款预测购买决策的模型,该公司使用H2O.ai对这些模型评分。思科公司首席数据科学家表示,“其结果是太棒了,我们看到H2O.ai比我们的同类产品的性能要好3到7倍。在单独建模评分方面,h2o.ai环境是upwards的10到15倍。”

(2)ThoughtSpot3–大数据应用

借助谷歌公司这样的搜索引擎,很容易在网上搜到用户需要的社交数据和网络数据,但企业数据一般难以查找,也更难以利用。为此,7位工程师共同成立了ThoughtSpot公司,目标是开发一个类似于谷歌的搜索引擎,用于查找商业数据。

该公司在谷歌公司成立初期就为其提供硬件设备,在企业启用防火墙后提供超快搜索功能。ThoughtSpot结合了新搜索引擎的应用,它的功能是通过一个快速内存数据库来搜寻海量信息。该公司还计划提供一个基于云的服务。

ThoughtSpot3起始售价为90000美元,是一种为企业快速寻找大数据的数据科学家依赖的工具。“我们已经看到企业使用该产品的数据科学家正在增加。”ThoughtSpot公司营销副总裁史葛霍尔顿说,“二十亿人都在搜索,但在工作中,我们仍然依赖于数据专家。”

霍尔顿在加利福尼亚公司总部PaloAlto进行了一个演示,显示系统使用熟悉的搜索栏界面是如何工作的.刚刚发布的ThoughtSpot3.0具有一些新功能,包括“DataRank”的工作方式,类似于谷歌的PageRank和typeahead。该软件使用机器学习算法建议的关键词为客户搜索,以加快这一进程。

Popcharts无疑是最酷的新功能。当你在搜索框中输入“由东海岸销售......”ThoughtSpot瞬间创建基于查询相关的图表,并利用机器学习给出10多个可以选择的图表。

另一个“即时”功能是AutoJoins,其目的是为一般都有数百个数据源的企业导航。AutoJoins使用ThoughtSpot的数据索引,通过索引模式和机器学习,以了解表格是否相关,并在一秒内呈现研究结果。

霍尔顿说,ThoughtSpot更侧重于对历史数据的传统BI分析(速度超快,使用十分方便),其预测性和规范性分析功能会在未来的软件中体现。

(3)Connotate软件

Connotate公司是一家为美联社、路透社、道琼斯等大型公司对全球上千个网站的非结构化数据进行实时分类和分析的企业。在Web数据抽取和监控上,Connotate软件是世界上最简单、最合算的解决方案,以有效地利用海量数据,从中挖掘出对企业增长有价值的信息,并可以进行高度可扩展性的数据监控和数据收集。

Gartner公司分析师道格·莱尼表示,Connotate和BrightPlanet在他所列的大数据工具名单上,因为它们有助于从企业自身的数据库和互联网上收割和构建丰富多彩的内容。

“随着数字化和经济增长,企业认识到只关注自己的数据不再是万无一失的创新良方,他们越来越多地转向外源数据(即公司外部的数据)。”莱尼说。

Connotate公司表示,其从网页抽取内容的专利技术远远超出了网页抓取或自定义脚本。取而代之的是对于网站工作如何使用机器学习采用一种直观的视觉理解,Connotate公司表示,使其内容提取“准确可靠,并且可扩展。”

据该公司介绍,Connotate平台”可以很容易处理成百上千的网站和百万兆字节。”并提供与业务相关的有针对性的信息。其提供的内容采集平均成本比传统方法少55%。

例举一个使用案例,Connotate帮助销售情报提供者从数千个医院网站提取联系人资料(姓名,职务,电话,电子邮件和隶属关系),并建立一个全国性的医生档案数据库。

Connotate公司表示,其大数据解决方案卖给了几家大型制药公司,并没有花费额外的硬件或IT资源。大数据提取的规模化,甚至可以提供50万名医生的数据。

(4)BrightPlanet工具

BrightPlanet公司也从网络中提取数据,该公司宣称其搜索具有所谓的“深网”见解的能力。其深网可以挖掘那些具有密码保护的网站和通常不会被传统的搜索引擎索引的其他网站的数据。

BrightPlanet公司表示,其收集的数据条目数以百万计,其中包括推特和新闻数据库和医学期刊的数据,并可以根据企业的具体需求和条件进行过滤。

该公司为使用该软件的数据采集工程师提供一个免费的数据即服务(DaaS)咨询,并介绍他们的服务是一个不错的选择。咨询的目的是帮助企业数据中心找到合适的收集数据,并得到正确的格式,这样客户可以得到一个好主意的过程和结果。

最终用户或客户可以选择哪些网站收获的内容。反过来,BrightPlanet公司又将其内容进行充实。例如,像在社交媒体网站评论这样的非结构化数据,通过一个自定义格式设计,使其在更便于使用的客户端提交。

本文转自d1net(转载)

时间: 2024-10-27 11:11:13

值得一试的4个大数据工具的相关文章

最适合Java开发者的大数据工具和框架

文章讲的是最适合Java开发者的大数据工具和框架,当今编程人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂.根据外媒的一项调查报告,以下列出了Java程序员在过去12个月内一直使用的一些工具或框架,或许会对你有意义. 先来看看大数据的概念.根据维基百科,大数据是庞大或复杂的数据集的广义术语,因此传统的数据处理程序不足以支持如此庞大的体量. 在许多情况下,使用SQL数据库存储/检索数据都是很好的选择.而现如今的很多情况下,它都不再

2015 Bossie评选:最佳开源大数据工具

Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark.Storm都名列榜单之上. InfoWorld在分布式数据处理.流式数据分析.机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具. 1. Spark 在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者

Bossies:最佳开源大数据工具

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切--即便是Spark.在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引.搜索.图形处理.流处理.结构化查询.分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级. Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了13款最佳开源大数据工具,Spark.Beam都名列榜

Bossies 2016:最佳开源大数据工具

处理大数据可能会遇到各种各样的问题,目前没有任何工具可以完美地处理这一切--即便是Spark.在今年的 Bossie开源大数据工具中,你会发现最新最好的方法是利用大型集群进行索引.搜索.图形处理.流处理.结构化查询.分布式OLAP和机器学习,因为众多处理器和RAM可降低工作量级. Bossie奖是英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象.本次InfoWorld评选出了13款最佳开源大数据工具,Spark.Beam都名列榜

Hadoop:你不得不了解的大数据工具

本文讲的是Hadoop:你不得不了解的大数据工具,如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这

2013 Bossie评选:最佳开源大数据工具

MapReduce的出现是为了突破数据库的局限.Giraph.Hama以及Impala等工具的出现则是为了突破MapReduce的局限.虽然上述方案的运行都需要以Hadoop为基础,但图形.文档.列式以及其它NoSQL数据库也是大数据当中不可或缺的组成部分. 哪款大数据工具能够满足您的需求?这个问题在如今解决方案数量迅速增长的背景之下,确实不容易回答. Apache Hadoop 当人们说起"大数据"或者"数据科学"时,他们指的往往是Hadoop项目.总体而言,Ha

Java程序员使用的20几个大数据工具

最近我问了很多Java开发人员关于最近12个月内他们使用的是什么大数据工具. 这是一个系列,主题为: 语言 web框架 应用服务器 SQL数据访问工具 SQL数据库 大数据 构建工具 云提供商 今天我们就要说说大数据.根据维基百科,大数据是数据集的一个广义的术语,并且该数据集是如此庞大和复杂,以致于传统的数据处理应用程序无法胜任. 在许多情况下,使用SQL数据库用于存储/检索数据就足够了.但在另一些情况下,要么SQL数据库规模不够,要么还有更好的工具.这一切都取决于使用情况. 现在让我们来讨论一

大数据工具指南:从选择到应用

通过部署和使用大数据分析工具,分析流程可以帮助公司提高运营效率,产生新的利润,获得竞争优势.企业可选择的数据分析应用程序有很多.比如描述性分析善于描述已发生的事情,揭示因果关系.描述性分析主要输出查询.报表和历史数据可视化. 另外,更复杂的预测模型和规范模型可以帮助企业获得商机,做出影响市场战略,提升客户体验,避免设备故障的决定.在预测分析中,历史数据集有了预测 分析,历史数据集可用于分析未来的状况和行为,规范分析承接预测分析,建议决策者采取某种行为.在很多情况下,先进的分析程序由于处理和数据存

三款大数据工具比拼,谁才是真正的王者

业内有这样一种说法,SQL虽然在大数据分析领域久经考验,但是无奈长江后浪推前浪,和炙手可热的Hadoop相比,SQL已经过时了.这个说法有点言过其实,现在很多的项目都是将Hadoop作为数据存储,然后利用SQL进行前端查询.这说明Hadoop需要一种高级查询语言的支持. Hadoop MapReduce虽然能够进行数据分析,但是太复杂了.于是,开发人员开发出了类似SQL的Pig和Hive. 大数据时代,我们有很多的查询工具可以选择.虽然SQL占据着绝对优势,但是随着大数据的持续升温,也给了Apa