新数据整合的五大方式

导读:数据整合将是2011年信息技术的重点。无论你的兴趣是商业智能、信息访问还是运营,这些都与客户资料、交易、产品与竞争信息、网络博客等企业数据有着千丝万缕的联系,你需要从日益增长的如潮水一般的社交/在线信息中找出与业务有关的内容。

ETL(提取转换加载)数据仓库,以及新出现的率先加载的变体ELT仍然是主要的整合方式。但是这一方式将得到新出现的动态多源头信息整合和语义整合的补充。这一方式还将受到数据配置(类型、分发和属性特征)的推动。

这些新出现的ETL方式构成了新数据整合。这些方式具备有易用、内嵌应用、侧重于终端用户的整合特点。

新数据整合针对的是大量不同的数据源和需求,以及日益增长的DIY数据分析需要。下面我们将为大家介绍一下Tableau、Attivio、FirstRain、谷歌和Extractiv公司采取的一些相似但又不同的方式。每一个案例都在新数据整合方式中具有代表性。

Tableau: 易于探索

没有任何一家商业智能厂商能够比Tableau软件公司更能体现DIY精神。公司的可视化、探索性数据分析软件能够让终端用户深入挖掘结构性数据源,共享和公布分析结果。Tableau的实力和易用性为公司赢得了大批用户。

在11月份推出的Tableau 6.0版具有“数据融合”功能。其不仅能够通过名称和特征对来自不同的数据域进行连接,还可以求和,如从月份到季度,便于将存储在不同的合计层的数据进行整合。

为了便于融合,该软件还支持“别名”。如能够将州名全称与缩写进行匹配、将产品编号和产品名称进行匹配等等。

在使用中,该软件可以实现预算和销售计划与现货进行比对,用户可以将电子表单中的数值与公司记录进行比对。此外,该软件还具备将外部信息与公司数据进行融合。

与大多数商业智能应用一样,Tableau一直致力于“结构性”数据。但是随着用户开始面对如潮水般的在线和社交源,这一重心必将会发生改变,转变为搜索与文本分析增强型商业智能。

Attivio: 通用与统一

企业搜索和商业智能已经发展了十余年,其主要用于信息孤岛,一个仅限于文档,另一个仅限于从运作和交易系统中收集数据。Attivio的目标是打断数据库和文档之间的壁垒,依靠一个统一目录提供搜索接口。Attivio的努力使得BI界面与分析工具融合在了一起。

Attivio通过API和连接器(由公司和合作伙伴提供)从完全不同的源,或是从文档和数据库、电子邮件、内容管理、以及企业应用系统中收集大量数据。

Attivio主动智能引擎(AIE)先提取内容(文本、元数据、结构信息),然后处理、充实和连接这些内容。公司共同创始人兼首席技术官Sid Probstein称:“充实提取的内容和分类等组件可在整合进程中增加智能。”

Probstein称:“Attivio主要执行‘动态图表生成’。‘动态图表生成’主要基于所发现数据的数值和类型。我们拥有大量组件,这些组件可在小型数据集合被处理后识别和报告整合机会”

FirstRain的时间排序

FirstRain是一种商业信息搜索和监测工具,除了拥有一套关键的公司信息数据库外,其能够从新闻、博客、行业、政府、科研和大学资源等开放网站上挖掘和整合信息。其目标是“获得关联,发现管理或商业结构中的变化,跟踪行业发展趋势。”

公司技术副总裁Marty Betz称:“语义分析应用是指‘商业结构意识’,这对于识别和传递分散于不同资源中的相关商业信息十分关键。同时,这也对是否有能力将从公开网站上发现的信息依时间顺序进行整合十分关键。”

Betz称:“通过利用我们的方式分析信息流,系统能够动态建模,及时调整它们对公司和行业周边市场环境的理解。”

谷歌将目光转向相似性

当然,谷歌是网络世界中的王者,他们的目标是对互联网接入世界进行索引。利用与Endeca相似的搜索特性,谷歌可以从隐藏在冗长内容(如网页/文档类型、发布日期和位点)中的元数据、结构和语境中,以及包含情绪分析在内的内容分析技术中受益。谷歌目前正将自己由搜索引擎转变为信息存取提供商。

谷歌的决策者正在探讨诸如“合并众多商户分类”的应用。这很明显表明他们的兴趣是将谷歌变成一个在线比较购物的工具。

目前他们正在讨论基于统计学相似度测量的“软连接”。如果你使用硬识别标识,他们也能从中获得优势。硬识别标识是指能够作为明确标识的识别标识。他们会提供ISBN、UPC 以及Web URL。

URL(统一资源定位符)是一种统一资源标识(URI),其用来指定访问机制,如HTTP和FTP。URI对于处于发展初期的语义网中的互链数据整合至关重要。

Extractiv 关注实体

Extractiv是一家新公司,主要业务是网页蜘蛛技术与语义注释和分析软件整合在一起。Extractiv提供了SaaS(软件即服务)文本分析,可以识别如个体名称、公司、地点等“实体”,以及源文本中实体的情绪与关系。

大量类似Extractiv的服务支持超网络文本(和情绪)分析,这其中比较典型的是Orchestr8的 AlchemyAPI、Clarabridge、Evri、Lexalytics、OpenAmplify、Saplo和汤森路透的OpenCalais 和Zemanta。还有一部分提供对互链数据网络的访问。你可以通过Extractiv体验这种能力。

整合道路展望

为了提高每一个系统处理多类型、复杂数据的能力,我们需要做这一工作。虽然我们展示了一些新数据整合案例,但是许多公司需要取得重大进步才能面对来自技术和业务的挑战。在今后,整合仍然会沿着易用、内嵌应用、以终端用户为重点这条道路发展。

原文链接:http://www.cnw.com.cn/news-report/htm2011/20110119_216694_2.shtml

时间: 2024-10-10 01:08:02

新数据整合的五大方式的相关文章

高管家族新成员:首席数据官的五大职责

文章讲的是高管家族新成员:首席数据官的五大职责,IBM公司表示,全球财富五百强企业中已经有25%设立了CDO职位,但其中很多仍然不知道该如何对这一角色作出准确定位.通过对研究结果的汇总,这里将给出五条建议. 首席数据官(简称CDO)将成为下一个炙手可热的全新职位,但根据IBM公司的调查,许多企业至今仍不清楚该如何准确认识这位高管家族的新成员. "大约两年半之前,我们第一次发现首席数据官职位的诞生,但当时企业还在努力弄清CDO到底该做些什么.该将其安排在企业中的哪个位置.这类高管人士又该具体负责哪

Oracle 11g r2数据泵新特性简介(二)数据泵对表导出方式的改进

Oracle的11gr2版本中,并没有对数据泵做出多大的改动,主要是增加了对原始版本参数的支持,并且去掉了一些小的限制. 这一篇介绍数据泵对表导出方式的改进. 在11gr1和以前的版本中,以表模式的导出有一个限制,所有导出的表必须处于同一个SCHEMA中,这使得备份不同的SCHEMA下的个别表变得很不方便: bash-3.00$ expdp yangtk/yangtk directory=d_output dumpfile=t.dp tables=yangtk.t test.t Export:

2017年亚太地区数据中心的五大预测

在过去的2016年,亚太地区的数据中心市场经历了长达一年的强劲增长,而2017年将又会是数据发展加速的又一年.在新加坡,托管市场在2017年的年增长率将达到9%,到2020年,市值将达到15.6亿新加坡元. 伴随着这一数据处理需求市场飞速增长的,是社交媒体.移动数据.分析和云服务(SMAC)技术将开始更多的整合到一起,诸如电子商务行业的需求在2017年将把新的数据消费需求推向新高.作为在数据中心和托管服务领域的一名专家,在本文中,Equinix将为我们广大的读者朋友们分析亚太地区数据中心的五大关

架构分析、数据整合、负载均衡,梦想旅行解析云上实践

全面赋能,双11电商解决方案上新,全新75折:https://www.aliyun.com/solution/ecommerce/act/huhang1111 9月23日由阿里云主办的第三期<电商大咖直播:备战双11最佳实践>线上分享圆满结束,来自梦想旅行的CTO李帅分享了如何在大数据的云上实践过程中来把畅行全球的事做的更完美,主要介绍了分布式爬虫架构.数据整合与知识发现.遇到的阻碍.高可用与容灾. 本次视频直播的整理文章整理完毕,如下内容. 如何能够让云计算更好的帮助行业的发展.更好的服务行

毛新生:有了新数据才能冠之曰“大”数据

IBM开发中心首席技术官,创新工程院院长毛新生(腾讯科技配图)腾讯科技讯12月18日消息,第十届中国互联网经济论坛今日隆重开幕,会议的主题为"得势者·得天下".IBM开发中心首席技术官,创新工程院院长毛新生发表演讲表示,天越来越成为人们生活中获取信息和使用应用的一个主要的设备,我们已经告别,正在告别PC的时代,进入移动的时代,对于任何一个企业来讲,都意味着一个巨大的变化.毛新生称,这个变化简单的来讲就是说它的业务流程的接触点已经逐渐的从PC进入到移动,并且日渐以移动的设备作为一个主要的

挑战数据可视化必备五大原则

不管你是要将健康福祉.购物习惯还是在社论中将数据表示成何种形状,奥菲尤尔小组总结出以下挑战数据可视化必备五大核心原则. 在数字时代初期,数据完全由数学家与科学家们鼓捣.而如今,不管任何领域,任何人,都逃脱不了对数据的讨论和研究.不光在线服务依赖数据,我们本身也是产生我们生活各方面信息源源不断的数据来源. 无论是人体数据--由于可穿戴设备的兴起--我们在家的能耗,或个人财务相关的数据:大量数据的数据由我们产生,而当前我们需找到方法去了解它对我们的意义. 个性化数据在企业间兴起一股收集客户信息并寻求

中国企业的转型路径从数据整合开始

文章讲的是中国企业的转型路径从数据整合开始,在2012年美国<财富>杂志按营收进行排名的全球企业500强中,中国的企业已经占据了79席,仅次于美国的132席.<财富>杂志认为,未来中国上榜企业的数量还会继续增长,甚至会超越美国. 很多人都清楚地记得9年前联想集团收购IBM PC业务的情景,并把这桩交易比喻为"蛇吞象".然而在今天,中国企业并购海外大型企业的"蛇吞象"越来越多:浙江吉利集团收购德国沃尔沃汽车公司.中信证券收购里昂证券.大连万达集

2013年预测:大数据带来的五大挑战

本文讲的是2013年预测:大数据带来的五大挑战,John Bantleman是RainStor的CEO,有着20多年的从业经验.他在<连线>上发表了一篇文章称大数据在2013年将成为企业需要面对的重要问题之一,并且对今年大数据带来的挑战进行了5个方面的预测. 以下为文章全文: 2012年,大数据已经被证明是一个重要的趋势,并且对来年的大数据市场进行了很多的预测.现实情况是,客户将最终决定大数据的发展趋势,也将决定使用哪些技术解决方案来解决他们的独特业务问题. 在如今由数据驱动发展的世界里,企业

工业大数据的三大挑战及大数据未来中国五大商业趋势

在设备运行的过程中,自然磨损本身会使产品的品质发生一定的变化.通过信息技术.物联网技术的发展,通过传感器技术,实时感知数据,知道产品出了什么故障,哪里需要配件,使得生产过程中的这些因素能够被精确控制,从而真正实现生产的智能化.一定程度上,工厂/车间的传感器所产生的大数据直接决定了"工业4.0"所要求的智能化设备的智能水平. 从生产能耗角度来看,设备生产过程中利用传感器集中监控所有的生产流程,能够发现能耗的异常或峰值情况,由此能够在生产过程中不断实时优化能源的消耗.同时,对所有流程的大数