大数据搜索与挖掘:知著-见微-晓意【大数据100分】

感谢各位朋友的莅临,随着以微博、Twitter与Facebook等为代表的新型社交网络的迅猛发展,大数据已经成为了新一轮的科技革命,是信息技术发展的新趋势,对国家的经济与社会已经逐步产生重大影响。今天我的演讲包括四个部分:我对大数据的定义与理解;大数据应对之道:知著-见微-晓意;大数据搜索与挖掘的研究;大数据搜索与挖掘的实践案例分享。

第一部分:我对大数据的定义与理解

我们先从棱镜计划的手机监控来看大数据:

我们知道,利用我们手机周边的三个基站基本可以定位出我们所在的位置。利用手机位置,美国NSA究竟可以做什么?博主年初在CCTV接受了专访,且听我分解如下:

第一:可以推断出个人的活动规律,出差规律,出国频度等;

第二:可以推断出个人职业、性别等(这个并不难,只需要根据其位置对应的职业特征即可,如高校、写字楼、农场、女性用品店等);

第三:可以推断出个人社交圈(晚上与你手机频繁重叠的,绝大部分都是你的亲属;白天重叠的,是同事的概率极高;与危险人物密切交际的手机主人,其属于潜在威胁的概率大大高于常人);

这是一个非常经典的大数据案例,其中手机位置数据大量叠加,我们从中获得了远远超出了手机位置之外的多种信息,几乎可以做安全监控的所有事情。

刚才的案例还是有些高富帅,不是国家特种机构很难作为。那么我再举一个芸芸众生可以轻易为之的案例,杨达才表哥案。

上面的11张图片中,每一张都来自于公开、轻易可以获取的普通新闻网页,单点来看,几乎没有任何特别的价值,但是当这11条普通的信息按照一定的结构一定的逻辑叠加在一起的时候,将从中挖掘出巨大的情报价值,从而形成知识,形成反腐决策的智慧。量变引起质变,从无数普通水滴中,我们可以窥探到世界的气候风云变化,这就是大数据的魅力所在。

那么究竟什么是大数据,几乎不同的人都会做对自己有利的解释,这点跟当前所有流行的技术热点类似。比如说:数据库领域的人会说大数据就是数据仓库,体系结构的会说大数据就是云计算、hadoop就是数据中心,做芯片的会说,大数据就是更高性能的并行芯片。

我们且看已有的广为流行的说法:一个来自于Wiki,定义如下:Wiki: Big data is the term for acollection of data sets so large and complex that it becomes difficult toprocess using on-hand database management tools or traditional data processingapplications.

另外一个是来自于舍恩伯格.维克托《大数据时代》:大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法。

博主认为:这两种定义都不严谨,仅仅是定义出了大数据的属性,是大数据的必要而不充分的条件。结合刚才讲的两个案例,我们给出了我们自己的理解:大数据是指从客观存在的全量超大规模、多源异构、实时变化的微观数据中,利用自然语言处理、信息检索、机器学习等技术抽取知识,转化为智慧的方法论。

我更多的强调的是大数据从微观数据中,发现信息,挖掘知识,并转化为智慧。大数据更多的是一种方法论,而不仅仅是数据本身。根据科技革命的周期律,大数据是一场新的科技革命,也是一种思想方法的革命。

大数据思维主要包括:全量分析,让数据说话; 承认并客观地认识世界的混杂性; 相关性挖掘替代因果推断。当然这里还有不少争议,有各家之言。

第二部分大数据应对之道:知著-见微-晓意

我们中国人做事的时候,先道后术。我们先从一张自创的示意图开始说起:

我们如何解读这张图,按照正常的逻辑一般人会说:这是一个“大”字,细看是由多个“小”字组成,不过其构成有一个有机的宏观结构。细想一下,还需要有个必备的语义知识理解过程,我们都认识中文的字,有中文语义理解的基础。

其实我们对大数据的理解也是这样的过程,即:知著、见微、晓意。如下图所示:

我想以微博分析为例来解释一下我的观点。

知著:强调的是从整体来认识客观世界,需要快速计算大数据的宏观特征与结构。是整体认识客观世界快速而又有效的方法。微博分析过程中,我们需要的是快速计算出微博的热点特征,需要了解微博关注与传播的宏观分布图。

见微:强调的是在宏观指导下,有针对性的研究有代表性的微观数据,这里并不需要对每一个微观进行分析计算。微博计算时,我们不可能对每一条微博做精细化的分析,这在效率上是不可能对,最终也会因为过多微观导致的噪声过多,影响最终的效果。

晓意:强调的是对语言语义的理解与认知,属于自然语言理解的范畴。需要我们真正理解内容内在的含义。这点目前强调的不多,举中英文的例子分别说明一下:

“杭州市长春药店”存在两种歧义理解:杭州/市长/春药店/ 以及杭州市/长春/药店 ,语义理解的错误会造成不同的“笑”果。几乎90%以上的幽默都来自于语义的歧义理解。

英文的例子:

Who was Chinese President in 2012?
Hu.
Who?

A:Who is Chinese President?
B:Xi.
A:She?

大数据分为结构化大数据与非结构化大数据,结构化大数据在上世纪末期已经有较好的研究,产生了关系型数据库以及数据仓库等相对成熟的技术与产品,也造就了IBM,Oracle等跨国大企业。

而以文本、多媒体信息为主要元素的非结构化大数据,体量是结构化大数据的十倍甚至更多,但非结构化大数据的分析处理挑战更多。非结构化大数据的生产、搜索、挖掘与分析已经成为了当前研究的热点与难点。因此,博主认为:大数据更大意义上是非结构化内容理解。

传统结构化数据挖掘属于已知的成熟领域,严格来论,并不属于大数据的研究范畴。

第三部分:大数据搜索与挖掘的研究

下面我来汇报一下我们北理工大数据搜索与挖掘实验室在大数据搜索与挖掘方面的研究工作。

JZSearch精准搜索引擎由我们实验室开发,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。目前已经应用于中国邮政搜索引擎、河北省标准搜索引擎、富基融通(纳斯达克上市公司:EFUT)商品搜索。

上面是大数据精准搜索引擎的架构,和传统搜索引擎类似,但融入了很多新的理念,如非机构化数据与结构化数据的结合;实时在线索引与搜索等。

•搜索基本功能: 多字段关联搜索、指定字段排序、精确搜索与模糊搜索

搜索特色功能包括以下几点:

•内嵌正负面情感等极性分析、语义联想搜索、临近搜索、搜索结果去重;

•内嵌了ICTCLAS智能分词系统;

•数据库实时同步:数据库增删改10秒内即可同步到搜索;

•搜索维护功能: 单点故障容错;支持增量索引;自动备份与恢复机制;自动缓存机制;自动优化机制;搜索屏蔽与恢复;

部分的应用效果如下:

除了搜索之外,我们更多的工作是围绕大数据的内容挖掘上,我们推出了NLPIR大数据搜索与挖掘平台。

NLPIR网络搜索与挖掘共享开发平台,针对语言信息内容处理的全技术链条的共享开发平台。12年专业研究与工程积累,提供应用软件及各平台下的二次开发包,非商用永久免费。www.nlpir.org下载。

核心功能包括:

搜索类:JZSearch大数据精准检索;

大数据语言理解类:新词发现,分词标注,统计分析与术语翻译;关键词提取;

大数据文档挖掘类:文本聚类及热点分析;分类过滤;自动摘要;文档去重;情感分析

限于演讲形式的限制,仅仅介绍几个大数据挖掘的效果展示吧,更多的可以请大家访问www.nlpir.org下载共享软件自己拿自己的大量业务数据测试找找感觉吧。

利用大数据关键词提取,我们可以发现十八大报告的关键语义为:中国特色社会主义、改革开放、科学发展观等。需要说明的是整个过程没有人工干预,全部由数据自己说话。

大数据聚类的效果,我们从百万以上的文档中自动聚类计算,可以发现甲流的流行,如图所示。

第四部分:大数据搜索与挖掘的实践案例分享

群里的朋友大都是来自于产业界的,理论很丰满,现实很骨干。我们还是跟大家分享更多我们所涉及的非常丰满的大数据实践吧。

用户的大数据刻画,上图是一家数据统计公司,采用我们的技术将用户浏览过的内容来对浏览者进行标签分类,如下图所示。我们几乎可以很准确的获取用户的特征、兴趣与偏好。为精准营销提供技术支持。

第二个案例:从用户的社交网络发言内容,发现用户内心深处的价值观,如上图所示。

上图是某家全球Top3的手机厂商利用我们的大数据挖掘分析用户的短信,从而发现其潜在的衣食住行需求。

上面是第三个案例。下面是第四个案例:特点主题的可视化刻画,这里给出的是根据新浪微博数据对“雅安地震”的话题刻画。

上面是我们的第五个案例:微博博主的情绪感知。我们从中可以发现不同人的情绪波动,有很情绪化的人,有波澜不惊的人。

第六个案例也是最后一个案例:Web大数据搜索与挖掘平台。

这里面展示的是我们如何对一个内容进行完整的自动化挖掘,可以自动分析其摘要、情感色彩、并抽取其人物、地域、机构、主题、以及相关的背景等。

自动从大数据中挖掘出改革所涉及到的人物关联关系,背后都是大量数据自动计算,没有人工干预的关联计算。

对比分析人民日报与新华社,中间粉红色是共同点,其他是不同点。数据似乎告诉我们前任副总理回良玉与新华社关系密切,而与人民日报关联生疏,为什么?我不懂,或许大数据懂。

互动内容:

Q1施水才:张华平博士,你这边对情感分析主要分几个维度?
张华平:施总,客气了。我这边对情感分析分两种:1.简单的正负面中性;2.另外一种是情绪细分,按照七情来划分。情感分析最近的研究进展是可以通过给定的一批情感词,自动发现新的情感词,还可以对情感词的权重自动计算,而不是靠拍脑袋想。TRS的大数据分析处理其实有很多值得我们学习的地方,我们只是在单点技术上做了一些探索,综合来看,TRS的应用还是很强的。
 
Q2追逐自由:张教授好。我对情感分析的理解是情感是个修饰内容,应该依附于主体和客体存在,比如谁对什么东西有什么情感。现在很多粗暴的情感分析整个就一条微博甚至一篇文章提供一个所谓的情感标签,我一直不敢苟同。您怎么看这个问题?
张华平:说的是对的,情感分析三要素:情感主题、情感属性、情感值。但在实际应用上,很多情况下是简化处理。但是具体到某个产品或者某家公司的分析上,必须做好这几步,否则是没有任何意义的。一篇文章可能讨论多个对象,情感色彩完全相反的也有。
 
Q3追逐自由:张教授,都说优秀的纯机器情感处理的实际准确性在60%左右,这个数字准确么?谁说90%以上我觉得肯定夸张,以咱这博大精深的老头晒太阳的中文来说。
张华平:从最近的研究进展来看,利用大数据处理架构,采用深度学习算法,我们目前看到的论文反映,英文确实有能做到接近人的情感判断水平了。
 
Q4王绪刚: 张老师,不知道对于微博短文本内容,判断情感有什么好方法么?

张华平:坦率地讲,单独微博短文本的计算仅仅从其本身出发几乎没有好办法,我一般都建议从两个角度来增加信

原文发布时间为:2014-05-16

本文来自合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

时间: 2024-10-03 22:14:00

大数据搜索与挖掘:知著-见微-晓意【大数据100分】的相关文章

大数据搜索论坛:大搜索成关注焦点

2014年12月12-14日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中科院计算所与CSDN共同协办,以推进大数据科研.应用与产业发展为主旨的2014中国大数据技术大会(Big Data Technology Conference 2014,BDTC 2014)暨第二届CCF大数据学术会议在北京新云南皇冠假日酒店盛大开幕. 本次大会历时三天,以更加国际化的视野,帮助与会者了解海内外大数据技术的发展趋势:从技术与实践角度出发,探讨"大数据生态系统"."大数据

译见赋能跨语言大数据渠道生态

文章讲的是译见赋能跨语言大数据渠道生态,2016年11月18日,2016"赋能·译见"渠道招商大会在京圆满落幕.来自全国近二十个领域的上百家企业盛情赴会,共谋跨语言大数据未来发展.会上,中译语通科技(北京)有限公司(以下简称"中译语通")详细介绍了公司战略布局及解读跨语言大数据平台"译见"的渠道政策,并展示了"译见"在新闻.科技.医疗.工业.农业等垂直领域解决方案及智能搜索.实时热点分析等先进服务能力.会议现场,巨大的市场蛋糕

搜索、Office和云安全:姓“微软”的大数据有何不同?

今天, 微软公司举办以"大掌控,大智汇,大洞察"为主题的大数据媒体日活动,与数十家国内媒体一起分享了微软在大数据领域的最新研究成果.解决方案,以及对于大数据未来发展趋势的看法.来自国内银行.汽车.交通运输.医疗卫生和零售业的微软大数据解决方案用户,通过他们的切身体验介绍了微软大数据解决方案为众多行业带来的进步与改变. 微软全球高级副总裁,大中华区董事长兼首席执行官贺乐赋(Ralph Haupter)先生表示:"大数据不仅要从数据挖掘.数据分析的层面去解决"大&quo

大数据可视化必须避免的三种常见错误

文章讲的是大数据可视化必须避免的三种常见错误,最近一段时间以来,围绕数据可视化所展开的讨论可谓层出不穷--其话题之丰富.交锋之激烈甚至不亚于大数据技术本身.目前业界普遍认为可视化是最优秀的(或者说是惟一一种)数据内容表达方式,甚至如果不对数据进行可视化处理,我们将错失大量宝贵信息. 可视化是获取并分享观点的绝佳途径,但很多大数据团队却没能选对正确的方式.可视化怎么会出现问题?原因很简单,因为存在多种可能破坏数据可视化效果的实施方式.下面我们就一同来探讨最为常见的三种错误实践. 错误一:显示所有数

OpenSearch:轻松构建大数据搜索服务

随着互联网数据规模的爆炸式增长,如何从海量的历史.实时 数据中快速获取有用信息,变得越来越具有挑战性.搜索是获取信息最高效的途径之一,因此也是各类网站.应用的基础标配功能.开发者想在自己的产品中实现搜索功能一般都是基于某个开源搜索系统(如ElasticSearch.Solr.Sphinx)搭建搜索服务.然而,除了购买主机或托管服务器,从系统熟悉.服务搭 建.功能定制,再到服务上线,通常需要耗费较长时间. 云搜索是一种结构化数据的搜索托管服务,开发者可将数据上传至云端进行数据处理和索引构建,再通过

智慧城市的背后是大数据的深度挖掘和利用

智慧城市主要以信息技术为支撑,发展智慧城市的目的是为了科学化地决策,提高管理效率,同时也为了资源配置的高效和集约.可见智慧城市的背后,实质是大数据的深度挖掘和利用.由国家政策层面传递而来的利好消息以及新一代信息技术的高速发展,使得信息消费的前景被看好. 而能够提供信息消费平台的企业有很多,电信企业以其较强的平台运营经验和参与平台的建设与运营的优势,获得了物联网服务领域的一丝先机.加上智慧城市是物联网应用的综合载体,最能体现技术与应用的融合,也容易集中展现应用后的效果,示范带动作用大.各级政府高度

曙光大数据应用:挖掘广电行业海量数据金矿

广电行业作为一种发展历史较久,生态系统相对成熟完善的行业,在我国现代化建设过程中发挥着重要作用.然而,随着互联网时代传播载体.传播内容的爆发式增长,特别是微博.微信等社交网络和新媒体的快速发展,对传统广播电视体系的冲击越来越明显.那么,在大数据时代背景下,广电要如何应对?如何选择适用的平台?如何挖掘和利用大数据技术,实现"台网联动",从而提供更加优质的服务呢? 为此,曙光以坚实的大数据技术积累为基础,推出了针对广电行业的大数据解决方案,可以帮助广电行业高效分析海量传播数据,深入发掘用户

大数据时代你需要知道的7个大数据定义

文章讲的是大数据时代你需要知道的7个大数据定义,大数据究竟是什么?很多人可能仍然有些混淆,本文让我们来看看大数据的一些主要的定义.首先要注意的是,行业内的所有人都普遍认同,大数据不只是更多的数据. (1) 最初的大数据 大数据的特征可以用很多词来描述.2001年Doug Laney最先提出"3V"模型, 包括数量 (Volume).速度(Velocity)和种类(Variety).在那以后,业界很多人把3V扩展到了11V,还包括有效性.真实性.价值和可见性等. (2) 大数据:技术 为

大数据搜索选开源还是商业软件?ElasticSearch 对比 Splunk

本文就架构,功能,产品线,概念等方面就ElasticSearch和Splunk做了一下全方位的对比,希望能够大家在制定大数据搜索方案的时候有所帮助. 简介 ElasticSearch (1)(2)是一个基于Lucene的开源搜索服务.它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口.Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎.设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便. E