智能语义聚合框架:像人类一样收集和理解知识

郑昀 20071129

智能语义聚合框架并不是什么领域都适用的,能够进入的垂直领域特点:

  • 信息源:网络资讯足够丰富,碎片多且分散;
  • 用户需求:受众越来越依赖于网络碎片形成自己的意见;
  • 商业需求:容易建立商业模式或电子商务的领域。

也就是说,很多网络口碑公司,只是要么点评、要么点评搬家、或者拿出点儿商业报告、或者论坛营销把戏,但离真正理解人们在说什么还远得很。其实语义应用上有好多事情很好玩的,并不是只能像玩聚网搞得像techmeme一样热点自动发现,毕竟玩聚的热点故事还不能真正理解故事的本意;像大旗网的口碑榜还只是玩文本的情感倾向计算,但它也没有理解一个帖子为何说产品不好、不好在哪里、为何要买这个产品等等。

现在的搜索理解人们在说什么吗?

也是不知道的。

它们可能知道你提到了哪些关键词,哪些词更重要,但它不会像人类一样去看到网页内容形成知识,现有的搜索只能叫做“together”而已。

智能语义聚合框架可以。我们目前正在做的事情就是在证券市场上试图充分体现这个框架的优越性,挖掘一些本来只有人才能干的价值;在这个层面上,酷讯或者爱帮网的生活搜索只能算是“精确信息提取”和“灵巧组织”而已。

 

那么什么是像人类一样的收集和理解知识呢?

我们举一个雅虎全能搜索的例子。

雅虎的这个人际关系图后来也被谷歌在天涯来吧里复制:http://www.yahoo.cn/s?v=person&p=%E6%96%B9%E8%88%9F%E5%AD%90,方舟子的人际网络关系图。我们前几个月也抽了点时间玩了一把,首先收集所有各种明星的新闻资料,然后训练机器理解人类之间可能存在的关系有哪些,接着按实体名(你可以理解为人名)与实体名之间的距离远近以及关系词去统计实体与实体之间存在哪些潜在关系,最后反转和理顺关系、归纳即可。这里面的难点就在于实体与实体的关系并不一定简单的通过“XXX的XXX”这种简单句式来表达,汉语千变万化,新闻资讯阐述的往往是一个事件,你要给机器足够的训练,它才能理解足够多的关系。

这种模式的理解知识,就很象人(或小孩子学习)的思维了。这只是一个简单的例子。

 

小结:

智能语义聚合框架,是什么,第一步,选择好垂直方向;第二步,把知识碎片together起来,碎片包括blog、news、forum、microblog、live room等等;第三步,文本挖掘和统计;第四步,展现价值。

一般来说,计算语言学和自然语言信息处理研究的核心问题是语言的自动理解(Language Understanding)和自动生成(Language Generation)。智能语义聚合框架还属于前者的世俗应用。前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思。这个事情学术界搞了很久了,但要想隐藏掉背后的复杂技术,变成一个通用的应用需求,还是需要从实际生活中来,观察人类日常行为也许是个好办法。语义搜索或者语义网这高深的东西,我真的担心只有Geek才有的需求,让无数人竞折腰啊。

  

我的其他文章:

11/27/2007  话题营销在选择自由的当下只能是制造垃圾和垃圾流量
11/23/2007  爱帮网“搜索+社区”就地展开
11/01/2007  【乱讲】互联网人的“迷信”
11/06/2007 互联网大鳄的"打"、"着实打"、"用心打" 

11/06/2007  GPS导航服务的视野应该放远些

10/29/2007 【帮帮】移动互联网的“浑水”

10/22/2007 小i机器人,MSNNEXT,MSNSHELL的周末聚会【帮帮俱乐部】

10/16/2007  Web2.0的信息组织需要引入语义的新思路

时间: 2024-11-03 07:15:21

智能语义聚合框架:像人类一样收集和理解知识的相关文章

大道至简:智能语义检测的武林

在宗派林立的检测技术武林中,语义化检测引擎近两年已成热门绝学.它的力量在于,让攻击检测更精确.更聪明.更人性化.目前,硬件WAF中,国内已经有数家厂商部署了该技术:云WAF中,阿里云云盾也在上周发布了语义智能检测引擎的选项.   "智能语义检测"这门武艺的江湖故事,要从它的前辈"基于规则的检测引擎"开始说起.   10几年里,基于规则的引擎一统江湖.直到现在,江湖上大多数的WAF是基于规则的WAF.其原理是每一个会话都要经过一系列的安全检测,每一项检测都由一个或多个

碳云智能首席科学家李英睿:我们要建立一个接近于智能的计算框架

图片来自asianscientist 12月7日下午,江湖传言不轻易出面且连股东也请不动的碳云智能首席科学家李英睿,出现在了松禾资本的年会,并在演讲中讲了碳云在做的事以及精准医学. 李英睿是碳云智能联合创始人兼首席科学家,曾任华大科技CEO和华大基因首席科学家.2016年,他入选福布斯30位30岁以下亚洲人物榜生命科学榜. 本文由雷锋网(公众号:雷锋网)根据他的演讲内容整理而来. 公众对精准医学的熟悉,得益于美国总统奥巴马的推广.雷锋网曾报道,2015年1月底,奥巴马在2015年国情咨文演讲中宣

《机械制造业智能工厂规划设计》——3.3 机械制造业智能工厂总体框架

3.3 机械制造业智能工厂总体框架 机械制造业智能工厂的总体框架如图3.8所示.在信息物理融合系统的CPS的支持下,构建智能设计.智能产品.智能经营.智能服务.智能生产.智能决策六大系统.通过企业信息门户实现与供应商.客户.合作伙伴的横向集成,企业内部的纵向集成.要做到这些集成首先要有一系列标准的支持,以及信息安全的保障.下面分别就这个框架的各个组成部分做简要说明. 信息物理系统是智能工厂万物互联的基础.通过物联网.服务网将制造业企业设施.设备.组织.人互通互联,集计算机.通信系统.感知系统为一

智能语义识别,让浏览器真正理解人

3月30日海豚浏览器在Android平台和iOS平台同步推出更智能的中文语音控制功能"海豚声纳". 目前支持语音功能的手机浏览器并不鲜见,但多数都还停留在相对简单.机械的语音识别层面,使得用户体验大打折扣,海豚浏览器从技术上突破了这一瓶颈,推出了更为智能的"海豚声纳". 智能语义识别,让浏览器真正理解人 "海豚声纳"采用了智能语义识别技术,使得浏览器能够更好地"听懂"自然语言,用户只需要用自己最习惯的说法告诉海豚自己的需求即可

《谷歌语义搜索》一第2章 什么是知识图谱2.1 一个知识引擎而非一个搜索引擎

第2章 什么是知识图谱 谷歌语义搜索 语义搜索基于知识图谱(Knowledge Graph).知识图谱让网站和人可以在新的谷歌搜索中被发现,它也成为了一种媒介,通过它你可以用一种新的营销方式来吸引潜在客户的注意力.在许多方面,知识图谱就是语义搜索的大脑. 在本章中,我们将看到知识图谱到底是什么,你怎样才可以被纳入其中,以及接下来这将怎样影响你在谷歌语义搜索中的现身. 2.1 一个知识引擎而非一个搜索引擎 谷歌语义搜索 任何曾经看过一集<星际迷航>(Star Trek)的人都知道,在"

java三大框架-Java三大框架需要数据库和算法之类的知识吗?

问题描述 Java三大框架需要数据库和算法之类的知识吗? Java三大框架需要数据库和算法之类的知识吗? ava三大框架需要数据库和算法之类的知识吗? 解决方案 需要数据库的知识,算法不需要.但是作为一个程序员,你不可能只使三大框架吧.算法不懂只能算初级代码蓝领了. 解决方案二: 算法很重要,它让你考虑问题更全面,更效率.一段好代码至少要高效率,可维护,健壮.这些都离不开算法.别人五六行代码,你只需一两行.别人要反复遍历数据,你只需遍历一次.这就需要数据库知识和算法思维. 解决方案三: 算法是解

神经科学家成功绘制大脑语义地图,解读人类思想

科学家使用大脑成像技术绘制了一幅地图,让我们清楚看到大脑不同区域如何表征 958 个常见英语词汇及其含义.揭开这个谜题会有意想不到的回报:通过观察大脑活动,就能知道你在想什么. 英语词典按照字母顺序排列出所有常用英文单词,人类大脑又是如何储存这些词汇的呢?解开这个谜题的回报将是巨大的:通过观察大脑活动,就能知道你正在想什么. 神经科学家们一直都在研究「读心术」,试图解码大脑信息. 伯克利大学 Brian Pasley 等人曾试图解码人类自忖时的语词.在治疗癫痫病人的过程中,研究人员将电极植入大脑

Ray Kurzweil 预言计算机的智能在 12 年内达人类水平

未来学家 Ray Kurzweil 做过很多预言,其中最著名的是技术奇点,也就是人工智能比人类更聪明所引发的事件.在 SXSW 上,Kurzweil 接受采访时给出了一个更接近的时间:到 2029 年,计算机将具有人类水平的智能. Kurzweil 并不担心机器学习和人工智能的崛起.对于 AI 可能奴役人性,Kurzweil 说,这不现实,今天的世界我们不是只有一个或两个 AI,我们有数十亿个. Kurzweil 认为 AI 将使得人类更聪明,"它们可能还没有进入我们的身体,但到 2030 年代

详解JavaScript的Polymer框架中的通知交互_基础知识

Polymer 以访问器属性的形式来定义有监听需求的属性(没有监听需求的属性依然是普通的属性形式定义).模板中还可以采用「::」语法来将属性双向同步于目标元素的某个事件,这就是 Angular 中双向绑定的概念,甚至还要比它更纯粹.更贴近原理. 在 properties 中定义的属性如果没有添加 notify 并且没在模板中用到,那么它就是没有监听需求的,于是就会被定义成普通属性.否则都会被定义成访问器属性,下面例子就解释了这个问题 运行 <script> var Polymer = { do