语义的未来【OpenSourceCamp讲稿】

 按照官方的说法,“OpenSourceCamp  是一个在开放环境中以非正式的会议方式进行知识,技术的交流活动形式。开发者,Blogger, 创业者,Geek, 等等都可以在这里 分享他们的想法,Demos, 并与每一个参与者进行互动交流。”

    但Camp更像是个Geek们的世界,和我们这种见惯了“商务人士”会谈的似乎格格不入。

    我还是把本来为了OpenSourceCamp准备的讲稿分享一下,欢迎来访。写得浅显,没有什么术语,主要是为了告诉大家语义技术并不高深,它最终可能像ajax一样是技术人员的一个辅助工具、是网站的一个功能亮点。
    本来已经传到slideshare上了,但那里转换模糊了,而且不知道如何加上旁白。所以就还是回归原始了:

What is a Semantic App?

什么是语义应用呢? 

是语义搜索吗?

是语义网吗?

这两个词儿说出来后,任何一个VC都要上下打量你好几眼,随时准备塞钱给你。

我们下面给出一个大家都看得懂的定义, 

大致的意思就是,试图理解文本和其他数据的意思,并为用户创建某种关联。

 

现在基本可以分为两种做法:

这是第一种,Bottom-Up 。

自下而上的研究方法。这是传统意义上的语义研究方向,真的是引无数英雄竞折腰。

也就是说,对现有的互联网的大量信息,进行注解,凭空在互联网之上构建一层知识体系,只不过这是给机器看的,试图让机器理解它们。这些注解以RDF和OWL这种结构化的东西来保存。

由于海量数据、人类语言的复杂性、以谁为中心、如何制定并推广标准的标准等固有的问题,所以我的基本判断是,这是一个大坑。搞语义网的兄弟们,对不起啦!

所以,今天我们不谈Bottom-Up的语义应用。

 

还有一种方法,是自上而下的。

什么叫做Top-down?

简单地说,就是选定一个特定的垂直语义应用,然后根据已有的互联网碎片,经过语义加工之后,通过一个面向消费者的平台给出结果。

这么说可能不容易理解。我们用最快时间稍微举几个国外的例子。

 

Powerset.com是一个传说中的杀手级应用。很少有人看到她的真面目。凭借语义搜索这个概念,没有任何产品出来的情况下,吸引了西方那些精英博客门的很多眼球,拿到了几千万美金的一轮又一轮投资。我申请了测试,但也还没拿到邀请。有人测试过,说目前还只是填空式问题,然后搜索。

Hakia的口号是,Search for meaing。她出来时间比较长了。测试效果也还不错。

这些都属于语义搜索的范畴。也算是Top-down的一个方向。

在中国,也有不少人凭借语义搜索的概念拿到了投资。譬如小i机器人的两千万美金,语义搜索的画饼功不可没。前不久,一个风险投资人也在会谈中问我,你们能改作语义搜索吗?呵呵。

我的基本判断是,第一,暂时看不到强烈的需求,当然有人说了,不能听用户的,要帮助用户发现需求。第二,这事儿吧几千万经不起花。语义搜索也是一个大坑。

Google最近也刚把一位顶尖高手从语义网的项目中调走,引得TechCrunch哀叹道:别指望很快看到google的语义搜索了。

 

     Kango.com是我最近一直在研究的网站。这是一个旅游指导网站。国外的旅游市场是一个繁荣的市场。作为最近几个月刚冒头的新网站,而且还没有公开运营,她提供什么差异化的东西呢? 

     Kango能按照个人的旅游需求或偏好,返回酒店和旅游活动的旅游搜索引擎。更重要的是,她可以帮助你安排旅游行程。

她分析了数以百万计的博客和社区文章,从中提取语义从而分析出人们口碑中的哪些酒店适合家庭出游或允许带宠物的,哪些旅游景点是浪漫的或者刺激的。

     我先插个小话题,语义说来说去,是要靠自然语言处理研究的,那么自然语言处理都包括哪些基本技术呢?不知道这个,可能不足以理解Kango的指导意义。 

 

两个核心问题,语言的自动理解(Language Understanding)和自动生成(Language Generation

前者从句子表层的词语符号串识别句子的句法结构,判断成分之间的语义关系,最终弄清句子表达的意思。

后者从要表达的意思出发选择词语,根据词语间的语义关系构造各个成分之间的语义结构和句法结构,最终造出符合语法和逻辑的句子。

 

回到Kango。

这张图是我测试以浪漫假期设定去火奴鲁鲁旅游的结果。

 

Kango最让人期待的是它主观的处理搜索结果的技术。Kango正在开发一个基于语义的旅游垂直搜索引擎(semantic search engine)。这个搜索引擎通过分析处理(parse)用户评论和旅游介绍中的文字/语言,然后产生tag把旅游目的地酒店景点分类。 “你不能坐等用户来加tag,你必须自己先产生一部分的tag。” CEO Yen Lee解释。所以,如果一个酒店在网上(例如Yahoo Travel,TripAdvisor,或者Yelp)被用户用“完美,“放松”,“夫妻”,“蜜月”或者“SPA“这些词语谈论道,它就会在一个”浪漫假期“的搜索结果中排名较高。 如果一个酒店和厨房“,”游泳池“ 或者”孩子“联系在一起,那么它在”家庭旅游“的搜索结果中排名就较高。

这样的技术是否能把用户从其他的旅游网站吸引过来,现在还是一个未知数。但是Kango的管理团队有着非常优良的”血统“。 Lee是Yahoo Travel 的前任总经理,公司的搜索架构师Huanjin Chen 曾任ebay的search architect,自然语言搜索科学家, Boris Galitsky曾经为英国政府工作;市场总监Elliott Ng, 是Intuit QuickBook的市场总监,以及上市公司Netcentvies的创始人之一。

 

面对大洋彼岸越烧越旺的语义之火,国内是个什么情况呢?语义应用到了什么地步呢?

我只说我了解的情况,大家要是知道更多请随时举手补充。

 

中国雅虎人际网络的人际关系计算。做起来其实蛮简单的。主要是实体词的准确提取,以及表达关系的词的词性判断,可以手工收集也可以自动训练机器。

大旗口碑榜的正面、负面经验的判断。做起来更简单。分类就搞得定。但是如果她的正面经验三条和负面经验三条,不是编辑手工作的话,那就属于语法分析的高手了。要知道截取帖子中的正面评价不是不可以,但机器截取的准确率是不高的。 

网易有道的判断博客男女,属于分类技术。

网易有道和搜狗对文字的判语,属于分类技术。

CIC监控网络对大品牌的舆情。

玩聚监控博客论坛新闻视频,自动找到热点,并把谈论此热点的博客论坛新闻视频都聚合到一个故事中。

宝聚监控财经论坛、门户、博客等等,统计市场各方对大盘对个股对基金的多空比例以及短线中线操作意见。

谢谢!郑昀 2007122

时间: 2024-07-28 18:27:39

语义的未来【OpenSourceCamp讲稿】的相关文章

【语义未来】Twine和Scoutlabs揭示的冰山一角

      wkcow早先提醒我注意这家叫Radar Networks的公司,说是语义世界中不得不重视的角儿.可角儿总是只听楼梯响不见人下来,就像啥也没见着就第一轮融资1250万美金的Powerset,打着自然语言搜索引擎的大旗N久,也只是9月17日宣布可以在它的实验室申请测试.    据这里的测评,还并不是真的输入自然的语句到搜索框,而是按照设定好的"填空式"提问,比如:who criticized (president bush)? 如:who beat/defeat ()? ..

互联网观察:解读RSS新闻聚合的未来

rss|互联网 [内容提要]正在日益流行的RSS现象,是一种微不足道的技术标准,还是能够深远影响互联网未来的发展? RSS在互联网上正在逐渐流行,对于这一现象,有人评价,RSS将是互联网发展的重要里程碑,伴随RSS技术的普及,将对互联网的信息传输方式产生巨大的影响:也有人认为,RSS并不是一种了不得的技术,对互联网的影响非常有限,对RSS过度关注是不必要的. 那究竟怎样对待RSS呢,它仅仅是一种简单的新闻聚合标准,还是未来互联网的发展趋势? RSS的来龙去脉 RSS最早是由NetScape定义的

互联网之父:未来互联网无所不在

互联网 1994年,文登·瑟夫博士入选美国<人物>杂志"最迷人的25人".作为一名科学家,这样的恭维让他惊诧莫名.他说:"我想不是我迷人,只是当时互联网太迷人了,我有幸沾光而已." 文登·瑟夫(Vinton Cerf)是了不起的科学家,图灵奖的得主,美国总统自由勋章的得主,Google的全球副总裁,但所有这些头衔加在一起,都及不上"互联网之父"来得荣耀.可是,每当有人以"互联网之父"相称时,他总是很认真纠正:&qu

EJB3.0新规范概览及其未来发展

规范 引言 期待已久的EJB3.0规范在最近发布了它的初稿.在本文中将对新的规范进行一个概要性的介绍,包括新增的元数据支持,EJBQL的修改,实体Bean模型访问bean上下文的新方法和运行时环境等等.作者还讨论了EJB在未来要作出的调整以及EJB3.0与其他开发规范之间的关系. 开始 无论如何由于EJB的复杂性使之在J2EE架构中的表现一直不是很好.EJB大概是J2EE架构中唯一一个没有兑现其能够简单开发并提高生产力的组建. EJB3.0规范正尝试在这方面作出努力以减轻其开发的复杂性.EJB3

互联网未来的10大趋势

今天一早发现Read/Write Web有一篇文章的标题非常吸引人,叫做<10 Future Web Trends>.忍不住读了一下.发现说的确实有道理.不过老外写文章,太深入细节了,我大致看了一下,觉得全文翻译太没意思了,于是总结精要如下: 语义化Web(Semantic Web) 任何媒质,包括图片.视频,都有相应的meta data,我们可以暂且理解为语义信息(如果你有更好的翻译方式,可以告诉我).通过这些meta data来标注具体的data,计算机能完成更多你想象不到的工作. 人工智

搜索引擎未来的发展都有哪些呢?

文章描述:搜索引擎未来的发展都有哪些呢? 去年有几个月到处求职,在sogou曾经被问到过这个问题,当时还是比较慌张的.主要是因为自己实际上已经几年没有接触搜索引擎这个行业了,虽然一些方法论能够帮助自己的思考,但实际上对于这个牛逼的朝阳行业来说,如果不投入其中是根本无法回答这个问题的.已经忘记了当时是怎么回答的了,好像是围绕着人工智能这个方向来回答的,我自己都不满意自己的回答,面试官估计就更不满意了.实际上当时我一边说人工智能一边脑子飞速的转动,期望以方法论能够得出一些方向来大谈特谈,最终我是啥都

百度:我们的语义搜索做的比谷歌好

谷歌近期推出新的搜索功能"知识图",它被谷歌成为下一代搜索的第一步.而国内搜索引擎百度声称这一功能对于百度来说已经不是什么新功能了,百度已经在2009年就开始涉足语义搜索了. 百度的国际媒体公关总监郭怡广在一份email中这样描述到:谷歌在做语义搜索的时候其实百度已经一直在做了,因为百度已经从2009年就开始推出阿拉丁平台,该平台基于百度网页搜索的开放的数据分享平台,广大站长和开发者可以直接提交结构化的数据到百度搜索引擎中,实现更强大.更丰富的应用,使用户获得更好 的搜索体验,并获得更

在未来时态下开发C++程序

好的软件能够适应变化.它提供新的特性,适应到新的平台,满足新的需求,处理新的输入. 新的函数将被加入到函数库中,新的重载将发生,于是要注意那些含糊的函数调用行为的结果:新的类将会加入继承层次,现在的派生类将会是以后的基类,并已为此作好准备:将会编制新的应用软件,函数将在新的运行环境下被调用,它们应该被写得在新平台上运行正确:程序的维护人员通常不是原来编写它们的人,因此应该被设计得易于被别人理解.维护和扩充. 这么做的一种方法是:用C++语言自己来表达设计上的约束条件,而不是用注释或文档.例如,如

HTML5是如何成为网页设计的未来的

  @陈子木 移动设备的大规模普及应用使得个人用户和企业用户对移动设备的依赖性逐步提高,这也使得相关的科技企业和开发者在近年不断强化B2B和B2C领域的技术支持.不仅仅是移动操作系统的前赴后继,移动设备也呈现出爆发式增长,这一切都必须归功于用户在渐渐远离桌面,拥抱移动互联网的趋势. 如果你正在寻找介入移动互联网的解决方案,那么HTML5可能就是你的菜.一次编写,到处运行的编程平台不仅仅是程序员和开发者梦寐以求的利器,同样也是混迹互联网的企业和个人都不容错过的有力武器.因此,HTML5值得你拥有.