实时Web数据的实时分析

郑昀@玩聚SR 20100306

    Real Time Web大多指对Twitter为首的微博客海量数据进行快速索引,搜索结果实时滚动显示。快速索引,比拼的是索引多久更新一次,5分钟、1分钟乃至10秒,比如对任意输入的查询关键词,都能看到1分钟内发布的微博客消息(微博消息足够短,有机会快速索引)。

    但是实时分析就不那么容易了。实时分析大致有几种:

  • 趋势分析:不同网站对查询关键词每日提及次数变化趋势。Ubervu做得不错,如Chile
  • 热门链接分析:把关联结果中相对热门、相对重要的链接挑出来,单独展示,可以按时间排序或按重要性排序。OneRiot比较擅长这一点,如搜索Chile。热门链接的甄选一般都是依据Twitter等微博客消息的链接分享次数。
  • 语义分析:
    • 情感趋势分析:即Sentiment analysis 或 opinion mining。Big Event这一点做得也不错,诸如:美团网页面左侧的王兴饼图,韩寒PK刘谦中的刘谦和韩寒两个饼图。ubervu则对每一个conversation都做了情感分析,并画出了情感变化趋势曲线。
    • 关联分析::
      • 与此查询关键词有关联的其他搜索建议词
      • 关联的或相近的Topics或者叫做Entities:这个DaylifeEvri做得都不错。

 

    除了OneRiot外,下面再举两个实时分析的Real Time Search Engine网站:

一、ubervu的启示

    ubervu自称是Real-time Social Media Analytics,颇有一些功能。 

1、

把某一个关键词下的数据整合为一堆Conversations,蛮有意思的。其实也就是找到关联资讯中的许多热门链接,然后把推荐过和评论过核心链接的信息条目称为N people discussed the story,整个story就称为Conversation,其实就是热门链接推选。

这样确实能够把关联资讯中的噪音去除,并且让相对更重要的资讯排在最前面。和OneRiot是一样的。

2、

它还可以在每一个story中进行情感趋势分析,但需要付费成为会员才可以查看。估计是计算整体趋势,个人认为这种统计方式很不靠谱。我一般都强调针对“锚”计算情感趋势,否则无的放矢,易于失真。

3、

它可以给出关联资讯中不同social sites占多大比例,并针对不同sites画出不同的提及次数趋势曲线。

意义不大。但也算是一种观察维度。

 
Original Image

 

二、Ellerdale的启示

    ellerdale trends处理的数据是海量的,Twitter、Wikipedia、还有许多各种类型的数据源。Ellerdale宣称擅长快速索引high-volume data feeds,其中一个数据源就是Twitter的firehose。为此他们开发了一个容错的分布式数据库。

    它不仅仅是搜索引擎,它的语义引擎创建了一个话题数据库(它能检测到哪些是Topic,它甚至有这样的Topic:United States Senate 和 United States presidential election 2008),并把Topic划分为people、sports、films、politics等分类。

    它和ubervu一样,都能提供up-to-the-second的分析能力(即基于搜索数据之上的实时分析),几乎没有滞后。

    你会发现它和ubervu都有一个共同的目标:试图更快更好地理解the information and opinions that people are sharing。

 

Topics包罗万象

    对于一个机器自动检测出来的topic,比如Jessica Alba,将进入topics分类列表,它的页面会依次列出:

  • Wiki的条目解释:提供一个条目解释。同时还会列出N个Wiki的链接,如Freebase、Wikipedia等。而且对于不同领域的人物,链接类型会不同。如好莱坞明星,会列出几个知名电影网站的人物条目链接。比如政治人物Sarah Palin会列出她的Twitter帐号链接。对于John McCain甚至给出了纽约时报的人物链接和他的两个官方网站链接。
  • 关联的其他topic:比如Halle Berry,大致是同一领域的人、组织等。
  • message stream:这主要是twitter数据流。缺点是没有合并重复,甚至是没有合并同一个id发出的重复消息,导致某一个id刷屏。
  • message history:一个曲线趋势图。
  • top articles:关联资讯。会标明Rank级别。以及有几个mentions,可能指的是Twitter中提及此链接的次数吧。貌似Rank和Mentions次数之间有正比关系。

分类频道的榜单模式

    Live Trending会列出某个领域的Top Ten人物,每一个排名都会列出三个Topic,如Films的。

    每个Topic右侧都会列出一个数字,如:3,647 mph,貌似是指每小时有多少条关联articles或messages。

对于Topics的聚合、整理和分析,不少语义应用都做过,比如说:

Daylife的Connection Engine,如伍兹,如Johnny Depp

Evri,如史蒂夫乔布斯,如iPad

 

郑昀@玩聚RT 北京报道

参考文献:

RWW的《Beyond Twitter Search: Semantic Analysis of the Real-Time Web》;

Kosmix的《Web 3.0 and Semantic Search》;

郑昀的《[语义]情感分析方向近况·0908》。

时间: 2024-09-20 05:48:41

实时Web数据的实时分析的相关文章

采用ngxtop实现nginx实时访问数据统计_nginx

对于nginx的实时访问数据统计可采用ngxtop实现监控web server的访问情况 .ngxtop 允许你对 NGINX 的访问日志 (access log) 进行实时解析, 并输出类似 top 的有用信息. ngxtop 是 python 脚本安装包,需要python支持. 对于python的包和库文件我们一般喜欢pip管理,没有安装的可以: wget https://raw.github.com/pypa/pip/master/contrib/get-pip.py python get

实时Web与WebSocket实践

为什么实时Web这么重要?我们生活在一个实时(real-time)的世界中,因此Web的最终最自然的状态也应当是实时的.用户需要实时的沟通.数据和搜索.我们对互联网信息实时性的要求也越来越高,如果信息或消息延时几分钟后才更新,简直让人无法忍受.现在很多大公司(如Google.Facebook和Twitter)已经开始关注实时Web,并提供了实时性服务.实时Web将是未来最热门的话题之一. 实时Web的发展历史 传统的Web是基于HTTP的请求/响应模型的:客户端请求一个新页面,服务器将内容发送到

快速了解Druid——实时大数据分析软件

Druid 是什么 Druid 单词来源于西方古罗马的神话人物,中文常常翻译成德鲁伊. 本问介绍的Druid 是一个分布式的支持实时分析的数据存储系统(Data Store).美国广告技术公司MetaMarkets 于2011 年创建了Druid 项目,并且于2012 年晚期开源了Druid 项目.Druid 设计之初的想法就是为分析而生,它在处理数据的规模.数据处理的实时性方面,比传统的OLAP 系统有了显著的性能改进,而且拥抱主流的开源生态,包括Hadoop 等.多年以来,Druid 一直是

linux下实现web数据同步的四种方式(性能比较)_Linux

实现web数据同步的四种方式 ======================================= 1.nfs实现web数据共享2.rsync +inotify实现web数据同步3.rsync+sersync更快更节约资源实现web数据同步4.unison+inotify实现web数据双向同步 ======================================= 一.nfs实现web数据共享  nfs能实现数据同步是通过NAS(网络附加存储),在服务器上共享一个文件,且服务器

实时Web不只是时尚 更是技术趋势

随着社会化互联网热潮的到来,实时web越来越受到大家的重视.一方面从业务场景角度而言,消息实时通知大大提高了系统的友好性:另一方面从性能角度而言,新数据由服务端自动推送,而非用户自动刷新页面获取,大大减轻了服务器压力. 国外媒体近日发表文章称,实时Web并不只是一种时尚,而是一种技术趋势.将来,实时技术将成为一种默认技术,也将越来越平民化,不是只有谷歌.Facebook和Twitter这种大咖才能玩得起. 以下为文章内容摘要: 实时Web并不只是一种时尚,而是一种技术转移--即时访问Web. 实

干货分享:企业大数据的实时分析之路

近日,"2016易观A10大数据应用峰会"主论坛"大数据基础框架设计-实时分析技术平台洞察与实践"上,易观CTO郭炜发表了"企业大数据的实时分析之路"的主题演讲,从技术角度给大家讲述如何用实时分析帮助企业进行数据运营. 以下为演讲实录及PPT: 郭炜:各位嘉宾,各位领导,各位技术的小伙伴们,早上好! 非常荣幸今天站在这里和大家分享一下我们易观对于实时分析技术的一些理解.其实昨天于老师也曾经讲过,我们的实时分析会助力我们的用户资产增长,究竟什么是实

大数据和实时分析的算法分类

如今,大数据技术的发展和进步开辟了收集和传输大量的数据更有效的新方式.这场革命促进了实时算法和方法的研究和发展.传统上,机器学习算法并不是专为实时处理而设计的.事实上,数据的科学竞赛(如Netflix,Kaggle)由于算法昂贵,并且不切实际的使用,并且计算量很大,这往往屡受诟病.这是植根于感知的准确性是更重要的,该算法的速度作为原始设置的数据挖掘是离线的,往往是分批计算.大数据的出现使其开始有了改变,随着越来越多的算法涌现,对一个可扩展的方式重新考虑.大多数时间的可扩展性,单独不妥协的算法的准

使用 HTML5 WebSocket 构建实时 Web 应用

在 IBM Bluemix 云平台上开发并部署您的下一个应用. 开始您的试用 作为下一代的 Web 标准,HTML5 拥有许多引人注目的新特性,如 Canvas.本地存储.多媒体编程接口.WebSocket 等等.这其中有"Web 的 TCP "之称的 WebSocket 格外吸引开发人员的注意.WebSocket 的出现使得浏览器提供对 Socket 的支持成为可能,从而在浏览器和服务器之间提供了一个基于 TCP 连接的双向通道.Web 开发人员可以非常方便地使用 WebSocket

android是如何接受web数据的呀

问题描述 android是如何接受web数据的呀 最近在做一个项目,要求android从sqlserver数据库接受数据.已经成功把数据发布到网上,从网上找到相关代码,也能稍微理解一下,但是为什么就是接受不起来呢 不明白到底具体android是如何接受web数据的 下面是代码 package com.example.test2; import android.app.Activity; import android.os.Bundle; import org.json.JSONArray; im