分析人的网络轨迹和碎片之四大模式

郑昀  20090830

人,尤其是活跃的互联网用户,都会在互联网上留下很多碎片,这些碎片也许是他自己产生的,也许是来自于新闻媒体,也许是来自他的互联网好友。这些碎片之间,通常会有某种联系。

自动收集这些碎片,可以从中拼凑出一个关于这个人的视图。理论上,可以自动建立一个知识库,像 Wikipedia 一样。

下面我们列出国际上通行的四个模式。

一、基于Email地址的用户数据自动聚合模式

Spokeo 可以根据输入的Email地址(比如遍历你的Gmail所有好友),从以下知名或不知名的Web2.0服务找到邮箱所对应的用户几乎所有公开数据:

Amazon、Blogger、Digg、Facebook、Flickr、Last.fm、LinkedIn、MySpace、Stumbleupon、Twitter、PhotoBucket、Picasa、Windows Live Spaces等等。

我试验过,在不付费的情况下,还是可以看到一部分GMail好友的常见Web2.0服务上的数据,照片居多。但老实说,在中国做到这一点不容易,要求用户始终用一个Email地址注册各种服务,而且这种数据实际上很难从服务提供商那里拿到,只能去hack。

二、基于语义分析的实体关联模式

本模式通常是分析可靠的文字数据,比如新闻资讯,尤其是来自于权威新闻网站。

如果文字来源不可靠,那就意味着你要做大量的工作去噪了,最常见的就是语法错误或者拼写错误。比如 中国雅虎人际关系 收集的语料,如果还包括论坛或博客写手的文章,那么就会被逼着写代码来矫正大量的语法不通顺、成堆的错别字。

它的主要原理还是收集整理以下数据:

实体名称专用词典(人名、地名、组织名);

实体名称在句子中出现时常见的联接词(动词、形容词、名词),尤其是描述关系的名词,比如“谁的女朋友谁”中的“女朋友”,“谁除了老搭档谁外,” 中的“搭档”。简单的做法是寻找两个实体名前后距离最近的、能表述关系的词,根据预先设定的词语权重,决定这句语料要表达的是什么“关联”。

再复杂的考虑就是如何解决“重名”,比如叫李伟或王伟的人太多了。

但说到底,这种模式还是通过实体识别和模式匹配,找到公开的权威资料中实体之间的关联,通过统计以及后期加工,得到的一个人际关系知识库。

中国雅虎的人际关系就是这么一个产品,请点击“刘德华_雅虎人物搜索 ”和“刘德华的人际网 ”查看。微软亚洲研究院的人立方 亦如是,请点击“陈·希·同和陈小同 ”查看。

Evri  最开始面世时,不单单能够看到一个人和其他人之间的关联远近和关联资讯,还可以按照人与人之间的动作做查询,比如你可以查询都有谁赞扬过MJ,查询Obama都批评过哪些机构,或者Obama对希拉里·克林顿都有过哪些情感表述。这都表明 Evri 对实体之间的语义处理达到了炉火纯青的地步。你可以进一步阅读我的文章《情感分析方向近况·0908 》了解 Evri 。请点击 “MJ ”查看。

Google 在前几年推出的 “In Quotes”  能够自动罗列你所选择的两个政治人物对某些关键问题的表述,比如默认的Obama和McCain。这个可能稍微简单些,因为它并不需要分析政治人物之间的关联,也不需要分析人和物之间的关联到底是什么,只需要优选罗列即可。

三、基于语义分析的特征抽取模式

本模式的主要目的是分析给定用户名的行为特征,试图用某些预置的模式去涵盖或描述该用户。

基于此模式所得到的结果,可以帮助某些系统更好地理解用户,从而可以做到个性化推送。

这个模式更像是自然语言处理中的“自动分类”之“软分类”。

MIT出品的 http://personas.media.mit.edu/  ,它利用自然语言处理技术,收集足够多的数据,期望成为一个online persona creator。
比如你输入一个人名,它能尽可能地找到线上数据,以便特征化这个人,最终生成这样的一张图:

personas 计算过程的动画展示比结果更有意思,
毕竟靠语义技术寻找人的互联网轨迹和碎片并拼接出人的特征,出错率太高,即使是对名人都如此,何况普通人。
personas 计算完毕后,你很难估计这个结果到底不靠谱程度有多大,只能通过看中间计算过程显示的那一篇篇语料来估摸。
有兴趣的人可以在 http://personas.media.mit.edu/personasWeb.html  输入isaac mao,shizhao,zuola等名id测试。

四、基于Social关系的连接分析模式

这个模式的初级阶段,其实有无数的服务都曾做过,也就是根据一个Social Media服务的好友关系,绘制出一个大节点图,画出几乎所有人之间的关系。

Twitter上的这种服务有:

http://twitnest.appspot.com

http://twitter.mailana.com/

实际上利用Social Graph 的数据也可以绘制出类似的连接图。

以上都是尽可能利用公开的、权威(或可靠)数据,来可视化或结构化一个人的线上数据。

郑昀(follow zhengyun) 北京报道 20090830

时间: 2025-01-23 16:47:03

分析人的网络轨迹和碎片之四大模式的相关文章

广东省30人中就有1人参与网络创业就业

本月22日,广东200万网络就业创业者收到了一条振奋人心的短信---中共中央政治局委员.省委书记汪洋,省长黄华华通过广东移动红段子平台发送新春寄语红段子,鼓励他们网络淘金,创业成功.按我省劳动人口计算,约30人中就有1人参与到了网络创业和就业中.截至昨日,很多收到新春寄语的就业创业者通过红段子平台.网站等方式回复的信息超过了十多万条,这一数字还在不断增长中.已经从事网络创业就业的人则希望政府下一步能推出更多惠及该领域的配套政策,以扶持网络创业的进一步壮大. 省委.省政府积极表态鼓励网络就业创业

《OSPF网络设计解决方案(第2版)》一2.8 案例分析:OSPF网络的构建和收敛

2.8 案例分析:OSPF网络的构建和收敛 OSPF网络设计解决方案(第2版) 之前的两个案例分析回顾了链路状态数据库以及它的建立过程.本节将通过新的案例分析来讨论本章之前已经介绍过的一些概念,除此以外,本节还将讨论如何构建一个简单的OSPF网络以及网络的收敛. 假设 MatrixNet 是一家专注于影视特效的高科技动画公司,并想要在其核心网络内实施 OSPF.该公司的核心网络内拥有三台通过以太网相互连接的路由器,如图2-19所示. 在本节案例中,你需要在3台Cisco路由器上配置OSPF.但必

《OSPF网络设计解决方案(第2版)》一2.6 案例分析:为网络添加一台新的OSPF路由器

2.6 案例分析:为网络添加一台新的OSPF路由器 OSPF网络设计解决方案(第2版)本节案例分析所提供的情景涵盖了本章所涉及的大部分信息内容.情景中,假设你需要为网络添加一台新的 OSPF 路由器.这里的案例分析详细地阐述了添加一台新的 OSPF 路由器到网络中会对当前网络产生哪些影响.以下是对添加新的路由器到网络中将发生的事件的顺序描述,你可以对照图2-12到图2-15,以便更加直观地理解这一过程. 1.一台新的OSPF路由器被添加到网络中. 2.新的路由器立即使用代表所有OSPF路由器的多

不少人在网络上晒自己的春节花费

春节已过,上班族陆续上班,学生陆续返校,不少人在网络上晒自己的春节花费,在感叹旅游被宰.红包涨价的同时,也开始了2012年的新年计划,期望新的一年能够万事顺利.钱包鼓鼓. 软件名称:卡巴斯基反病毒软件2012软件版本:12.0.0.374(Patch C)软件大小:143.89MB软件授权:共享适用平台:Win9X Win2000 WinXP Win2003 Vista Win7下载地址:http://dl.pconline.com.cn/download/54355.html 想要实现2012

90后站长分析企业开展网络营销工作的好处

中介交易 SEO诊断 淘宝客 云主机 技术大厅 根据笔者介入网络营销行业的时间分析企业开展网络营销工作的两种好处: 如今是互联网的时代,一个企业只想通过传统的方式为自己的产品与服务做宣传是远远不够的,只有让企业通过网络打开市场局面才有利于带动整个企业的发展趋势,笔者对网络营销的理解就是,网络营销是企业或个人在网络上开拓市场的一种渠道,并不能把网络营销当做企业开拓网络市场的工具,如果把网络营销与企业结合的恰到好处,那么这个企业日后的发展方向是不可估量的,下面是笔者认为网络营销可能对企业发展带来好处

分析各种医疗网络营销运行模式利弊

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 之前琛琛写了一篇<浅析医疗网络营销之路还能走多远>,有一位做医疗的朋友加了我的QQ,一起讨论了一个问题,那就是以目前的医疗网络营销的运行模式来讲,不同的医疗网络营销的运行模式有什么利弊?其实,不同的运行模式都有自己的营销特点,下面,琛琛来分析各种医疗网络营销运行模式利弊. 第一种:医疗企业单独的外包给网络公司. 这应该是现在最常见

调查称超半数人看好网络春晚取代央视春晚

从2002年网络春晚出现雏形至今已进入第9年, 54.1%的 网友赞同今年是真正的"网春晚"元年 2010年1月1日,"山寨春晚"发起人老孟,在北京soho尚都举办演员选秀活动,为今年的山寨春晚遴选节目.演出现场,观众手持牌子参与对每个节目的评判. 吕家佐摄 "没看网络春晚,你就out(落伍--编者注)啦!" 春节后上班第一天,李小佟的QQ群就响个不停,大家都在群里讨论网络春晚.趁着工作间隙,她赶紧点开几个链接"补课",每个节

给美国人讲网络的“故事”

摘要: 美国的Facebook堪称社交网站的鼻祖,但全球第一家上市的社交网站,则将是中国的人人网.4月15日,人人公司向美国证券交易委员会提交招股书,并拟于5月4日在纽交所上市,股票代码为 美国的Facebook堪称社交网站的鼻祖,但全球第一家上市的社交网站,则将是中国的人人网.4月15日,人人公司向美国证券交易委员会提交招股书,并拟于5月4日在纽交所上市,股票代码为"RENN".人人公司的上市,将中国网络公司的第四波境外上市潮推上了高峰. "2000年互联网公司就已经很火,

说说个人针对人与网络营销的思考

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 人是具有智慧生命的,网络呢?其实网络也是具有生命的,网络跟人一样无时无刻在变化发展,做网络营销也一样,必须根据实际情况而变化,每个年龄段有每个年龄段适合的网络营销方式,充分将人与网络营销结合到一起,发挥出人的最大主观能动性. 年轻人有朝气与活力,精神旺,这样的话年轻人在网络营销中就可以利用QQ群来进行自己的营销,善于交流的年轻人,善于沟通.活