[答网友问]传播和抽样

郑昀 20110306

集中回答一下网友对互联网信息监测的提问。

 

对于社区化信息挖掘、互联网海量信息挖掘,抽样是被迫的,但它仍然是一个好方法。

1.为什么被迫抽样?

    即使是针对Twitter,做消息监控也是抽样
    也就是说,但凡是没有权限调用FireHose API(即Streaming API,参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2010/06/22/streaming.html ),拿不到全部数据,一定是抽样。
    从统计学角度,抽样到一定量级,是可以涵盖全部热点的。

    互联网热点追踪,本身就不可能做到全面覆盖,毕竟你公司又不是Google,即使是Google,它也监控不了Facebook。
    而且做互联网数据挖掘,也不需要抓取到所有数据。参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2009/08/31/1556966.html 。

 

2.少量数据上也可以做特征提取

    关于数据抽样这方面,可以参考郑昀的文章:
http://www.cnblogs.com/zhengyun_ustc/archive/2009/10/27/1590805.html
其中有段话:

在语义的世界里,可以近似地说:万事万物都是特征提取。

你只要找到特征,事情就好办。

如果你找不到明确的特征,那么什么样的机器智能也无法准确地帮助你。

多数时候,唯一的麻烦在于,你所认为的特征,实际上不是特征。。。

    如果你没有成为新浪微博的官方合作伙伴(不仅仅是应用获得审批的开发者),那么搜索接口你是调用受限的,但至少1、2分钟调用一次是可以的,所以只要你不是大公司的人,一定拿不到微博转发行为的90%数据,你只能在10%数据上做文章。

 

    根据传播学原理,热点追踪只需要在传播节点上做拦截即可。这也就是玩聚SR的设计原理,参考郑昀的文章:http://www.cnblogs.com/zhengyun_ustc/archive/2011/02/05/aboutidea.html ,不需要全网抓取论坛、博客、微博的帖子,只需要在收藏、网摘、RSS阅读器、Twitter等传播节点上追踪大家分享、推荐、收藏、转载的链接和文字即可。

 

抓新浪微博或国内微博的人,基本都是几条腿走路:

  • 一条腿,调用官方API,保证抓取频率不超过对方限制;
  • 第二条腿,通过模拟登录,对搜索微博的网页进行翻页,也保证抓取频率不要过高。

为什么是两条腿走路呢?

  • 第一,因为国内微博的微博搜索html样式变化过好多次,那么调用API就可以保证随时都有数据在抓,不会有遗漏;
  • 第二,双向保障,由于新浪微博对登录用户搜索次数也有限制(主要是针对用户名的,而不是封你IP地址),所以新浪微博模拟登录通过搜索页抓取微博消息,频率不能太快,那么两条腿走路,就可以尽量多地抓取到数据。

 

关于特征抽取,你可以搜索以下关键词配搭:
二元组+语义
三元组+语义

3.处理数据的套路

套路一:
数据抓取-->信息抽取-->数据清洗-->元数据提取(分词、提取标签、提取实体、信息指纹、分类等)-->元数据入库(如MySQL)(原始数据可以抛弃)-->统计(包括层次聚类、针对实体的情感趋势分析等)-->展现。
套路二:
数据抓取-->信息抽取-->数据清洗-->信息指纹提取-->数据存入NoSQL DB中(如MongoDB)->做map/reduce-->NLP后续处理-->统计-->展现。

 

4.是语义还是统计学?

    由于我们玩聚网的创建人之一是统计学科班出身,所以我们基本都是从统计角度出发思考特征提取。包括情感趋势分析(Setiment Analysis,简称SA),也都是走统计路,虽然我们也会计算否定句、否定之否定、疑问句等常见句式,但后来我慢慢认为我们做的不是语义应用,只能说是自然语言处理应用或数据挖掘应用。我们常说的所谓“机器智能”,哪怕是“机器学习”,也只是在词频啦、权重啦、TF/IDF啦、重复次数啦、各种影响因子啦等上面做做文章,距离机器理解文章内容还远的很哪远的很。

 

郑昀 北京报道

 

赠图一枚:

 

我的最新推特:

1、

历史杂志上讲周润发同学在从无线艺人培训班毕业后,每天收拾干净利落就守在公司电梯处,见人就问早安,很快有些监制就开始打听这个小伙子是谁了。周润发有天赋又有巧劲,从龙套演员到剧集主演只用了两年。

2、

才知道知乎( http://www.zhihu.com/ )是用 Python 开发的。实时的消息提醒应该是用friendfeed出品的Tornado。但前台到底是用Pylons还是Django开发的呢?

3、

meme是常用描述流行基因的词。在互联网上用它多半是指挖掘流行趋势监测大规模传播。所以较早的techmeme、rssmeme,中期的tweetmeme、srmeme、rtmeme,都属于memeTracker应用。我2006年写文章介绍过:http://is.gd/nuGAdC

时间: 2024-08-07 15:21:06

[答网友问]传播和抽样的相关文章

腾讯答网友问:卸载QQ的包月用户免收当月费用

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 11月4日早消息,针对在装有360软件的电脑上停止运行QQ软件一事,腾讯在新浪微博和其网站上发表"腾讯公司对于QQ用户疑问的解答"一文,对"QQ怎么知道我的电脑装了360"和"腾讯会对用户作出赔偿吗"等问题解答网友的疑问. 腾讯称,对于卸载QQ的包月用户,可以通过电话热线联系客服确认

雷军答网友问:取消小米4的NFC功能因为用的人太少

凤凰数码讯 7月30日消息,小米公司CEO雷军独家对话凤凰数码,针对网友们的热点问题,雷军做了详尽的解答.小米公司CEO雷军比较值得注意的是,针 对大家比较关心的4G版本小米4,雷军表示延迟推出的原因并非技术上存在瓶颈, 而是在策略上的一些考虑.他表示,运营商的4G网络真正开始普及是在今年的6月,在6~9月这段时间内推出4G版小米4并不会错失这次机遇.对于近期网络上曝出的黑色版本掉漆问题,雷军则表示自己正在使用,并没有出现类似的问题.下面是本次雷军针对凤凰数码微博网友问题的回答实录:1.@Mr言

答读者问总结 & 微信群欢迎你

在<大学里最重要的七项学习>这篇广受在校学生欢迎的文章中,李开复老师说:就读大学时,你应当掌握七项学习,包括自修之道.基础知识.实践贯通.培养兴趣.积极主动.掌控时间.为人处世. 确实,在校时光是一个人一生中最美好的时光,在校园里面,大家不用为生计发愁.不用为世俗所惑,可以尽情在知识的海洋里攫取自己感兴趣的东西.如果四年时光能够规划并利用好,那么大学必将成为一个人事业发展的起点,在大学里面的所学必将让自己受益终身. 但是,"迷茫"充斥着整个校园,在这个自由的环境下,很多人失

答读者问(21):一个研二学生有关论文的相关疑问及答复

         最近,我在博客上收到一条私信,内容如下:          您好,我是XX通信专业的一名研究生,现在研二,刚刚开会又被老板骂了,唉,他说我不应该从理论开始再去实践,而是从实践开始再去找理论与之相配,简单点说就是,先分析一篇代码再在上面修改编程,然后再以理论来说明,这样的逻辑对么?          因为我看到你的一篇博客<再见,南邮!别了,南京!>上面有写到看了超过100篇的论文,写出的论文EI检索,SCI,所以我想也多看些论文才能想出创新点吧,于是我就看论文,可是老师又说我

答读者问(17):一个在读女硕士有关实习及如何进入企业的相关疑问

       最近,我收到一位研究生的邮件,内容如下:        学长你好!         我是一名现在在XXX读XXX的学生,我本科在国内一所211工科院校读通信工程专业. 在你博客中答读者问的栏目,有些对我很有启发,比如16号的女生如何进入IT行业一文,你指出了女士从事IT行业的一些方向. 现在我也有些疑惑,非常期待听听你的看法和建议.        因为本科读通信工程专业,接触一些通信方面的理论.        微积分.数学物理方法等理论方面学得很好,电磁场理论.电路分析.信号与系统

发改委答记者问:中国将于2018年前建成国家政府数据统一开放门户

中国国家发展改革委有关负责人日前表示,2018年以前,中国要建成国家政府数据统一开放门户,推进政府和公共部门数据资源统一汇聚和集中向社会开放. 国务院日前印发<促进大数据发展行动纲要>.发展改革委有关负责人说,中国将加强数据资源的国家统筹管理,优先开放相关领域数据.加快建立政府数据资源目录清单,在摸清政府数据家底的基础上,按照"增量先行"的方式加强对各部门数据的国家统筹管理. 相关答记者问内容文摘一并放在下文展示: 近日,国务院印发<促进大数据发展行动纲要> (

答读者问(24):一个大二学生有关数据结构学习的疑问及答复

       最近,在V众投上有一个标题为"最近学习数据结构陷入了死循环大脑一片空白"的问题(http://www.vzhongtou.com/question/744),具体内容如下:         大一下学期学历c语言 学了半吊子 大二一开学就开始讲数据结构 没学过汇编啥的 我知道c语言的指针很重要就复习了指针现在对指针有所了解 老师讲课是一星期讲两节大课 一大章一节讲课一节上机 只讲伪算法 现在讲到树了感觉太抽象了完全搞不懂 本人数学基础比较薄弱 另外感觉自己的逻辑和抽象思维有

假冒军人“总参一姐”被拘5天 网友问惊动二炮女兵呢

今日,国家http://www.aliyun.com/zixun/aggregation/5742.html">互联网信息办网络新闻协调局发布消息:冒充女军人的网民"任婕"已被查获,当事人任某某被公安机关依法处以行政拘留5天的处罚.此消息再次引发了网友热议,有网友问"美的惊动了党的二炮女兵没下文了吗?" 据了解,网民"任婕"在腾讯网注册微博客账号,自称是总参"特种大队高级指挥官"."北京军区某领导的养

《MacTalk•人生元编程》一一2.2 独自在家续篇兼答读者问

2.2 独自在家续篇兼答读者问 很多人没事就抱怨北京的空气,但是懂得变化的人会知道,何时赞美,何时吐槽. 总结一下,北京的空气变化大概是这个样子: 在月黑霾浓的深夜,伸手只见五指,这时一个叫做"大风"的环保工作者出现了,经过一夜激情,第二天阳光明媚,天蓝云白,PM2.5指数50,朋友圈多了很多蓝白之物.你极目远眺,蓝天和大地的交界处有一层透明的薄雾.第二天,深蓝变浅蓝,天地间的白雾变为灰色,PM2.5指数70.第三天,浅蓝变灰白,天地间夹了一层薄薄的雾霭,PM2.5升到120左右.第四