如何找到Twitter上最有趣的中文用户

郑昀@玩聚锐推榜 20090222 (follow @zhengyun)

1、我要follow谁

    作为一个各种 memeTracker 工具制造者,我(@zhengyun)一直想知道Twitter上什么样的人值得follow、对我的胃口,当然他得是中文用户,说的事儿怎么着也得跟中国有点儿关系。

    我总结了一下自己的需求:

    1:发布频率至少一周一两次(follow 哪些一年半载推特一下的名人会不必要地增加全球碳排量,so,可以无视);

    2:相对来说,和我(@zhengyun)的Twitter以往历史比较接近。不要光凭followers多就推荐给我,譬如虽然@bookhotel拥有高达1,190个followers,但显然我不可能follow这个疑似Spammer的机器人;

    3:我已经 follow 过的就不必再向我推荐了;

    4:他/她/它的 Tweet 对我来说足够有趣。“有趣”,多么含混的需求啊。

2、Twitter 用户评价体系

    看上去我们需要一个 Twitter (中文)用户评价体系。

    followers/friends 的维度不足以作为这个 Twitter 用户是否有趣的判断依据,就像Google的PageRank不会单纯靠inbound links来判断网站是否有用一样。哪有什么依据呢?   

    譬如,你可以根据一个Twitter用户名被其他用户提及多少次来判断他的流行程度。当然,如果有一群用户拿Twitter作为群聊聊天室,那么这群人的名字(如@zhengyun)必然被常常提及,所以这个维度只能是复杂公式中的一个变量。所以这个维度要被你有多么个followers以及你推特的频率等维度呈正比地抵消。

    看上去,要估算出这么一个 Twitter 用户评价体系,比想象中的复杂哦。

    whoshouldifollow 貌似推荐的还不错,不过不知道它的技术细节,它只说是“finds interesting people to follow based on who your friends are, and who they follow.”。

    twellow 是依据你的Twitter Profile中的关键词来对你分类的;wefollow 应该也是类似原理,并且允许你在Twitter里发表格式化好的tweet来主动向 @wefollow 声明自己的标签和分类。它们俩的分类,也可以作为一个参考维度。

    Twitalyzer 的五项衡量指标倒是有指导意义,但毕竟我们不是为了评估某个Twitter用户的影响力,而是为了尽量准确地个性化推荐 twitter 用户。

3、Rank可以参考的变量

    这个需求要多少个变量来计算呢?我姑且列出一些供参考的老外统计方式:

    1:Ryo Chijiiwa的 TwitterRank (ZDNetMashable都给出了正面的评价)。

    2:可以统计你有多少时间浪费在 Twitter 上的 Tweetwasters 。

    3:可以给出某一个地区Twitter用户排名的 Twitterholic (只是根据Twitter中你设置的Location字段汇总的,排名因素是你的Followers和Friends数量)。

    4:Twitalyzer 给出的一个用户的五项指标。

    5:twellowwefollow对一个用户的分类和标签,假如有的话。

4、Rank可能涉及的变量

    据此,可以总结出一个公式,来帮你匹配到值得你follow的最有趣的中国Twitter用户。

    变量A : 仿照 Tweetwasters 给出的 your total tweets*30 seconds/per tweet ,用户消耗在Twitter上的时间。

    变量B: 用户的 TwitterRank 数值,Float类型。

    变量C : 用户的 followers 数量;

    变量D : 用户的 friends 数量;

    变量E : 用户被 retweet 的数量;

    变量F : 用户被人提及的次数;

    变量G : 用户的Location。系统应该自动映射不同的Location名字为一个地名。譬如,映射“北京”和“Beijing,china”为“Beijing”。

    变量H : 用户发言频率,即 your total tweets/timespan your account joined 。

    变量I : 用户 retweet 他人的次数。

5、公式

    略。

6、mashup一下

    看了上面列出的变量,你就知道,这注定是一个 mashup 应用,因为它所引用的数据都来自于其他站点,包括twitter

     

 

#附录A:

疑问1:

是否必须引入自然语言处理来判别Twitter用户的软分类呢?即判断用户的发言百分之多少科技成分、多少娱乐成分等等。而不只是像twellow 一样只根据用户Profile来计算分类。

这么做的好处:

可以按照分类目录寻找有趣用户;

更容易基于某一个给定用户推荐相似分类的用户群。

坏处是:

一条Tweet字数太少。分类未必会准。

疑问2:

是针对每一个发言做分类判别,还是针对所有发言呢?

需要测试看看。

疑问3:

需要对两两用户进行文本相似性计算吗?

不用这么复杂吧?

时间: 2024-09-11 18:15:47

如何找到Twitter上最有趣的中文用户的相关文章

值得在Twitter上关注的十位大数据专家

文章讲的是值得在Twitter上关注的十位大数据专家,乍看起来,在Twitter上寻找关于大数据的智慧似乎是种充满讽刺意味的建议.事实上,大多数普通消费者与企业用户都将Twitter作为一套数据生成的平台,由此提供的信息将作为分析的素材而绝非能够指导分析方案的参考. 然而Twitter确实承载着大量极具价值的大数据专业知识--前提是我们知道要在哪里找到它们.与其它社交平台一样,Twitter有时候同样嘈杂而毫无实际价值.如果再加上"大数据"这个时髦词汇,这里的混乱与繁杂又将上升到新的高

Twitter上 Docker和社区就容器格式标准化争论不休

本文讲的是Twitter上 Docker和社区就容器格式标准化争论不休[编者的话]Docker的容器镜像是否应该完全标准化?Docker是否应该在公开定义的标准化革新上退缩?这是最近Twitter上, Google公司的首席布道师Kelsey Hightower和Docker创始人 Solomon Hykes之间激烈争论的话题. Hightower 希望Docker的镜像格式是完全标准化的,这样 各个公司包括Docker自己,可以在标准定义之上构建附加的功能.而Hykes在全标准化上非常犹豫,他

SunCEO施瓦茨在Twitter上宣布辞职

Sun CEO施瓦茨在Twitter上宣布辞职 北京时间2月4日下午消息,据国外媒体报道,Sun CEO乔纳森·施瓦茨(Jonathan Schwartz)周三在Twitter上宣布辞职,并成为财富200强企业中第一个通过Twitter发布辞职消息的CEO. 上周甲骨文完成了对Sun的收购,就有传言称Sun CEO将辞职.本周三晚上施瓦茨在Twitter上用"俳句"写了一个tweet消息,宣布离职决定.他写道:"金融大危机/耽误太多客户了/辞去CEO." 施瓦茨喜欢

Evleak在Twitter上发布公告,他要告别了

摘要: 过去两年里各大公司的旗舰智能手机几乎都是被这个汉子发布的,包括三星的曲面屏幕手机Galaxy Round,Moto X的木质后盖和360智能手表,HTC One Max还有4100万像素的诺基亚旗舰被命名为Lum 过去两年里各大公司的旗舰智能手机几乎都是被这个汉子发布的,包括三星的曲面屏幕手机Galaxy Round,Moto X的木质后盖和360智能手表,HTC One Max还有"4100万像素的诺基亚旗舰被命名为Lumia 1020",都是evleaks告诉我们的. 但是

evleaks在Twitter上宣布退役,从此江湖再无爆料大神

摘要: 过去两年里各大公司的旗舰智能手机几乎都是被这个汉子发布的,包括三星的曲面屏幕手机Galaxy Round,Moto X的木质后盖和360智能手表,HTC One Max还有4100万像素的诺基亚旗舰被命名为Lum 过去两年里各大公司的旗舰智能手机几乎都是被这个汉子发布的,包括三星的曲面屏幕手机Galaxy Round,Moto X的木质后盖和360智能手表,HTC One Max还有"4100万像素的诺基亚旗舰被命名为Lumia 1020",都是evleaks告诉我们的. 但是

数据之美(八):Twitter 上的 140 个最有影响力的人

2006年3月21日,Twitter 创始人 Jack Dorsey 发出了第 一则 Twitter 消息,引爆了这个宇宙般扩张的社会网络.4年来,Twitter 的影响力越来越大,各色人等纷纷入驻,他们连同追随者构成了宇宙中的一个个星系.Information Architects 以 Infographics 方式,展示了 Twitter 上的 140 个最有影响力的人. 这幅 Infographics 图模拟了一个巨大的星系,Twitter 创始人 Jack Dorsey 是星系的核心,T

怪事,uploadify上传文件时,能在页面上任何位置输入中文。

问题描述 uploadify上传文件时,能在页面上任何位置输入中文.jqueryeasyui+uploadify,先在页面任何地方点下,上传文件,同时输入中文.页面任何地方都能输入.有人遇到过吗?怎么解决的? 解决方案 解决方案二:没看明白....截个图看看解决方案三:如图:解决方案四:解决,onselect的时间,把焦点定到一个输入框,就这样吧.解决方案五:引用3楼yufan27209的回复: 解决,onselect的时间,把焦点定到一个输入框,就这样吧. 解决了就好我刚刚才看到我用uploa

XMOVE3.0手持终端——软件介绍(五):在2KB内存的单片机上实现的T9中文输入法

编者注: X-MOVE是作者在业余时间于2010年6月份启动的以运动传感开发,算法和应用的平台,目前已经发展了三个版本,第四版的开发接近尾声.发布在博客园仅为交流技术,不存在商业目的,作者保留一切权利.   一. 综述      所谓T9,指的是在手机上广为流传的九宫格输入法.中文输入法大家每天都在使用,那么多大的空间才能承载一个输入法呢?搜狗安装包已经20M了,手机版本的也有2M.但我会告诉你,实现中文输入法仅需要14KB的存储空间和不到100byte的内存.虽然没有联想,并只支持拼音,但已经

诺基亚刚刚在官方Twitter上贴出一款神秘黑盒子的照片

摘要: 今年4月微软以72亿美元收购诺基亚手机业务一事收尾后,在2016年Q4之前后者都不能把诺基亚这个牌子用在手机上,但其它硬件是可以的. 诺基亚刚刚在官方Twitter上贴出一款神秘黑盒子 今年4月微软以72亿美元收购诺基亚手机业务一事收尾后,在2016年Q4之前后者都不能把"诺基亚"这个牌子用在手机上,但其它硬件是可以的. 诺基亚刚刚在官方Twitter上贴出一款神秘黑盒子的照片,盒子表面有NOKIA字样.诺基亚官方称,答案将在11月18日于芬兰举行的"初创企业研讨会&