国内最强悍的网站流量统计系统即在中科院将诞生,笔者在上篇数据之美 百度GOOGLE统计的秘密(1)中提到了一些用户鼠标行为分析的概念。没想到如此多的站长都关注这个,甚至有些站长朋友通过各种渠道找到笔者想了解详情。站长朋友们在和我交流的过程中有很多好奇的疑问,大家问的都差不多,比如:经常说,在网络上,没人知道网线后面,显示器前是个人还是一条狗,到底是如何判断的?对于这个疑问笔者联系了中科院计算所,他们给出了一个查询页面。在这个查询页面上可以查询到任意的关键词的男女性别分布,包括任意URL上男女分布,链接地址过两天给大家,回头大家可以自己去查询。
对于如何实现到的,中科院的小伙在线上并没有给笔者详细解释,但是他告诉笔者了一个这样的概念。通过统计数据,如何分析你的用户?如何留住你的用户?不管某个用户从何而来,一般情况下他在浏览过程中会经历对如下几个期间:新鲜期,沉迷期,消退期,离开网站,四个阶段。如何能够延长用户在网站的停留周期是我们作为站长需要迫切解决的问题。试想,如在用户消退期到达之前能够使用某种方法接着使用户重新进入新鲜期或者沉迷期,从而降低用户的流失,就很大程度的提高了站点的价值。让用户可以长时间的停留在网站内部,或者说是留在站长朋友们想让他留住的地方。在笔者看来,这个是更值得站长去了解学习的概念,所以笔者对中科院的郭博士就这个问题一起讨论了许久。在讨论过程中,他再次提到百度和GOOGLE在这个事情上的一些做法。
看样子图王还是被男人关心的多啊 注:版权说明:以上关键词性别分析为中科院系统分析体统,以上图片中百度数据由百度公司提供
注:版权说明:以上关键词性别分析为中科院系统分析体统,以上图片中百度数据由百度公司提供
GOOGLE和百度都基于自己长期统计到的访客信息,然后建立一个用户模型,甚至在不同频道,他们都会建立起一个用户模型,用户模型的概念如下:
Persona(Persona是用户模型的的简称)是虚构出的一个用户用来代表一个用户群。一个persona可以比任何一个真实的个体都更有代表性。一个代表典型用户的persona的资料有性别、年纪、所有浏览过的URL、这些URL包含的内容、关键词等等。郭博士在长期的网站用户数据分析方面具备非常深刻的经验。他提到这样的一个事情,如果我知道某一个用户在相对比较长的一段时间内浏览过的URL,比如:1个月,或者更长的时间。又或者持续的统计某一个站点中被用户点击的URL和内容,基本上就可以勾勒出这个用户模型。担心笔者不明白这个概念,郭博士特意举例,比如:某站点所使用的统计器,只要可以统计出了访客人群长期以来所有被点击的URL分布,根据这些URL所包含的内容以及关键词,还有这些URL被访客点击的时间段,先点击了什么,后点击了什么,加上在时间上有分布的鼠标行为和鼠标滑动轨迹,基本上就勾画出了某个用户的虚拟形象。
比如:某一个用户在某个站点内,第1次进入的时候点击了DHC,第2次点击该站点的女性频道、第3次点击了读书频道,进入读书频道以后,鼠标行为分析系统显示,她点击了某一本书,而且鼠标的滑动轨迹是呈现弧形的(根据统计了大量鼠标轨迹分析,我们看到男性用户很多时候鼠标滑动轨迹成“Z或者F”形状,而女性多呈现为“弧形”)。根据系统的分词判断,这本书是和美容有关的书籍,并且是针对年轻女性的美容书籍。基本上,我们在一定程度上就可以判断该访客为女性,年纪范围在20到30之间,我们给用户COOKIE做上一个标示。若干时间以后,该用户又一次访问该站点,但是这次她点击的是手机频道,而且根据鼠标行为系统以及分词系统,得知她是在查询某款手机的价格。正如大家所知道的那样,手机频道的内容庞大无比,除非用户有很明确的需求,否则她就要在这个网站上漫无目的的浏览。如果在30秒内她还是没有看到自己感兴趣的东西,那就很遗憾了,她有可能选择关掉您的网站。但是这个时候,如果我们将最合适的内容推荐给这个用户,比如“十大女性关注手机”,就很容易诱导该用户继续停留在页面上。庞大的手机频道,往往不是没内容,反而是内容过于庞大,用户不能很直接地找到想要的东西。这样的情况下,该用户很有可能直接流失掉,再次进入搜索引擎查找自己想要的内容。
参照中科院预测方法,大概的理论如下:
1.用户流失分析或用户流失预测:通过线下调研和数据挖掘,捕捉用户离开网站前的特征,针对不同的流失原因建立用户模型,预测用户流失的概率。这对用户的保护是十分重要和有效的分析手段。对于用户流失预测,从两个方面来看:一个是用户流失预警,一个是流失用户特征分析。
2.用户流失预警:利用现有的风险函数(如浴缸型风险函数,我也没搞明白啥叫浴缸函数,只是听郭博士提到,有兴趣的站长朋友可以自己百度一下)定义统一的预警模型,根据预警模型,用户在网站的数据自动匹配预警模型。
3.流失用户特征分析:通过决策数算法,分析流失用户特征,建立不同原因流失的用户模型,然后通过这些特征得到当前在网站活跃用户中匹配流失概率高的用户数据。
中科院提供的参考文献地址(E文好的朋友可以去看看):
Personas: Setting the Stage for Building Usable Information Sites
UserPersonas
Yes, you should be using personas
对于以上的3个基本要求,完全满足的,基本上没有。以笔者看来,国内甚至连一个非常优秀的统计器都没有,(别告诉我你打算用CNZZ或者51.LA的统计来做数据挖掘)。通过用户流失分析获得流失用户数据和潜在流失用户数据,根据这些用户数据提供一些新的营销内容或者功能。快速反应,以此达到挽留流失概率高的用户,就可以很容易的降低你网站用户的流失率。
要完成流失用户的预测,笔者认为首先需要确定以下三点
用户的性别分布如何?(男女性别看起来似乎不重要,实际上我们看到性别背后具备相当大的广告价值,相信一个17岁的女孩子很少可能去点吉利的刮胡刀广告,可能她更关心的是DHC的护肤品)
什么叫做流失?(站长根据自己网站的实际情况,来定义)
什么叫做正常?(比如用户多少时间不登陆,网站自己定义的用户活跃度)
要分析哪些用户?(比如不同年龄段,不同性别的用户,或者点了站点上广告的人群?)
通过上面确定的3点,对于建立起一个站点的用户模型,笔者认为有一下几个关键因数要做到:
1、 需要一个对IP、PV等数据有着非常清晰定义的标准。没有清晰定义标准,啥都瞎扯。
2、 一个非常优秀的统计系统,这个统计系统起码应该具备用户鼠标行为、鼠标移动轨迹分析和非常优秀的分词系统。(遗憾的是,笔者在国内所有的统计器上没有看到这些技术的影子)
3、 持续的统计,将统计数据积累到可分析的程度,据郭博士介绍,对于访问量在3000以上的站点,基本上48小时的连续分析,就可以出来一个基础性的用户模型。低于这个访问级别的站点,可能要更长的时间,对于访问越大的站点,越容易清晰的分析。
4、 对统计数据要具备数据挖掘和分析的能力。(这个更是要求很高,目前,除了几个大型门户站可以做得到,个人站长中,笔者几乎没有见过具备这些能力的站长)
但是在和中科院的朋友们交流中,我看到一个不寻常的统计系统的演示,中国互联网研究领域最聪明的小伙子们似乎真的在给所有的个人站长准备一款数据大餐。我不知道站长们看到这个统计系统会作何感想,但是,我想,一定是很震惊的!据说他们正在紧张的开发中,他们希望可以实现在统计领域高新技术的平民化,让每个站长都可以获得以前只有贵族们才可以使用的产品。按他们的话说,再好的技术,送不到最应该用的地方和最需要的用户手上,都是垃圾!中科院的小伙子们也很希望和广大个人站长沟通交流,笔者也相信,再好的技术,都需要站长们的参与。就和郭博士说的一样,个人站长比我们更了解他们需要什么!
笔者将跟踪报道该系统的最新开发情况,如果有站长愿意和笔者交流:可以加入笔者建立的QQ群号码:8435302 接头暗号:最强悍的网站统计器
用户行为结构图