手机上的阅读

移动互联网与日常生活密不可分,人们随时随地都在制造数据、获取数据。数据的一切问题在现在的移动互联网上似乎已经不再是问题。我们需要面对的是如何在数据海洋里寻找对自己真正有用的信息。

  手机上产生的大数据需要通过重新组织,之后才能显现出有用的信息。

  当然,大数据本身并不是问题。各个渠道随时随地道都可获得海量的数据;就连我们个人每天都会生产很大量的数据,那么如何使得成堆的数据具备其应有的价值呢?我想关键的问题是如何处理、分析这些数据,否则数据将只是一堆没有任何价值的一推数据。

  稻草堆里寻针

  数据处理、分析就是要从一大垛稻草堆里面挑出一根针。

  这句话有两层含义:

  无论我们从何种渠道,通过何种方式获得的数据,大量的数据是没有意义的,这其中只有少量的数据是有效地,可以从中得出一些有规律、有价值的信息的,原始数据需要清洗、整理;(这一点对于移动互联网更为明显,一般来说,几乎80%-90%的移动应用数据都是毫无价值的,只有不到10%-20%左右的数据才包含后续分析所需要的信息)

  我们需要通过后续的数据挖掘的工作,从杂乱无章的稻草堆里找出遗落在层层表象下面的一根针,而非一根稻草!这显然,不是简单通过统计就可以得出的;是比统计分析更为复杂的算法,去从简单关联过度复杂逻辑的层面。

  从上一章中,我们知道手机上的大数据的来源多种多样,不同的移动互联入口、不同的应用都会导致不同数据的产生,而这些不同的数据又支撑不同的业务,并且不同的业务之间还可能存在一些交叉应用。所以针对这些特点,下面我们根据这些特点来对大数据的组织做一个简单介绍,手机大数据的组织方式可以采用如下图的结构。

  手机大数据的组织方式

  从上面的结构可以看出,手机大数据的组织主要分为以下三个部分:原始数据存储层,计算层和业务数据存储层

  原始数据存储层

  主要存储不同入口产生的数据,而不同入口不同数据域也分开并存此时各个数据集是彼此独立,数据集之间没有任何联系方式。这样做的好处就是能最大限度的保证原始数据的完善性,正确性。

  计算层

  该层的主要任务是对原始数据存储层存取的数据进行挖掘处理,并将挖掘结果按照不同业务进行分类。挖掘处理的大致分为以下两点:① 对不同数据域进行内部分析,挖掘。② 对不同数据域之间进行关联分析挖掘。结果分类主要是将挖掘出的结果进行分类,比如音乐、餐饮、广告等应用。

  业务数据存储层

  业务数据存储层主要是对计算层产出的数据进行分开存储,以为上层应用提供更明确的数据接口。

  当我们对数据进行有效地存储管理后,我们就可以利用这些大数据进行一些有意义的工作,尤其是对于移动互联网业务早期无疑具有非常大的指导意义,下面我们以手机阅读为例,对手机上的大数据如何应用做一个说明。

  手机上的阅读

  手机阅读作为移动互联网目前为数不多还算有一定共性和沉淀应用之一,是我们早期手机应用研究的对象。所谓“共性”和“沉淀”,就是针对手机应用“碎片化”而言。手机阅读虽然也有大量的碎片时间,但已经逐渐形成了一早一晚宝贵的“床上”连片时间,有相对比较完整时间片上呈现的行为习惯,有相对比较完整的用户在移动互联网上体现出来的偏好信息。

  尽管很多报告都显示,用户在互联网与移动互联网上的表征有着巨大的差异,但我依然相信,人们在面对一段文字,一个图片上的喜好、感觉是不会变的。因为人性是不会轻易改变的。互联网和移动互联网的用户行为之所以不同,那是因为应用本身使用场景的不同,解决问题的不同所导致的。并不是一个人在互联网上是一个性格,而到了移动互联网上就是另外一个人生了。

  这是我们研究手机阅读上大数据的初衷。

  下面,我们以一个曾经做过的手机阅读项目为例,主要从发现问题、解决问题、结果验证三个方面来为大家展开。

  发现问题

  通过对手机阅读数据的挖掘分析,我们发现了如下几个问题:

  (1) 城市与城市之间的阅读行为相似

  我们统计过杭州、广州、深圳在某一时间段内用户的阅读数据,得到了这三个城市这三个月热门前二十的数据。

  下表统计的是杭州与广州深圳这两个城市在该时间段内的热门阅读图书重合数数。

  从表中,我们可以猜测,杭州与深圳、广州这两个城市之间确实存在着一定程度上的阅读相似性。

  计算公式为:Sim(A,B) = Same(A,B)*2/[Count(A)+Count(B)]

  Sim(A,B)表示的是城市A,B的阅读相似性。Same(A,B)表示的是城市A,B在某时间段内共同阅读过的图书的本书,Count(A)表示的是城市A在某时间段内阅读过的图书的本书。

  从表中我们可以发现杭州与深圳广州的阅读相似性都很高。也就是说杭深或者杭广城市间阅读是比较相似的,我们可以考虑用他们来作为阅读风向标的参考城市。

  所以,如果考虑要做风向标分析的话,更倾向于选择广州作为杭州的阅读风向标,杭州作为深圳的风向标,杭州跟广州可以互相参考。

  (2) 移动阅读的“长尾”现象严重

  在我们的数据统计中发现,手机阅读市场基本上靠热榜和主观推荐来运营。这就造成了我们所常见的“长尾”效应,而且随着书籍的增多,这种效应更为严重!

  (3) 不同行为模式的用户表现相差比较大

  我们通过kmeans聚类算法(一种常见的数据挖掘算法),说明各类用户之间表现的特征差异还是比较明显。

  不同行为模式的用户表现相差比较大

  解决方案

  我们针对历史数据进行了分析,对于不同的问题,我们觉得可以采用如下方法进行解决。

  (1) 数据聚类推荐送

  通过对用户进行聚类推送图书,我们发现有如下结果:

  数据聚类推荐送

  第一类:人群比例接近60%。这类人群一直有阅读推荐书的行为(平均约e^1),在6月14号当天PV量并没有提升,而在后面几天提到较明显的提升,6月20号之后似乎又回到了之前的PV水平。

  第二类:人数较少,仅57人。在推荐前基本无阅读推荐书行为,而在推荐后阅读推荐书PV量较大(平均e^2),且后续也有较好的保持,可以认为被推送激发了阅读推荐书的兴趣。

  第三类:人群比例接近40%。这类人群在6月13-17号之间阅读推送书籍的PV量提升非常明显,但是在这个时间段之外,比较沉默,前期(6月13号前)阅读推荐书很少,后期(6月17号)阅读量有些提升,但是还是回归到比较沉默状态。

  (2) 个性化推送

  由于手机的推送方式,目前大多数是通过流行榜来推荐,这就造成了这些被推送的书籍越流行,后面越推送他。反复的循环下去,就造成了系统长尾现象,数据覆盖率等问题。所以最好是根据不同的用户设置不同的推荐方法。这样可以大大改善系统中这些状况。

  结果验证

  通过我们对数据的挖掘处理,然后用户实际应用,最后得到了如下的反馈结果:

  (1) PV量的增加

  首日PV比较

  从实验分析中,我们得出:总的一周反馈率,实验组是对照组的1.30倍。

  推荐成功用户首日推荐书籍PV总量,实验组是对照组的8.17倍;人均推荐书籍PV量,实验组是对照组的15.19倍。

  推荐成功用户首日总激发PV量,实验组是对照组的9.62倍;人均全部书籍PV量,实验组是对照组的17.88倍。

  推荐成功用户中,实验组的一周推荐书籍PV总量约为对照组的5.45倍;人均推荐书籍PV量,实验组是对照组的4.88倍。

  推荐成功用户中,实验组的一周总激发PV量是对照组的7.01倍;人均全部书籍PV量,实验组是对照组的6.28倍。

  综上所述,经过数据挖掘、分析、推荐等算法的处理,手机阅读的各项指标得到了大幅的提升,其效果已经不是百分之几十的提高,而是成倍地增加了!这就是大数据应用的魅力!

时间: 2024-09-19 00:12:48

手机上的阅读的相关文章

手机QQ浏览器阅读模式:1本书化为1页纸

移动互联网在 8084.html">蓬勃发展,我们也越来越忙碌.地铁上.公车里.等餐时,越来越多的碎片时间被手机所占领,而其中相当一部分是在阅读小说.浏览新闻或是泡论坛中度过.如此看来,优秀的阅读体验 的确太重要了.针对这一需求,手机QQ浏览器近日在Android和iPhone两大高端平台的最新版本中,首次推出了专业的"阅读模式".据介绍,这一模式不仅 让手机阅读在触屏界面更加赏心悦目,还可提升浏览速度,有效节约流量.有图有真相,时下正火的宫廷小说<哑女皇后>

新浪视野手机版体验 阅读随心分享随地

新浪视野是新浪旗下一款兼具海量信息和互动分享的阅读软件,它将国内外近两千家知名媒体杂志,超过全国32个省份的各 级地方主流报纸,1000多个网站RSS资源,及新浪全部的博客和微博内容进行聚合,满足了当下社会用户不同的阅读习惯.近日,新浪视野 正式推出iPhone和Android手机客户端,手机 端的阅读将更加符合用户随时随地的阅读习惯,接下来我们对新浪视野手机版进行一次使用评价.新浪视野主界面同步订阅列表新浪视野手机客户端整体延续了其界面简洁的设计风格,并且符合时下主流手机屏幕尺寸的视觉感受.我

bet365:社交化阅读引爆掌上立体阅读潮

中介交易 SEO诊断 淘宝客 云主机 技术大厅 "读书也社交,看书交友两不误"是当代校园大学生对新兴的读书社交的一句总结,"因为喜欢上了读书,就连同自己走路的步速也放缓了,整个校园的节奏和之前都有所不同了." 如果说豆半读书,作为读书社交的先行者,开启了读书社交时代;爱悦读则凭借其社交化阅读功能,引爆了移动互联网时代的掌上立体阅读潮. 社交网站已成为人们网络生活中的新宠.据统计,截至2009年底,中国使用社交网站的网民达1.24亿,占网民总数的32.29%,平均每人

卡马克演示在iphone手机上运行《狂暴》的片段

多玩网讯(编译/于子将)在近日举行的QuakeCon 2010上,id Software的传奇制作人John Carmack现身会场,并现场演示了一段在iphone手机上运行<狂暴(Rage)>的片段. John Carmack的演示中采用了最新的id Tech 5引擎,并且将游戏帧数稳定的保持在了60FPS--这可能是iPhone平台至今为止最令人印象深刻的技术了.John Carmack表示iPhone 4的机能比iPhone 3GS更为强大,游戏的视觉效果能够媲美PS2和XBox的任何一

VB 6.0能不能和手机上的微信软件进行通讯?怎么给微信软件发送消息?

问题描述 VB 6.0能不能和手机上的微信软件进行通讯?怎么给微信软件发送消息? VB 6.0能不能和手机上的微信软件进行通讯?怎么给微信软件发送消息? 解决方案 微信有一套开发供调用的API,在VB6.0里通过调用这些API然后保证你的网络是通畅的,应该能给微信软件发消息

移动端手机上传头像js

问题描述 移动端手机上传头像js 可以上传图像 裁剪 用js jquery php 技术实现 图像可以预览 解决方案 http://www.58player.com/blog-2327-96084.html 解决方案二: 如何把自己的QQ头像变成透明

手机上网易和图片库设计的改版升级设计

一. 手机上网易历程 http://help.3g.163.com/ 一个网站或者一个页面在一段时间内会进行一次改版,而比较容易催促改版的情况有几种.  1. 用户体验需要大幅度提升.2.用户习惯需求发生了明显变化.3.组织结构或其他原因调整.而这次手机页面改版的情况主要是第一点.总结了一下在前期没有认真分析产品定位和产品设计方向是导致这次返工量比较多的重要原因. 难点主要是功能之间关系准确的呈现性和结构组织的直观性. 首先,手机网易网页面是帮助用户怎样更简便快速的用手机登陆页面.手机网易网页面

如何在Android手机上实现歌词同步

最近在做一款android手机上的音乐播放器,学习到了很多东西,像是Fragment,ActionBar的使用等等, 这里就先介绍一下歌词同步的实现问题. 歌词同步的实现思路很简单:获取歌词文件LRC中的时间和歌 词内容,然后在指定的时间内播放相应的内容.获取不难,难就在于如何在手机屏幕上实现歌词的滚动. 先上效果图:

WAP手机上的问卷调查系统的构建

普通的网页问卷调查系统大家一定都见过,但是大家有没有试过在WAP上进行问卷调查呢?估计大部分的朋友都没有见过,那就让我们来写一个吧! 想一想怎么实现这个系统呢?首先建立一个页面,显示将就哪一个问题进行调查或投票,一般是出现一个复选框,给出问题和若干选项,服务器收集投票,存入日志文件或存入数据库,并能显示问卷调查结果,这就是一个问卷调查系统的构思.其实在WAP手机上也同样用这种思想来构建问卷调查系统,但是必须顾及手机的特点:显示面积小,且要结合WML编程. 我在下面给出了一个相当简单的手机问卷调查