聚类分析在用户分类中的应用

什么是聚类分析?
聚类分析属于探索性的数据分析方法。通常,我们利用聚类分析将看似无序的对象进行分组、归类,以达到更好地理解研究对象的目的。聚类结果要求组内对象相似性较高,组间对象相似性较低。在用户研究中,很多问题可以借助聚类分析来解决,比如,网站的信息分类问题、网页的点击行为关联性问题以及用户分类问题等等。其中,用户分类是最常见的情况。

聚类分析的基本过程是怎样的?

选择聚类变量聚类分析找出
各类用户的重要特征聚类解释&命名

|| &">nbsp;选择聚类变量

在设计问卷的时候,我们会根据一定的假设,尽可能选取对产品使用行为有影响的变量,这些变量一般包含与产品密切相关的用户态度、观点、行为。但是,聚类分析过程对用于聚类的变量还有一定的要求:

这些变量在不同研究对象上的值具有明显差异;这些变量之间不能存在高度相关。

因为,首先,用于聚类的变量数目不是越多越好,没有明显差异的变量对聚类没有起到实质意义,而且可能使结果产生偏差;其次,高度相关的变量相当于给这些变量进行了加权,等于放大了某方面因素对用户分类的作用。

识别合适的聚类变量的方法:

对变量做聚类分析,从聚得的各类中挑选出一个有代表性的变量;做主成份分析或因子分析,产生
新的变量作为聚类变量。

|| 聚类分析

相对于聚类前的准备工作,真正的执行过程显得异常简单。数据准备好后,丢到统计软件(通常是spss)里面跑一下,结果就出来了。

这里面遇到的一个问题是,把用户分成多少类合适?通常,可以结合几个标准综合判断:

看拐点(层次聚类会出来聚合系数图,如右图,一般选择拐点附近的几个类别)凭经验或产品特性判断(不同产品的用户差异性也不同)在逻辑上能够清楚地解释

|| 找出各类用户的重要特征

确定一种分类方案之后,接下来,我们需要返回观察各类别用户在各个变量上的表现。根据差异检验的结果,我们以颜色区分出不同类用户在这项指标上的水平高低。如下图,红色代表“远远高于平均水平”,黄色代表“平均水平”,蓝色代表“远远低于平均水平”。其他变量以此类推。最后,我们会发现不同类别用户有别于其他类别用户的重要特征。

|| 聚类解释&命名

在理解和解释用户分类时,最好可以结合更多的数据,例如,人口统计学数据、功能偏好数据等等(如下图)……最后,选取每一类别最明显的几个特征为其命名,就大功告成啦!

参考资料:

http://www.redshiftresearch.co.uk/ImageLibrary/Cluster%20Analysis.pdf

《社会统计分析方法——spss软件应用》

来源:http://uedc.163.com/3287.html

时间: 2024-08-09 11:10:20

聚类分析在用户分类中的应用的相关文章

怎么对用户分类,细分到何等程度

文章描述:用户分类浅谈. 说到网络产品,离不开的话题就是用户,就像传统行业的消费者.人是复杂的,网民的用户行为更加复杂,用户和用户是不一样的,或者说,每个用户都不一样.一款成功的互联网产品往往并没有满足所有用户的需求,而是准确定位了某一类用户并且很好地满足了那类用户的需求.到底定位哪一类用户是我们需要考虑的,所以就需要用户分类. 不分类不好定位, 好的用户分类让我知道了我在追求哪些人,满足哪些人,影响哪些人.但分不好类又会错位,更糟,那怎样才能对某一款产品的用户群进行合理分类呢,下面就来谈谈我对

用户体验设计:用户分类浅析

说到网络产品,离不开的话题就是用户,就像传统行业的消费者.人是复杂的,网民的用户行为更加复杂,用户和用户是不一样的,或者说,每个用户都不一样.一款成功的互联网产品往往并没有满足所有用户的需求,而是准确定位了某一类用户并且很好地满足了那类用户的需求.到底定位哪一类用户是我们需要考虑的,所以就需要用户分类.   不分类不好定位, 好的用户分类让我知道了我在追求哪些人,满足哪些人,影响哪些人.但分不好类又会错位,更糟,那怎样才能对某一款产品的用户群进行合理分类呢,下面就来谈谈我对用户分类的一些看法.

通过用户分类与认证提高BI项目普及率

[TechTarget中国原创] 作为一名商务智能(BI)项目的主管,你是否达到了向领导承诺的BI普及率?当部署一个新的BI或报表工具之后,你是否能够保证持续的用户活跃度?你是否害怕领导在接下来的财年中把BI的相关预算(甚至你的职位)砍掉了,因为BI项目没能给公司带来足够的收益? 如果你"中枪"了,那么恭喜你,其实你并不孤单.然而这并不能改变你的境况.活跃用户的普及率直接反映了BI项目的成功与否.普及率太低不仅意味着你拿到的预算将更少,而且它说明大部分业务用户已经放弃了你的BI工具,转

从陌陌新功能,看产品在用户心智中的变形策略

移动社交应用陌陌,最近上线了其为线下商家提供线上展示广告的全新移动广告平台--"到店通". 今后在陌陌"附近"列表除附近的人.附近群组.附近活动外,用户还可能会看到周围的商铺信息:通过商家主页,用户可一键拨打电话.商家主页将显示与用户当前位置的距离,便于直接调用导航:此外,用户还可以通过陌陌直接与商户进行对话. 有趣的是,在前端,陌陌抛弃了采用一个专门的商户入驻页面的做法,而选择将这个功能直接添加在所有用户的"设置"项中,这种不区隔B和C的做法,

搜索引擎优化之用户体验中的用户从何而来

随着用户的要求不断的在提高从而使搜索引擎算法也跟着不断的升级,从这情况来说百度对网站的用户体验的要求是越来越严格了,搜索引擎是因为用户的搜索习惯在改变,从而使搜索引擎在排名上的变化,总而言是用户体验才是王道. 用户体验这四个字也给许多站长带来了说不完的话题,如果你有认真的去发现的话到处都是有关用户体验的文章,可是这些都是纸上谈兵,实践才是最为重要的,对于一个站长来说光说不练这样对于一个网站的发展是有很大的影响的,对此憎水岩棉板生产厂家的笔者SEO空城一直在纠结一个问题就如同是"先有鸡还是先有鸡蛋

网站用户体验中的可用性和易用性

网站的用户体验中常常提及usability这个词,它既被译做可用性也被译作易用性.usability是衡量网站用户体验的重要质量指标. 设计成功的网站可以让使用者在浏览的过程中不会产生压力感挫折感,符合使用者的习惯和需求,使用网站功能时容易上手并且效率很高. 要做到这一点的话,在设计网站的最初就要对网站的功能进行梳理,增加对使用者的需求和行为习惯的分析,形成用户角色的模型.同时在网站的制作过程中要不断用设定好的用户角色来检验交互过程中是否存在的问题,及时修正,同时要善于发掘用户隐藏着的行为习惯,

让数据站住脚-浅谈用户研究中的信度与效度

在用户研究工作中,如何让自己的数据和结论更有说服力,是很重要的问题.最近将自己积累的用研信度和效度的笔记整理一下,罗列在文中,希望对大家有所帮助. 一.调查的质量取决于调查的信度和效度. 信度主要指测量结果的一致性.稳定性.也就是说结论和数据是否反映了用户最真实稳定的想法.用户在回答问题的时候,往往会受到环境.时间.当时当地的情绪影响,而作出并不真实的想法,即会有随机误差. 信度就是衡量这种随机误差对用户想法的影响大小. 效度是指多大程度上测量了你想要测量的东西. 对某个产品用研,我们现在用得最

技术-文本分类中怎样实现文件夹中文件的分词问题

问题描述 文本分类中怎样实现文件夹中文件的分词问题 您好.我最近在做文本分类的有关内容,但是遇到了一些问题.我想向您请教一个技术问题.怎样将文件夹中的文件循环分词,还是只能一个一个分词呢?谢谢! 解决方案 你说的循环分词是什么意思啊?如果是想实现对文件夹下所有文本进行分词,可以写个for循环,每个打开一篇文本然后对该文本进行分词.你只要将对应文件夹下面的文件名保存下来就可以实现了.如果用python就用os.listdir()实现.

tf*idf 用于文本分类中的特征提取

tf*idf tf*idf,term frequency * inverse document frequency,词频 *逆向文档频率. 1.思想 TF-IDF是一种统计方法,用于评估某个词语在文档集合中的重要程度. 如果某个词语term在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为这个词语具有很好的文档分类能力. 2.公式 tfij=termi在docj中的出现频次docj中的总词数,表示词语i在文档j中的频率. idfi=lg(文档总数包含词语i的文档数),含有词语i的文档