ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析

上节我们介绍了系统的基本框架和特性,本文我们将通过该平台进行微博数据挖掘,并给出一些有意思的结果。

一.微博和微博数据

1.分析微博的意义

       新浪的数据以每天海量的速度增长,它包含了四亿网民的对国家大事的看法,对生活的诉求,对环境和人的观点,以及人际间关系,是了解和分析复杂网络和社会行为的无比重要的资源。因此开发微博分析软件,是有非常重要的意义的。

2.加载微博分析独立组件    

系统主要针对新浪微博,我们为微博开发了独立组件包,将其动态链接库dll文件拷贝到软件的插件目录下,系统就会自动加载。若不希望有该功能,只需简单删除链接文件库即可。

系统会将微博相关的算法,资源,数据类型加载到系统插件库中。

  3. 微博数据

组件包内置了用户,微博,评论,热点事件的数据类型的支持,同时提供了Entity Framework的数据库访问能力,使用方便。同时,软件内置了新浪微博API接口,可以方便的从微博中采集微博数据,如下图所示:

获取数据后,可以通过下面的可视化组件查看这些数据。

您可以对这些数据做筛选,排序等操作,并送入数据管理器,为完成数据分析做准备。

二. 微博分析功能

1. 微博转发和信息溯源

该功能可以让我们了解和分析任一条微博的被转发和评论情况,您可以以简单有效的方式查看微博的事件流传送过程。

使用方法很简单,在数据管理器中选定任意一条微博,在系统菜单上点选“数据”中的”“,系统即可自动进行分析,结果如下:

2.话题分类和观点分析

该功能可以方便的对某用户的话题进行分类,并通过软件内置的”情感语义分析引擎“分析用户情感。并通过可视化组件实现绘图操作。

通过内置的微博采集器获取某名人的微博信息。

将”观点分析“和”图表统计输出“两个算法模块拖入算法处理器,并配置要处理的数据源。如下图所示:

最终可输出结果,分别以表格和图表的形式,给出分类结果。

3. 微博传播图谱

微博在微博网络中被转发的结构,最终可表现为不同的传播模式,36KR的一篇文章介绍了这个特性,链接在这里

我们也完成了类似的功能,并能实现动画布点,按照时间顺序,演示信息的转发逻辑。使用方法也很简单,类似本节第一条,在菜单中选取“微博传播网络”即可。

以下是潘总的微博”本月结束了,跑步100公里目标都没有完成,仅97.6公里” 的转发关系图,明显的,二次转发较少,以一次转发为主。

   三.用户关系行为分析

1. 用户关系分析

软件可以对某一批用户的关系进行分析,从而获得用户社团聚类,和人际关系网络。在用户关系分析中,我们采用了特别的相关度计算方法,结合用户的共同喜好,共同好友,地理位置等行为实现计算。当然,由于不同类型的用户可能具有完全不同的行为,软件会自动适配算法参数和权重,并送入聚类模块。

将“微博用户关系计算”,聚类图形显示和K-Means数据聚类拖入算法处理器,如下图所示:

这些算法通过自动组装,可实现如下的计算流程:

用户关系计算的结果送入K-means聚类中,最终将结果送入聚类图形显示中执行绘图。整个过程全部自动化。

最终,可获得好友关系圈,该人的好友主要分为两类,其本科同学和研究生同学。分类结果良好。若希望能更细分,可以将聚类参数进行调节,从而获得类似下图的结果:

(没有完全显示)

2.用户数据统计

图表统计输出拖入到算法处理器, 该模块会自动根据数据类型加载不同的统计方案,如下图所示,我们采用地理位置的数量统计方法来统计用户的好友地理分布,如图所示:

3.用户地理位置显示

软件可以根据微博的位置标签,显示某用户在一段时间内的位置信息,并显示在系统内置的地图上。如下图所示:

同时,还可以实现”路径漫游”功能,动态播放运动轨迹。

 

四.总结和开发计划

  以上是软件平台目前关于微博的功能介绍。当然,这些结果还不完善。我们下一步的工作是:

1. 对微博数据进行深入语义分析和更加智能的情感分析

2. 微博的舆情分析,以及事件追踪图

3. 对微博特殊用户,如僵尸粉丝予以识别

4. 进一步了解和分析微博信息传播途径

 

有任何问题,欢迎进一步交流。

时间: 2025-01-30 15:56:07

ITTC数据挖掘平台介绍(二) 微博数据挖掘和分析的相关文章

ITTC数据挖掘平台介绍(综述)——平台简介

数据挖掘方兴未艾,大量新事物层出不穷.本系列将介绍我们自主设计的数据挖掘软件平台.与大家共同分享对知识,微博,人际等复杂网络的分析,以及对自然语言处理的见解. 一.我们需要怎样的数据挖掘系统       一直以来,以高校为代表的学术界和以公司为代表的商业界,都有很大的隔阂.学术界普遍不会做产品,商业界普遍不会搞研究.如果两者都强,那就是美国军方了.        在数据挖掘领域更是如此,大量关于复杂网络,自然语言处理的牛文层出不穷,却被研究机构和大公司养在深闺人未识.绝大多数智能机器学习算法被封

ITTC数据挖掘平台介绍(七)强化的数据库, 虚拟化,脚本编辑器

一. 前言        好久没有更新博客了,最近一直在忙着找工作,目前差不多尘埃落定.特别期待而且准备的都很少能成功,反而是没怎么在意的最终反而能拿到,真是神一样的人生.        言归正传,一直以来,数据挖掘系统的数据类型是我很头疼的问题,不可能为了每一种场景都定义一种新的数据类型,但通用类型又没法满足所有需求,而且性能上有影响.思来想去,最终决定结合两种特点制定一种方案:以通用类型为主,一些特定场合和要求再制定自定义类型,比如微博.   通用数据类型的名字叫FreeDocument,它

ITTC数据挖掘平台介绍(四) 框架改进和新功能

本数据挖掘框架在这几个月的时间内,有了进一步的功能增强 一. 超大网络的画布显示虚拟化     如前几节所述,框架采用了三级层次实现,分别是数据,抽象Node和绘图的DataPoint,结构如下:      在界面显示部分,之前并没有做过虚拟化优化,为了实现更多的功能,通过大量的事件挂接和其他操作将显示的控件与底层数据紧密耦合,因此内存回收机制几乎不起什么作用(原因见我另外一篇博客-事件的迷惑).另外,绘图控件包含很多可视化元素.这样的恶果便是当点的数量增大时,内存占用量也急剧增大,1万点时,就

基于Spark on Yarn 的淘宝数据挖掘平台

基于Spark on Yarn 的淘宝数据挖掘平台 淘宝技术部--数据挖掘与计算 为什么选择Spark On Yarn Spark On Yarn的原理和框架 淘宝在Spark On Yarn上做的工作 基于Spark on Yarn 的淘宝数据挖掘平台

基于Hadoop云平台的水利普查数据挖掘系统的设计和实现

基于Hadoop云平台的水利普查数据挖掘系统的设计和实现 樊龙 万定生 顾昕辰 针对水利普查数据量大.属性维度多等特点,论文通过探讨和分析Hadoop的组成和运行机制,提出了一种基于Hadoop云平台的水利普查数据挖掘系统,介绍了系统的设计思想及架构,详细阐述系统内各个模块的功能作用.该系统利用Hadoop云平台实现了一种改进后的并行关联规则算法,既充分利用了Hadoop平台并行处理数据的能力,又降低了开发所需的成本.通过进行单机对比测试和集群测试,证明了系统具有更好的可用性和较高的挖掘效率.

数据库的数据挖掘概述(二)

数据|数据库 数据挖掘工具是怎样准确地告诉你那些隐藏在数据库深处的重要信息的呢?它们又是如何作出预测的?答案就是建模.建模实际上就是在你知道结果的情况下建立起一种模型,并且把这种模型应用到你所不知道的那种情况中.比如说,如果你想要在大海上去寻找一艘古老的西班牙沉船,也许你首先想到的就是去找找过去发现这些宝藏的时间和地点有哪些.那么,经过调查你发现这些沉船大部分都是在百慕大海区被发现,并且那个海区有着某种特征的洋流,以及那个时代的航线也有一定的特征可寻.在这众多的类似特征中,你将它们抽象并概括为一

微博数据挖掘短信营销后机构眼前的新课题?

经过几年的狂轰滥炸之后,传统电话.短信营销招生效率下降.多知网发现,一些中小型机构开始瞄准了微博,利用微博信息定位考生需求,并推送服务.这几年,由于低成本.速度快.精准性.覆盖高等优点,短信和电话营销让培训机构们屡试不爽.几乎每个考生都有这样的切身经历--每天几个报班的"骚扰"电话,各种真题保过的"垃圾"短信等.但这种方式转化率不算高--100个电话会有两三个上门咨询,短信往往为千分之几.随着机构们对有限的考生资源争夺和重复利用,转化率还在持续走低.一些中小机构挖掘

基于云计算的数据挖掘平台架构及其关键技术研究

基于云计算的数据挖掘平台架构及其关键技术研究 丁岩 杨庆平 钱煜明 随着云计算日寸代的到来,传统数据挖掘系统在海量数据的分析挖掘方面存在性能瓶颈.文章提出了基于云计算的数据挖掘平台,该平台与传统的数据挖掘系统架构相比有高可扩展性.海量数据处理能力.面向服务.硬件成本低廉等优越性,可以支持大范围分布式数据挖掘的设计和应用.该平台能极大减少运营商.企业在数据挖掘技术上的投入并能加快其挖掘业务的推出,缩短研发周期,进一步提高产品收益. 基于云计算的数据挖掘平台架构及其关键技术研究

【问底】许鹏:使用Spark+Cassandra打造高性能数据分析平台(二)

[导读]笔者( 许鹏)看Spark源码的时间不长,记笔记的初衷只是为了不至于日后遗忘.在源码阅读的过程中秉持着一种非常简单的思维模式,就是努力去寻找一条贯穿全局的主线索.在笔者看来,Spark中的线索就是如何让数据的处理在分布式计算环境下是高效,并且可靠的. 在对Spark内部实现有了一定了解之后,当然希望将其应用到实际的工程实践中,这时候会面临许多新的挑战,比如选取哪个作为数据仓库,是HBase.MongoDB还是Cassandra.即便一旦选定之后,在实践过程还会遇到许多意想不到的问题. 要