这个时代学习能力是最重要的能力,而能够在周末的时间进行学习的人就更有竞争力。同时选择大数据这一方向来学习的人则是当今大数据时代最具有竞争力的人。
今天之所以选择用大数据解读爸爸去哪儿第二季这个话题是因为娱乐性的话题比较容易理解。大数据的概念起码要包含数据、技术和应用三个方面。因为有了越来越多的数据才有了大数据这一概念,才能够运用数据能够做很多的事情。这其中,最重要的就是互联网的发展。因为数量非常大而且有很多非结构化数据(文本、视音频等),这样的数据就必须用智能化的分析方法才能解决,因此这方面的大数据技术也更加复杂。而所谓应用是大数据分析的目的和核心,大数据分析都是从应用中导出来的,根据应用分析相应数据得出相应结论。
目前来看,大数据技术有很多像海量一样的公司都在做,而怎样把大数据应用到实际工作中去辅助你实际工作的人才是缺失的。
现在很多人才分析报告中就说过,大数据分析师这样的人才是有价值的,而所谓大数据分析师其实是在应用这方面的。大数据时代企业的竞争情报已经发生了变化。比如说小米,每周去更新它的软件其实就是根据用户的反馈来做的。包括海尔这样的传统家电企业,也在去年发布了全新的“网络化战略”,张瑞敏就在该战略中这样说道,“原来用户只是购买者,现在可以成为设计者,与生产者融合在一起,变成利益共同体。”“通过互联网掌握竞争态势,洞察客户雪球,获得互联网的信息竞争力至关重要。”
关于大数据解读爸爸去哪儿第二季,首先是对节目的互联网讨论声量检测,因为在第一季的时候,通过对互联网讨论声量检测,节目组就发现了一个规律,综艺节目主要考虑的是收视率,如果在节目播出前网络上讨论度越高那么在节目播出之时的收视率就越高。由于这样的一个原因,所以在第二季的时候,节目组也就根据这样的规律提高节目收视率。比如说在节目播出之前就有过关于爸爸去哪儿第二季讨论的高潮,这其中不乏节目组的炒作,也是由于这样的一个高热度的讨论,使得节目一播出就获得了很高的收视率。现在衡量一个品牌资产的一个简单的方法就是在互联网的信息空间中,根据跟品牌有关的数据的量进行评定,量大你未来在互联网的世界里你品牌的影响力就高。
第二是关于嘉宾的声量变化,节目开播前,陆毅黄磊等大陆知名明星在互联网上的讨论声量比较大,而节目开播后,杨阳洋吴镇宇的讨论声量明显上升,成为节目黑马。
这种变化,通过即时的互联网大数据的分析,就能够被节目组制作方所把握到,那么到后续的动作就可以基于这个进行快速调整。还有就是嘉宾特色形象的转变,比如说陆毅,在节目播出前大众对他形象的认知可能只是停留在帅、男神上,而在第一集播出之后,逗比、黑暗料理这样的形象标签使得他的形象也更加丰满。
这也使广告商在选择代言人上有更多关注的点。这些都是因为有了互联网有了大数据我们能够每天及时的看到相应数据的变化。
第三是基于用户关注的营销策略调整,在最开始节目播出宣传的时候,节目组对各个大人小孩在宣传广告中的比例是没有太大差别的,如下图。
而在节目播出之后,有了嘉宾讨论声量的变化后,节目组也就基于用户的关注度改变了相应策略,在广告所占比例上吴镇宇就比较靠前。
第四是关于节目讨论的焦点分析,这是在节目的每一集播出之后都要进行分析的,主要部分还是对节目嘉宾的讨论,还有节目播出时的节目小情节、相关炒作、植入品牌以及爸爸和孩子们去过的地点的讨论,都可以作为焦点进行大数据分析。
第五是关于网络讨论者的分析,基于微博用户信息的性别分布,可以看出的是女性讨论者占大约77%,而男性用户只占其中的23%。
从年龄段分布来看,80后90后分布较多,尤其以90后最为突出。
从讨论者地域分布来看,东南沿海以及北方大城市活跃度较高,从这些信息就可以为一些线下活动提供参考依据。
对于网络讨论者来说可以对其进行交叉分析,从而得出更全面而具体的结论。
如何实现?
通过对新闻资讯网站、电子报、论坛、博客、贴吧、问答、百科、SNS网站、政府网站、微博、电商以及微信公众号等进行数据采集,然后通过技术对其进行基于知识网络的精准数据分析。
通过数据的专业分析工具——判定图,支持复杂的逻辑分析。爸爸去哪儿第二季的判定图中就有2300个标签,3500个节点。根据这些标签和节点而进行判定逻辑分析,数据标引分析,和量化数据分析从而得出准确而有效的数据报告。
对于新闻来说,贴标签的同时就要做分词,这样标签才会有相应的准确性。
分词之后变成结构化就可以由技术人员进行分析了,分析之后得出报告之后再做一个可视化的结构呈现。因为英文有空格不需要分词,而中文必须要进行分词才能更精确。比如说技术服务就要分为技术和服务两个词来进行标签,河南开封这其中与南开大学就没有什么关系。所以分词在分析中很重要。
关于拿到数据后先要干什么然后要干什么对于大多数学员来说都会感到迷茫,演讲嘉宾陈凯也给大家作出了回答。拿到数据首先要把数据内容分析清楚(数字类、文本类等),搞清楚这些数据之后要考虑自己是否还需要增加一些数据。
在分析时第一步要定空间,也可以称是数据勘察,主要是准确定位该数据在哪里,在企业内部或是互联网当中。第二步就是用一些比较粗浅的准确率较低的数据进行分析筛选,然后进行调优,调优之后形成模型分析维度。最后一步是不限于,也就是跟你提要求的客户可能在表达时没有把最后一句话表达出来,而他说的最后一句话可能就是“不限于……”,现在所有想做大数据的人都是想知道他以前不知道的新的东西,所以分析师就要更进一步地对大数据进行深入分析。另外一个不限于就是所说的,数据是一个动态变化的,不是说模型做完就不变的,要根据他的使用情况、互联网的发展变化和数据内容进行修正。
大数据技术创新大赛
原文发布时间为:2014-11-03