乐逗高级数据分析师谢佳标:基于R语言的大数据处理及建模技术


 WOT2015"互联网+"时代大数据技术峰会于2015年11月28日于深圳前海华侨城JW万豪酒店盛大揭幕,42位业内重量级嘉宾汇聚,重磅解析大数据技术的点睛应用。秉承专注技术、服务技术人员的理念。DBA+社群作为本次大会合作方,将通过图文直播为大家全程跟踪报道这场技术盛宴。   

正如马云所说:“大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。”在信息时代,海量数据迎来了大爆发,也给大数据技术平台带来了用武之地。

在深圳的【WOT2015"互联网+"时代大数据技术峰会】现场,WOT特邀讲师、乐逗游戏高级数据分析师谢佳标,从R语言和大数据建模等方面对大数据做深刻解读。

谢佳标,乐逗游戏高级数据分析师。主要利用R语言进行大数据的挖掘及可视化工作。第七届、第八届中国R语言大会的演讲嘉宾。有超过八年的数据挖掘建模经验,从事过咨询、电商、电力、游戏等行业,了解不同领域的数据特点。有丰富的利用R语言进行大数据挖掘的实战经验。

谢佳标告诉笔者,游戏公司获得的数据量是相对较大的,数据维度比较多,数据源头也难以把握,所以获取到的数据是没法直接用的,需要对数据做预处理。包括几个部分:一是数据的缺失处理,如果有哪些字段缺失,需要通过机器学习的技术进行填补,有的样本没法通过预处理的话,会直接删除掉。预处理后,需要读数据进行转换,有的需要增加一个新的维度来达到数据分析的要求。

那么为什么用R语言进行处理呢?谢佳标表示,R语言是开源的,内建了很多特有的函数建模,并拥有众多的拓展包。另外由于开源,我们可以看到函数背后的逻辑是怎样的,每一个步骤是怎样转换和处理的。除此之外,在灵活性方面,R近几年发展很快,很多新的模型、算法和研究等都纳入进去,比如深度学习、社交网络和一些较新的算法等。

在这个大数据技术爆发的时代,对于数据分析师的需求也迎来了大增长,数据分析师的职业前景也十分广阔。谢佳标告诉笔者他从事数据相关工作已经有八九年,在这个领域总是有很多新东西要研究,能给人带来很大的成就感和愉悦感。

在他看来,要成为一个优秀的数据分析师,首先要有态度,要保持一个认真的态度来对待。其次,要熟悉统计学知识,有很强的统计学知识或者数学逻辑的话,分析数据会更清晰有条理。最后,应该选择适合自己的工具来实现数据分析。

笔者让谢佳标为有志于从事R相关工作的人推荐文档或者书籍。谢佳标表示学习R最佳的方法是看官网,因为官网有很多完善的帮助文档。然后可以看一些入门书籍,比如《R语言实践》《R语言编程艺术》都是比较好的入门书籍。


时间: 2024-10-25 01:34:00

乐逗高级数据分析师谢佳标:基于R语言的大数据处理及建模技术的相关文章

高级数据分析师

高级数据分析师+大型互联网公司+北京+25-45W; 岗位描述: 1.与业务部门一起建立用户数据体系,为管理层决策和用户策略提供有质量的数据支持: 2.通过数据监控能快速精准的发现问题,并通过深入分析与业务部门沟通解决: 3.针对应用场景,建立数据产出.评估.应用规则,并不断修正逻辑: 4.负责用户的数据采集,根据实际业务优化,并推动实现采集和ETL优化: 5.根据业务形态和分析,逐渐积累可供业务产品使用的数据模型逻辑,组织跨部门协调沟通,推进产品实施,确保产品不断完善: 6.处理业务相关的临时

R语言和大数据

MaxCompute产品地址:https://www.aliyun.com/product/odps 安装R语言 R3.3版本会出现各种so不存在的问题,退回去到R3.1版本时候就顺利安装. 在安装R环境之前,先安装好中文(如果没有的话图表中显示汉字成框框了)和tcl/tk包(少了这个没法安装sqldf) sudo yum install fonts-chinese tcl tcl-devel tclx tk tk-devel -y 安装中文字体后重新加载 service xfs reload

《智能数据时代:企业大数据战略与实战》一1.3 大数据处理的关键——数据类型

1.3 大数据处理的关键--数据类型 体量大只是大数据概念的一部分.人们越来越认识到半结构化数据和非结构化数据也是大数据的重要部分,它们往往含有十分关键的商用信息,因而更加能够满足BI和商业操作的需要.而且我们应该认识到,非结构化的商业数据正在快速增长,并且在可预见的将来还会继续增长.数据可以分为以下三类:结构化数据.半结构化数据和非结构化数据.结构化数据通常适用于传统的SQL语言数据库等,其中数据按照事先定义好的业务规则被写入表中.结构化数据通常被认为是最易处理的数据类型,因为它可以被定义和检

《智能数据时代:企业大数据战略与实战》一1.4 大数据处理的微妙之处

1.4 大数据处理的微妙之处 处理不同类型数据的方式正趋于一致,因为进行数据处理的设备和应用程序都设置了指定的XML格式,以及特殊行业所专用的XML数据标准(如保险业的ACORD标准.健康医疗产业的HL7标准).XML技术扩展了大数据分析和集成工具可以处理的数据类型,但这些技术的转换能力仍然受到数据复杂性和数量的限制,从而使得现有的数据类型转换工具和数据转换的需求不匹配.因而开启了新类型的通用型数据类型转换工具的大门,新的转换工具能够适用于各种数据类型的转换与融合,而且不用编写代码,同时还能适用

数据分析师的职位划分

不同公司对数据分析师的职位划分稍有不同.在一些中小型企业,在没有成立独立的数据中心前,数据分析的相关职位往往是在市场部.运营部的管辖之下,人数通常在2-4人不等.对于一些大型企业,有独立的数据分析部门,团队成员也在数十人到百余人不等.对于职位头衔,有的按行政级别划分,如专员.主管.经理.总监等:也有的按专业水平划分,如助理.高级.资深.专家等. 数据分析职位整体上分为两大类: 数据分析师: - 专业能力成长路径:助理数据分析师-数据分析师-资深数据分析师-高级数据分析师 - 行政职位晋升路径:数

企业最需职业排行榜第一位——数据分析师

数据统计分析师,又被称之为数据分析师,目前多数企业招聘相关人员时,多用数据分析师.高级数据分析师.资深数据分析师等作为岗位名称发布招聘信息.由于数据分析师的工作成果通常没有直接产出,多作为职能支撑,所以又被称之为贤内助. 为什么数据分析师(数据统计分析师)是企业最佳贤内助? 1.数据时代的到来,企业经营决策已经不再完全是根据领导拍脑袋决定.越来越多的企业已经开始利用数据作为经营决策的支撑,这其中最重要的角色就是数据统计分析师. 2.数据统计分析师就像是企业的家庭医生,它能够通过数据监视企业经营的

百万自媒体大V的数据分析师成长线路,薪水过万难吗?

"他们需要从数据中找到有用的真相,然后解释给领导者." – Rchard Snee Emc 今天这个标题有点大,内容可能涉及的比较多,但也是数据君多年来一直想写的,却一直不敢写的.微博玩了7年,已有近120万的粉丝,微信玩了4年多,也有20万+粉丝了,许多人都知道这个账号,但从来不知道运营这个账号的是一个团队还是一个人? 我的数据分析师经历 第一阶段:与数据的接触 大学时代我的专业是统计学,一个二流本科里面的王牌专业,但是毕业后(2006年)发现很难找到对口的专业,于是选择了北上,在北

中国数据分析师行业峰会:数据分析 一门技术与艺术结合的学问

CNET科技资讯网 9月23日 北京消息(文/齐丰润): 在大数据盛行的今天,数据的分析以及应用对于各个企业都可以说是至关重要的,而在这背后就显示出了当今的大环境下对于优秀的数据分析人才的重视与需求.近日,由经管之家(原人大经济论坛)主办的2015中国数据分析师行业峰会在北京召开,主办方经管之家邀请了众多专家和名企来到现场,共同探讨中国数据分析师行业的发展之道,同时也吸引了许多数据分析人才到场.   非结构化大数据才是主流 处在当今这个时代里,对于任何企业来说,数据都绝对算的上是非常重要的一环,

数据分析师的能力和工具体系

之前我在回答里写过,数据分析师和圣骑士职业很相似,都需要"门门通".最近,我尝试对数据分析师的能力和工具体系进行梳理,以下内容为一家之言,仅供参考. 数据分析师的能力体系 如下图: 数学知识 数学知识是数据分析师的基础知识. 对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分. 对于高级数据分析师,统计模型相关知识是必备能力,线性代数(主要是矩阵计算相关知识)最好也有一定的了解. 而对于数据挖掘工程师,除了统计学以外,各类算法也需