SAS数据挖掘浅谈

随着大数据的兴起,数据挖掘这一行也越来越火了。同时,各类大数据分析挖掘工具也越来越多,从最早的C、Java、excel、spss、SAS到现在Python、R、Hadoop,跨越了各行各业,从零售到互联网,从金融到医疗,都有了很大的发展。从我个人工作一年的经历来看,光数据挖掘工具,就用到了SAS、Python、R、Hadoop。从我个人看来,Python用于数据清洗确实比较方便,但是对于数据量稍微大一点,Python的运行效率还是不如SAS,R更适合跑算法模型,但是一旦数据到G级别的话,对于本机电脑如果只有4G的内存来说,还是有点鸡肋,相对SAS来说,R对于硬件要求相对来说要更高,Hadoop我用到的就只有其Hive数据库了,从存储量级来看,确实很不错,但是也存在性能不稳定以及数据的传输查询效率要远远低于传统的数据库oracle、TD等缺点。

从我个人喜好来看,虽然SAS还是比较古老的数据分析统计工具,但是我个人认为数据挖掘这一工具并不会被淘汰,主要有这么几点:

1.数据清洗的高效性:SAS数据处理通过结合data步和proc步来进行,效率非常高。一个简单的data步,可以实现各种各样的数据清洗,包括数据类型转化、数据观测的更改、删除、填补、简单的数据统计等等。而且承受的数据量级即使是千万级以上也不在话下。

2.模型算法的多样性:SAS里同样包含多种算法,从常见的聚类、逻辑回归、线性回归、非线性回归、到决策树、神经网络等,即使是本身不包含的协同过滤、最短路径、最小生成树等算法,我们也能够通过SAS编程实现。

3.SAS宏功能:SAS里面的宏特别常见,应用也特别广泛,从数据清洗的批量计算,到建模的参数输入,其实这一类宏也类似于R的所谓算法包,只是在SAS里面,以宏的形式存在着,我们同样可以通过以%macroname(宏参)的形式调用这些宏参数,避免重复繁琐的计算。同时,我们可以随时因为需求的改变,更改宏的定制,非常方便。

4.SAS IML矩阵模块:这一模型在Python中的numpy和R中matrix是类似的,通过对应的PROC IML过程,能够实现Python和R中对应的功能,而且计算方式也非常灵活,快捷。

时间: 2024-08-03 18:06:21

SAS数据挖掘浅谈的相关文章

《Hadoop与大数据挖掘》——第一篇 基 础 篇 第1章 浅谈大数据 1.1 大数据概述

第一篇 基 础 篇 第1章 浅谈大数据 当你早上起床,拿起牙刷刷牙,你是否会想到从拿起牙刷到刷完牙的整个过程中有多少细胞参与其中?这些细胞在参与的过程中会结合周围环境(可能是宏观的天气.温度.气压等,可能是微观的分子.空气中的微生物等),由你的意识控制而产生不同的反映.如果我说结合这些所有的信息,可以预测你接下来的0.000 000 01秒的动作,那么,你肯定说,这我也可以预测呀.比如正常情况下,你脚抬起来走路,那么抬起来后,肯定是要落下去的,这算哪门子预测呢?那如果我说可以预测你接下来一个小时

浅谈SEO过程中网页关键词的修改方法与注意事项

在SEO的相关论坛中经常会看到一些网友发帖说,想去修改一下自己的网页标题或者关键词,因为大部分想修改的朋友都是没有把握自己到底能不能修改完毕之后,百度不会将自己的网站或者网页进行降权或者K的处理.首先我们必须要弄明白三个问题: 1.百度对于关键词修改的处理方式与处理原则; 2.我们为什么要修改网站或者网页关键词; 3.目前百度虽然是一个中文引擎功能非常强大的搜索引擎,我们还的考虑一下,我们的流量分布情况,到底是百度的多还是谷歌的多,还是搜狗的多,还是Bing的多,还是Yahoo的多,还是soso

浅谈当今大热的机器学习与互联网

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 机器学习和互联网相结合,对于那些大公司来说不再是什么新鲜事,百度成立三大实验室,大数据实验室.深度学习研究院等也表明了百度在这一领域的决心和雄心.随着互联网企业用户的积累,软硬件的更新,想创造更大的利润,机器学习必然能起到关键的作用,它与互联网的结合必然也会推动整个互联网产业的一次巨大的发展,也是互联网发展的必然趋势. 今天,就从站长所关心的

浅谈大数据:如何成为大数据企业?

文章讲的是浅谈大数据:如何成为大数据企业,1.什么叫大数据? "大数据"是"数据化"趋势下的必然产物!数据化最核心的理念是:"一切都被记录,一切都被数字化".最近2年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和,更重要的是,数据来源极大丰富,形成了多源异构的数据形态,其中非结构化数据所占比重逐年增大.牛津大学互联网研究所Mayer-Schonberger教授指出,"大数据"所代表的是当今社会所独有的一种新型的

浅谈大规模Hadoop集群自动化部署与运维

文章讲的是浅谈大规模Hadoop集群自动化部署与运维,2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)于北京福朋喜来登集团酒店隆重举行.来自国内外各行业领域的近千名CIO.CTO.架构师.IT经理.咨询顾问.工程师.Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举. ▲IT168专题报道:http://www.it168.com/r

【转载】运维角度浅谈MySQL数据库优化

 运维角度浅谈MySQL数据库优化 2015-06-02 14:22:02 标签:mysql优化   mysql分库分表分区 mysql读写分离 mysql主从复制 原创作品,允许转载,转载时请务必以超链接形式标明文章 原始出处 .作者信息和本声明.否则将追究法律责任.http://lizhenliang.blog.51cto.com/7876557/1657465   一个成熟的数据库架构并不是一开始设计就具备高可用.高伸缩等特性的,它是随着用户量的增加,基础架构才逐渐完善.这篇博文主要谈My

浅谈Python中copy()方法的使用

  这篇文章主要介绍了浅谈Python中copy()方法的使用,Python中的拷贝分为潜拷贝和深拷贝,本文只是简单介绍用法,需要的朋友可以参考下 copy()方法返回字典的浅拷贝. 语法 以下是copy()方法的语法: ? 1 dict.copy() 参数 NA 返回值 此方法返回字典的浅拷贝. 例子 下面的例子显示了copy()方法的使用. ? 1 2 3 4 5 6 #!/usr/bin/python   dict1 = {'Name': 'Zara', 'Age': 7};   dict

浅谈document.write()输出样式

  这篇文章主要介绍了浅谈document.write()输出样式,十分的简单实用,有需要的小伙伴可以参考下. js中的最基本的命令之一:document.write(),用于简单的打印内容到页面上,可以逐字打印你需要的内容--document.write("content"),这里content就是需要输出的内容;当然还有一种情况,需要输出JS之中比如变量等等变化的东西,那么就需要用document.write(+variable);当然variable就是你想要输出的变量. 既然可

图标字体化浅谈[转]

在做手机端Web App项目中,经常会遇到小图标在手机上显示比较模糊的问题,经过实践发现了一种比较好的解决方案,图标字体化.在微社区项目中,有很多小的Icon(图 标),如分享.回复.赞.返回.话题.访问.箭头等,这些Icon(图标)一般都是纯色的.开始制作时考虑用双倍大小的Sprite图,通过CSS样式设 置只显示二分之一尺寸,这样在Retina屏上显示的大小是正常的,一旦放大屏幕后图标又变得模糊不清,测试的效果不是很理想,后来又考虑多套图标适配方 案.SVG矢量图等,都因为种种原因放弃掉了(