数据挖掘技术的有趣应用:Kaggle的实践

Kaggle是创办于美国硅谷的一个近年来风头正劲的数据挖掘竞赛平台,汇集了全球83000多名数据科学家,致力于通过数据挖掘技术解决各种各样现实的问题。文本挑选了Kaggle上若干个有趣实例,让大家了解如何从海量的、看似模糊而随机的实际应用数据中,挖掘出隐含其中的有巨大价值的信息和知识,并指导我们的认知和决策的。

你的职位该给多少薪酬?

薪水的高低恐怕是职场人士们最关心的一个问题了,很多人想知道自己的职位到底在人才市场上值多少钱?而对招聘的企业来说,如果能为各个职位制定合理的薪酬,则既能招募到渴求的人才,又能有效的控制成本,何乐而不为。来自英国伦敦的数据挖掘公司Adzuna,就致力于此。Adzuna根据积累的海量职位薪酬数据,来为招聘双方提供薪酬的制定的科学依据。

图:根据积累的海量职位薪酬数据,来为招聘双方提供薪酬的制定的科学依据

Adzuna所记录的数据则非常全面,这些信息包括招聘公司(Company)、职位类型(Category)、头衔(Title),详细描述(Full Description), 具体工作地点(Location Tree),全职或兼职(ContractType),是否永久雇员(ContractTime),数据来源(SourceName),根据以上信息,对薪酬的预测采用通行的MAE(Mean Absolute Error)方法。截至目前,Adzuna竞赛中最好的预测算法MAE已达到了3796.7,预测值和实际成交值的误差接近10%,已十分精确。大数据挖掘技术不仅能为求职者提供深度的职业指导、薪酬情况和发展趋势预测,还是英国内阁高官的“幕后智囊团”。据报道,Adzuna开发的”Number 10 Dashboard”是首相官邸唐宁街10号专用的iPad应用,首相卡梅伦很喜欢通过这项应用提供的英国实时公共数据,及时了解失业率、职位空缺、薪资水平等经济发展情况的报告,并调整政府工作。

知道下一次你去超市的时间和花费的金额

去超市购物恐怕是我们日常生活中再普通不过的一件事情了,但是你可曾想过这背后有着严谨而复杂的数据分析工作?全球三大零售商之一的英国TESCO公司为此推出了海量顾客研究数据系统Dunnhumby Shop,并根据该系统中记录的消费者在过去若干年间历次购物的时间、消费金额等信息,发起举办了Dunnhumby Challenge竞赛,任务是预测每位消费者下一次来访问超市的时间和即将消费的金额。想不到计算机系统会比你更先一步了解你的购买行为吧。

图:改变以往零售行业靠经验和直觉进行决策的机制

这个数据挖掘任务属于统计学中的间断性偶发需求(Intermittent Demand),经过激烈角逐,来自俄罗斯的数据科学家D’yakonov Alexander从全球数据挖掘高手的竞争中脱颖而出,达到了最好的预测精度。指数加权移动平均法和针对性的算法优化起到了很好的作用。TESCO使用Clubcard记录的海量用户行为数据,以及大数据挖掘技术,正在成功帮助各个门店针对不同的顾客群体采取针对性的促销手段。与此同时,供应商也可以通过这个数据库清楚地了解到商品的市场反响,并对不同区域制订合理有效的价格和配货方案。通过开发数据这座宝藏,改变了以往零售行业靠经验和直觉进行决策的机制,让TESCO在与英国超市业其它竞争对手的赛跑中遥遥领先,斩获了丰厚的回报。

告诉你道路通行所需的时间

澳大利亚悉尼的M4高速公路是新南威尔士州(NSW)的一条交通大动脉,这条道路的畅通与否,直接影响着悉尼人的生活和工作。和全球很多高速公路一样,M4公路的交通状况时好时坏,澳大利亚道路与交通管理局(RTA)在Kaggle上发起的这项数据挖掘任务,就是根据过去2年时间里,M4公路各个路段(某入口至出口)感知器24小时不间断记录下的车辆实际通行时间记录,请数据科学家们来设计智能的模型,来预测接下来的任意时刻、指定路线的驾车通行时间。

图:M4公路交通状况的预测

经过一番激烈角逐,最终来自卡耐基梅隆大学的Jose Gonzale和Guido Cortes给出了预测精度最高的方案(RMSE=191.47)。该方案对历史数据所记录的时间和空间因素进行充分的挖掘和运用,既有对时间周期(每天第几小时、每周星期几、每月第几日)的不同维度的切分和统计,也有各子路段空间距离和通行先后的相互影响的数据建模,用不同的特征和数据组合方式构成决策树,再由300棵各不相同的决策树组合成一个随机森林(Random Forest)进行综合决策。最终这个构造良好的预测模型不仅应用在了悉尼交通调度系统上,也成为了悉尼人驾车出行时提前进行路径规划的好帮手。

雾霾天气让你早知道

空气污染已经是全球性的环境问题,根据世界卫生组织的统计,全世界约有2.35亿人在糟受哮喘以及相关疾病的折磨。对于少年儿童来说,污染空气对身体的伤害尤其巨大。和传统的天气情况不同,由于空气污染和人类的活动密切相关(例如行驶车辆的密度),通过历史数据挖掘能发现环境空气质量变化的过程,提高城市空气质量预警水平。

由EMC公司和Data Science Global联合发起的Air Quality Prediction竞赛就致力于通过大数据挖掘技术来更精确的进行空气质量预测,并能细致到小时级的预报。这个数据挖掘任务使用了美国伊利诺伊州(illinois)政府近年来记录的空气质量历史数据,这些信息不仅包括各个观测点的空气质量情况,还记录有各观测点的经纬度、海拔、风向、风速、气温、气压,阳光强度等详细数据。来自美国的Ben Hamner和澳大利亚的James Petterson给出了效果最好的预测模型。随着新技术的进步,不久的将来,数据挖掘系统提供更及时准确的空气质量预警,让相关人群提前规避外出活动,能有效减少污染对人体带来的伤害。

从笔迹就能分辨你的性别

笔迹分析是一件很有趣的工作,在刑事侦查或者法庭断案时,笔迹经常被作为重要呈堂证供。这是由于每个人运笔的方式、书写的格式都千差万别,从笔迹中往往判读出很多隐藏的信息。然而由专家们人工判读的方式非常耗时耗力,那么笔迹鉴定能否由计算机来代劳呢?卡塔尔大学的科学家们在Kaggle上提出了一个有趣的命题:如何让计算机根据笔迹自动判别写作者的性别?

图:通过笔迹就能分析出你的性别

了解机器学习的同学们都熟悉,这里性别的判别是一个典型的模式识别(Pattern Recognition)问题,通过挖掘系统所记录了大量已知性别用户的笔迹信息(阿拉伯数字、英文文章等),计算机程序通过“学习”这些笔迹信息后,会“聪明”的作出判断(如图)。

近几年来,大量训练样本和大数据挖掘的新方法的提出,从特征抽取、自动筛选、特征组合或降维,到模式分类和决策等各个环节,数据挖掘技术每一天都在前进。今天,计算机系统能解决的问题也比以前大大增加了。尤其近几年深度学习(Deep Learning)技术在图像、音频、文本挖掘等方面处理精度的突飞猛进,相信不久的将来,大数据挖掘系统能淘出海量数据中所蕴藏的越来越多的宝藏。


原文发布时间为:2013-07-28


时间: 2024-09-20 14:44:32

数据挖掘技术的有趣应用:Kaggle的实践的相关文章

总结Web数据挖掘技术教程

一.数据挖掘 数据挖掘是运用计算机及信息技术,从大量的.不完全的数据集中获取隐含在其中的有用知识的高级过程.Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用.Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式. 数据挖掘涉及的学科领域和方法很多,有多种分类法. (1)根据挖掘对象分:关系数据库.面向对象数据库.空间数据库.时序数据库.DNA 数据库.多媒体数据库.异

毕业论文-客户关系管理与数据挖掘技术综述_毕业论文

摘要:客户关系管理不仅是一种管理理念,又是一种旨在改善企业与客户之间关系的新型管理机制,也是一种管理软件和技术.数据挖掘能够对将来的趋势和行为进行预测,从而很好地支持人们的决策.CRM的成功在于成功的数据仓库.数据挖掘.    关键词:电子商务:客户关系管理:数据挖掘    Summarization Of CRM And Data Mining     YAN Yan, HU Hengsheng, CHEN Yuexin  (School of Computer Science ,Nation

XML与面向Web的数据挖掘技术

web|xml|数据   <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />        面向Web的数据挖掘   Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点.数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题.充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用.相对于Web的数据而言,传统的

空间数据挖掘技术理论及方法

数据  空间数据挖掘技术理论及方法葛继科 (西南农业大学信息学院 400716)   摘要  本文简要论述了空间数据库技术及空间数据挖掘技术的理论及特点,分析了空间数据挖掘技术的层次.方法,并重点介绍了当前常用的分类.聚类.关联规则等空间数据挖掘方法,指出了当前空间数据挖掘技术中尚需解决的问题.发展趋势及方向. 关键词 空间数据挖掘 分类 聚类 关联规则 0 引言 地理信息系统(Geographic Information System,简称GIS)是计算机科学.地理学.测量学.地图学等多门学科

数据挖掘技术简介

数据 摘要:数据挖掘是目前一种新的重要的研究领域.本文介绍了数据挖掘的概念.目的.常用方法.数据挖掘过程.数据挖掘软件的评价方法.对数据挖掘领域面临的问题做了介绍和展望. 关键词:数据挖掘 数据集合 1. 引言 数据挖掘(Data Mining)是从大量的.不完全的.有噪声的.模糊的.随机的数据中提取隐含在其中的.人们事先不知道的.但又是潜在有用的信息和知识的过程.随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急.数据挖掘就是为顺应这种

基于电子商务中的数据挖掘技术研究

1 引言 国际互联网络的日益普及,各种形式的信息大量地产生和收集导致了信息爆炸.现代社会的竞争趋势 要求对这些信息进行实时的和深层次的分析,虽然现在有了更强大的信息存储和检索系统.但是用户在分 析和使用所拥有的信息方面却变得越来越困难.如何对大量信息进行有效组织利用,使用户能够从大量繁 杂的信息中找出真正有价值的信息和知识,帮助企业制定更好的营销策略.信息处理技术有了新的应用研 究课题--数据挖掘.主要讨论采用数据挖掘技术在新兴的电子商务领域的应用研究. 2 电子商务与数据挖掘简介 电子商务是指

DockOne微信分享(七十九):基于容器技术构建企业级PaaS云平台实践

本文讲的是DockOne微信分享(七十九):基于容器技术构建企业级PaaS云平台实践[编者的话]企业级容器化PaaS平台旨在为企业应用提供底层支撑能力,覆盖应用开发.应用交付.上线运维等环节,包括代码的管理.持续集成.自动化测试.交付物管理.应用托管.中间件服务.自动化运维.监控报警.日志处理等,本次分享主要介绍基于容器技术构建PaaS平台所采用的相关技术.涉及的核心功能模块以及相关方案. 为满足以上需求,MoPaaS企业版基于Cloud Foundry及Kubernetes等开源技术框架和智能

DockOne微信分享(一一八):容器技术在企业级服务里的实践

本文讲的是DockOne微信分享(一一八):容器技术在企业级服务里的实践[编者的话]邻盛在做面向中小微企业做服务的时候, 实际遇到很多情况, 比如对方IT基础过于薄弱, 比如基础设施过于简陋, 比如产品要解决行业需求, 企业个性需求等等,经过几年积累目前摸索出了一套完整的产品方案.目前产品是以容器为核心的一套完整的PaaS平台+全新的微服务架构+底层能力构成的完整解决方案, 目前也进入到了几家传统大型制造企业协助他们完成新一代的信息升级. [深圳站|3天烧脑式Kubernetes训练营]培训内容

大数据挖掘技术之DM经典模型(上)

实际上,所有的数据挖掘技术都是以概率论和统计学为基础的. 下面我们将探讨如何用模型来表示简单的.描述性的统计数据.如果我们可以描述所要找的事物,那么想要找到它就会变得很容易.这就是相似度模型的来历--某事物与所要寻找的事物越相似,其得分就越高. 下面就是查询模型,该模型正在直销行业很受欢迎,并广泛用于其它领域.朴素贝叶斯模型是表查找模型中一种非常有用的泛化模型,通常表查询模型适用于较低的维度,而朴素贝叶斯模型准许更多的维度加入.还有线性回归和逻辑回归模型,都是最常见的预测建模技术.回归模型,用于