一分钟了解互联网数据挖掘流程


 

1、爬虫抓取网络数据

真实的数据挖掘项目,一定是从获取数据开始的,除了通过一些渠道购买或者下载专业数据外,常常需要大家自己动手爬互联网数据,这个时候,爬虫就显得格外重要了。

Nutch爬虫的主要作用是从网络上抓取网页数据并建立索引。我们只需指定网站的顶级网址,如taobao.com,爬虫可以自动探测出页面内容里新的网址,从而进一步抓取链接网页数据。nutch支持把抓取的数据转化成文本,如(PDF、WORD、EXCEL、HTML、XML等形式)转换成纯文字字符。

Nutch与Hadoop集成,可以将下载的数据保存到hdfs,用于后续离线分析。使用步骤为:

  • 向hdfs中存入待抓取的网站url

$ hadoop fs -put urldir urldir

注:

第一个urldir为本地文件夹,存放了url数据文件,每行一个url地址

第二个urldir为hdfs的存储路径。

  • 启动nutch,在NUTCH_HONE目录下执行以下命令

$ bin/nutch crawlurldir –dir crawl -depth 3 –topN 10

命令成功执行后,会在hdfs中生成crawl目录。

2、MapReduce预处理数据

对于下载的原始文本文档,无法直接进行处理,需要对文本内容进行预处理,包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。

常用的文本预处理算法是TF-IDF,其主要思想是,如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来做分类。

  • 输入原始文本内容:

Againit seems that cocoa delivered……

  • 执行TF-IDF预处理:

hadoop jar $JAR SparseVectorsFromSequenceFiles……

  • 输出文本向量:

9219:0.246 453:0.098 10322:0.21 11947:0.272 ……

每一列是词及其权重,使用冒号分隔,例如“9219:0.246”表示编号为9219的词,对应原始单词为“Again”,其权重值为0.246。

3、Mahout数据挖掘

预处理后的数据就可以用来做数据挖掘。Mahout是一个很强大的数据挖掘工具,是分布式机器学习算法的集合,包括:协同过滤、分类、聚类等。

以LDA算法为例,它可以将文档集中每篇文档的主题按照概率分布的形式给出。它是一种无监督学习算法,在训练时不需要手工标注主题,需要的仅仅是指定主题的数量K。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。

  • 输入预处理后的数据:

9219:0.246 453:0.098 ……

  • 执行LDA挖掘算法:

mahout cvb –k 20……

  • 输出挖掘结果:

topic1 {computer,technology,system,internet,machine}

topic2 {play,film,movie,star,director,production,stage}

我们可以获知用户的偏好是哪些主题,这些主题是由一些关键词组成。

4、Sqoop导出到关系数据库

在某些场景下,需要把数据挖掘的结果导出到关系数据库,用于及时响应外部应用查询。

sqoop是一个用来把hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL ,Oracle 等)中的数据导入到hadoop的hdfs中,也可以将hdfs的数据导出到关系型数据库中:

sqoop export –connect jdbc:mysql://localhost:3306/zxtest –username root–password root –table result_test –export-dir /user/mr/lda/out

export操作实现把hdfs目录/user/mr/lda/out下数据导出到mysql的result_test表。

本文作者:佚名

来源:51CTO

时间: 2024-11-01 03:12:50

一分钟了解互联网数据挖掘流程的相关文章

重磅干货丨互联网数据挖掘导论

本文说的主题是关于「数据挖掘」,以下为内容大纲,让大家对互联网搜索与挖掘有一个宏观的了解,即知道要做什么和怎么做.注:本文的框架来源于北京大学万小军开设的互联网数据挖掘 Web Data Mining 课程,笔者对内容进行了筛选和编排,用来作为『不周山之数据挖掘』系列的导论部分. 任务目标 了解搜索和自然语言处理的基本知识 熟悉数据挖掘的流程与各个步骤所用的技术 对数据挖掘的应用场景有基本的认识 写在前面 随着互联网的日益蓬勃发展,如何从广袤的信息海洋中提取出有价值的信息.模式和关系,逐渐成为了

一分钟之内互联网发生了什么?

一分钟之内,Instagram分享216000张图片,亚马逊销售8.3万美元产品,Facebook诞生180万个"赞(Like)",YouTube上传了3天的视频.Qmee最近制作了一张信息图,用数据向我们展示一分钟之内互联网数据的变化,比如,发了多少微博.看了多少照片.打了多少分钟的Skype电话.注册了多少域名.   信息图的数据来自PC Mag.Business Insider及其它网站. 每一分钟,Google执行200万次搜索,60分钟里YouTube上传72小时视频.每分钟

一分钟之内互联网发生了什么

       Qmee最近制作了一张信息图,向我们展示一分钟之内互联网的变化,比如,发了多少微博.看了多少照片.打了多少分钟的Skype电话.注册了多少域名. 信息图的数据来自PC Mag.Business Insider及其它网站. 每一分钟,Google执行200万次搜索,60分钟里YouTube上传72小时视频.每分钟注册域名70个,诞生571个新网站.一分钟发送邮件2.04亿,有27.8万个"Tweets"诞生. 去年6月时,Go-Globe.com也制作了一张相同的信息图.对

谷歌一家宕机五分钟 全球互联网流量雪崩40%

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 人类社会的运转,似乎已经离不开强大的谷歌(微博),谷歌对于全球互联网的运营,影响有多重要?美国时间6月16日下午,谷歌发生了五分钟的宕机事故,第三方专业公司的统计显示,在这个"黑色五分钟"内,全球互联网的访问流量,雪崩了40%. 谷歌这次宕机,发生在下午3点50分到3点55分之间.该公司表示,故障涉及了网络搜索.YouTu

一分钟之内,互联网发生了什么?

一分钟之内,Instagram分享216000张图片,亚马逊销售8.3万美元产品,http://www.aliyun.com/zixun/aggregation/1560.html">Facebook诞生180万个"赞(Like)",YouTube上传了3天的视频. Qmee最近制作了一张信息图,向我们展示一分钟之内互联网的变化,比如,发了多少微博.看了多少照片.打了多少分钟的Skype电话.注册了多少域名. 信息图的数据来自PC Mag.Business Inside

互联网盈利模式77种创新(三)

43.网络套餐 多数人都不大喜欢去学习新东西,尤其是新的技术,这是企业上网的最大障碍.最主要的原因之一就在于从上网.网站设计到站点的经营管理需要学习大量的新概念.新知识.新技术.对于中国和亚太地区的企业来说,这种状况更加严重.但是中国和亚太将是本世纪的网络金矿!利用最少的时间.成本建立商业网站是目前抢攻网络市场的基本概念!当这两个热门概念撞到一起时,会有什么结果?结果就是推出面向企业的网络套餐服务. 亚太市场的网站将抢得头破血流,谁找到最有效的建站方式,谁就夺得先机.以这两个概念为商业模式的As

数据挖掘技术简介

数据 摘要:数据挖掘是目前一种新的重要的研究领域.本文介绍了数据挖掘的概念.目的.常用方法.数据挖掘过程.数据挖掘软件的评价方法.对数据挖掘领域面临的问题做了介绍和展望. 关键词:数据挖掘 数据集合 1. 引言 数据挖掘(Data Mining)是从大量的.不完全的.有噪声的.模糊的.随机的数据中提取隐含在其中的.人们事先不知道的.但又是潜在有用的信息和知识的过程.随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急.数据挖掘就是为顺应这种

一小时了解数据挖掘⑤数据挖掘步骤&常用的聚类、决策树和CRISP-DM概念

接前面系列4篇: 一小时了解数据挖掘①:解析常见的大数据应用案例  一小时了解数据挖掘②:分类算法的应用和成熟案例解析 一小时了解数据挖掘③:详解大数据挖掘の分类技术 一小时了解数据挖掘④:商务智能原理解读の数据挖掘九大定律 数据挖掘有很多不同的实施方法,如果只是把数据拉到Excel表格中计算一下,那只是数据分析,不是数据挖掘.本文主要讲解数据挖掘的基本规范流程.CRISP-DM和SEMMA是两种常用的数据挖掘流程. 数据挖掘的一般步骤 从数据本身来考虑,数据挖掘通常需要有信息收集.数据集成.数

互联网或许弱不禁风

一位黑客曾告诉美国国会,他能在半小时内让整个互联网全部瘫痪.这位黑客名叫Peiter Zatko,是"黑客智囊团"L0pht的成员,他现在,正在为五角大楼的国防部高级研究计划署新的工作.Zatko称互联网的很多漏洞至今仍然有效.但是他还是需要几个小时才能够使互联网全部瘫痪,其中部分的原因是因为互联网载体(carriers)数量的不断增加. 无论是发电子邮件还是浏览网页.你阅读和传输信息,都是从一个数据载体传到另一个载体,传输路线有些时候非常的漫长.问题在于,每个载体只是根据路线上周围的