互联网访问数据预处理研究与应用 --基于Hadoop

互联网访问数据预处理研究与应用 --基于Hadoop

东华大学  黄航辉

本文的主要研究内容是:基于Hadoop环境下的互联网访问日志数据预处理相关技术的研究与应用。首先,简要概述了论文的选题背景与意义,并介绍了本文的主要研究内容和国内外的相关研究现状;然后,对Web口志挖掘进行了简要概述,重点阐述了其中的Web日志预处理,并对其中的每个步骤进行了概括。其次,介绍了当前热门的大数据分布式处理平台——Hadoop,通过对目前单机大数据处理技术的研究,将其移植到Hadoop环境中。在研究的基础上,提出一种基于并查集的会话识别算法,并根据日志Cookie中用户的相关账号信息进行用户识别。为后期的数据挖掘提供较为准确的用户信息数据。最后,在用户识别的基础上,对用户浏览日志中的搜索记录进行自然语言处理,提取出用户的搜索关键词以及关键词的分类信息。通过这些搜索关键字将来就可以归纳出用户一段时间内的兴趣点。论文在已有研究的基础上,主要做了以下几个方面的创新研究工作:首先探讨了互联网Web日志挖掘中的一个关键问题,即Web日志的数据预处理问题;针对目前单机大数据处理模式的不足,成功将其移植到分布式处理平台Hadoop中;根据用户浏览页面的链接关系提出了一种并查集的会话识别算法,并根据用户相关账户信息进行用户识别;又通过用户搜索记录的自然语言处理,归纳出用户的搜索关键词及分类信息,为后期用户兴趣爱好,行为习惯的挖掘工作做好了充分准备。通过本文的研究工作,将为今后的Web日志预处理研究打下坚实基础。

互联网访问数据预处理研究与应用 --基于Hadoop

时间: 2024-10-23 17:38:35

互联网访问数据预处理研究与应用 --基于Hadoop的相关文章

机器学习项目中的数据预处理与数据整理之比较

要点 在常见的机器学习/深度学习项目里,数据准备占去整个分析管道的60%到80%. 市场上有各种用于数据清洗和特征工程的编程语言.框架和工具.它们之间的功能有重叠,也各有权衡. 数据整理是数据预处理的重要扩展.它最适合在可视化分析工具中使用,这能够避免分析流程被打断. 可视化分析工具与开源数据科学组件之间,如R.Python.KNIME.RapidMiner互为补充. 避免过多地使用组件能够加速数据科学项目.因此,在数据准备步骤中利用流式获取框架或流式分析产品会是一个不错的选择. 机器学习和深度

基于Hadoop云计算平台的图像分类与标注

基于Hadoop云计算平台的图像分类与标注 陆寄远 黄承慧 侯昉 李斌 为有效处理并利用互联网海量的图像和视频数据,提出了一种基于Hadoop云平台的图像分类和标注解决方案.针对如何高效地进行训练集提取这一重要问题,搭建了基于云计算的图像抓取平台,利用互联网的图像资源作为原始数据集,为提取训练集图像提供足够的数据;实现了基于概率潜在语义分析模型的训练集图像提取功能,对原始数据集进行基于主题的聚类,帮助用户快速选取训练集图像;加入了SVM分类模型,利用提取出来的训练集对未标注图像进行分类标注,实现

基于Hadoop的微博热点话题挖掘系统研究与设计

基于Hadoop的微博热点话题挖掘系统研究与设计 陆瑶  李振婷 本文首先介绍了Web数据挖掘理论.Hadoop技术理论及国内外微博热点话题挖掘领域研究现状.在此基础上对传统微博热点话题挖掘方法进行综合及改进,旨在研究与设计基于Hadoop的微博热点话题挖掘系统. 关键词:Hadoop:数据挖掘:微博:热点话题 基于Hadoop的微博热点话题挖掘系统研究与设计

大数据及在当代互联网应用中的研究

大数据及在当代互联网应用中的研究 厦门大学 林荣耀 本文在这样的情况下,主要研究几方面的内容1.对大数据的现状和定义进行重新分析,深入了解何为大数据以及如今行业和市场对大数据的理解,再分析了大数据的多个研究方向,更好的了解大数据本身.2.对大数据普及的现状进行分析,阐述了如何对大数据的庞大数据集进行瘦身以及展望大数据市场未来发展的情况.3.从本人工作所涉及到的电子商务大数据预测的情况出发,对基于时间戳的网页点击数据进行预处理和分析,从而可以对业务进行更准确的预测.4.从目前流行的互联网在线社区获

云计算中基于否定规则的访问控制技术的研究

云计算中基于否定规则的访问控制技术的研究 吴正学 戴牡红 数据的安全性和隐私保护给云计算领域带来了极大挑战,为实现合作企业间在云环境下公开共享部分数据且不涉及保密信息,提出一种基于否定规则的访问控制技术.主要思想是通过判断访问查询是否授权,检测授权与否定规则是否存在冲突,来达到阻止非法访问的目的.理论分析和实验结果表明该机制能有效地保障云数据的安全. 云计算中基于否定规则的访问控制技术的研究

基于Hadoop架构的移动终端云资源访问模式研究与应用

基于Hadoop架构的移动终端云资源访问模式研究与应用 北京工业大学  汤艳 为了在Hadoop架构上建立移动终端云资源访问模式,首先对Hadoop架构的基本组成进行深入了解,并着重分析其核心组件HDFS分布式文件系统和MapReduce分布式编程模型的工作原理.由于Hadoop和云计算在观点和关键技术上的一致性,使得Hadoop成为面向分布式的云计算平台.其次,将云资源访问模式分为数据存储策略.请求调度算法和数据响应方式三个方面进行讨论,并对Hadoop架构下常见的云资源访问模式进行分析.然后

基于互联网大数据的管理创新

信息技术革命与市场的重构,已经诱发了一种新的网络社会形式.网络社会崛起带来社会结构转型,国内外互联网数字和信息产业正面临巨大变革.对于管理者来说,如何迎接历史上最深刻的信息技术革命,以及方兴未艾的数据革命和智慧革命? 2016年6月,中国网民7.10亿,手机网民6.56亿,互联网普及率达到51.7%,移动互联网塑造的社会生活形态进一步加强.我们有世界上最大的互联网舆论场.最大的市场.互联网时代,信息海洋,数据大爆发,一切都被记录为数据,都变得可以测量.数据.信息已经成为21世纪以后最宝贵的资源和

新机遇:基于互联网大数据的管理创新

作者:人民网舆情监测室副秘书长.人民网新媒体智库高级研究员 刘鹏飞 信息技术革命与市场的重构,已经诱发了一种新的网络社会形式.网络社会崛起带来社会结构转型,国内外互联网数字和信息产业正面临巨大变革.对于管理者来说,如何迎接历史上最深刻的信息技术革命,以及方兴未艾的数据革命和智慧革命? 2016年6月,中国网民7.10亿,手机网民6.56亿,互联网普及率达到51.7%,移动互联网塑造的社会生活形态进一步加强.我们有世界上最大的互联网舆论场.最大的市场.互联网时代,信息海洋,数据大爆发,一切都被记录

基于数据消冗技术的大数据加密算法研究

基于数据消冗技术的大数据加密算法研究 华北水利水电大学   王蒙蒙 论文的主要研究内容和创新点包括:1.大数据通用加密模型及加密技术原理研究.在对大数据基本特征及通用加密模型进行系统研究的基础上,深入剖析了基于现代密码体制.基于生物工程.基于属性基和基于并行计算四类大数据加密方案的技术原理和优缺点. 2.提出了一种基于Bloom filter技术的大数据消冗算法.根据大数据信息海量.数据量增长快.数据类型多样化.密度低和冗余度高等基本特征,深入研究了完全文件.固定长度块.变长分块和滑动窗口4种消