一种基于NoSQL的并行数据增量处理机制研究
华中科技大学 刘炜
云计算为数据处理工作带来了新的机遇与挑战。传统的关系型数据库在大数据的需求面前显得力不从心,而分布式非关系型数据库由于其高可靠性、高可用性的特性,能够满足大数据带来的高并发、高读写需求。然而,分布式非关系型数据库优越的性能是以牺牲SQL数据处理能力为代价的。因此,提高非关系型数据库的数据处理能力就成为一个重要的研究课题。非关系型数据库数据处理能力可以从离线数据处理和在线数据处理两个方面进行提高。在离线数据处理方面,将开源MapReduce数据处理系统Hadoop与非关系型数据库相结合,通过为非关系型数据库实现Hadoop作业配置模块、数据分片模块、数据输入和输出模块,Hadoop能直接对存储在非关系型数据库中的海量数据进行处理,既保留了非关系型数据库高可靠、高可用的特性,又增强了系统对数据的离线批处理能力。而在在线数据处理方面,首先基于非关系型数据库内置的分布式单行事务功能,通过一系列存储控制过程实现分布式多行事务算法。其次通过在数据库表中增加冗余列和为数据库系统调用注册钩子函数的方法,在非关系型数据库中实现类似触发器的消息通知机制。根据多行事务算法和消息通知机制,针对具体应用场景,在非关系型数据库中实现增量数据处理,以满足在线数据处理的需求。针对包含4,200,000条结构化数据记录的数据集进行了测试。
一种基于NoSQL的并行数据增量处理机制研究
时间: 2024-09-22 08:10:12