大数据-程序需要处理的数据量很大的时候该怎么做呢?

问题描述

程序需要处理的数据量很大的时候该怎么做呢?

如果程序一次需要处理的数据有很多,比如上千万条宠物信息,保存在txt中有100多个G,这时候需要对每条宠物数据做逐一处理,然后对处理结果分类综合再进行二次处理。
操作的时候,所有数据都同时放到内存中不太现实,请问这种情况下一般的处理思路是什么?
想的是做一个中间文件,第一次处理的时候,处理一条数据保存一条数据。但因为二次处理需要对所有的数据综合分析,所以还是要完全读取中间文件的数据。
刚做这方面的内容,请各位前辈多多指点,十分感谢。

解决方案

如果综合分析这个过程满足结合律,或者部分满足结合律,可以考虑借鉴Hadoop中的partition过程,即:
从初始文件读入,分析后根据数据内容写到多个文件中,将需要统计分析的数据放到同一个文件中,然后逐个文件分析

解决方案二:

你这不就是hadoop适合做的事情嘛,找个hadoop的文章,搞个helloworld试试去吧。

解决方案三:

为什么不用数据库。如果你不用数据库,你要做的事情就是自己做一个类似数据库的东西。比如用hashtable、btree等等。

解决方案四:

看下批处理的方法,然后试试吧

解决方案五:

存到数据库,到操作时一部分,一部分的读取到链表,然后操作链表,再存回数据库

解决方案六:

如果处理好这个问题,相当于楼主自己写了一个数据库软件,数据库中信息较多,我们通常都需要把相同结构的数据分表操作,何况楼主说的是接近100G这么大的信息量,就算放到数据库,我们也还需要考虑性能问题,比如说集群服务器等等,更别说增删改查排序了。所以楼主还是尝试数据库软件这些现行办法比较好。

时间: 2025-01-18 21:40:01

大数据-程序需要处理的数据量很大的时候该怎么做呢?的相关文章

关键字的模糊匹配,数据量很大,在C#中有没有高效一点的办法,不用数据库,谢谢

问题描述 关键字的模糊匹配,数据量很大,在C#中有没有高效一点的办法,不用数据库,谢谢 关键字的模糊匹配,数据量很大,在C#中有没有高效一点的办法,不用数据库,谢谢 解决方案 分词,倒排索引,然后查询.总之要想速度快,需要多花一些存储空间. 解决方案二: C# 匹配

由于数据插入量很大,想通过C#调OCI来实现,不知道应该怎么做,请指点.

问题描述 由于数据插入量很大,想通过C#调OCI来实现,不知道应该怎么做,请指点.

c++-只有max循环时程序运行正常,当我把求最小值加入循环时,程序输出的数字变得很大很大,可以帮我看看吗?谢谢

问题描述 只有max循环时程序运行正常,当我把求最小值加入循环时,程序输出的数字变得很大很大,可以帮我看看吗?谢谢 #include using namespace std; int main() { int a[5],i,max,min; for(i=0;i<=4;i++) { cin>>a[i]; } for (i=0;i<=4;i++) { if(a[i]>a[i++]) {max=a[i];min=a[i++];} else {max=a[i++];min=a[i++

求解决方案:在数据库数据量很大时(如几百上千万条record),如何查找数据,以及分页显示在页面中。

问题描述 如题,这应该是比较常遇到的情况,希望大家讨论下有哪些解决方案,有简单的代码就最好了. 解决方案 解决方案二:只能数据库分页...解决方案三:请问数据库分页是什么意思?和web里的分页应该不同吧?解决方案四:使用hibernate分页.解决方案五:就是在数据库里就把满足条件的记录的某些行查询出来,不同的数据库sql写法是不一样的,oracle用rownum来分页,sqlserve用top.现在的一些orm如hibernate就可以帮你搞定这些,具体的实现细节不用你去做解决方案六:John

数据量过大时数据库操作的处理

数据|数据库 随着"金盾工程"建设的逐步深入和公安信息化的高速发展,公安计算机应用系统被广泛应用在各警种.各部门.与此同时,应用系统体系的核心.系统数据的存放地――数据库也随着实际应用而急剧膨胀,一些大规模的系统,如人口系统的数据甚至超过了1000万条,可谓海量.那么,如何实现快速地从这些超大容量的数据库中提取数据(查询).分析.统计以及提取数据后进行数据分页已成为各地系统管理员和数据库管理员亟待解决的难题. 在以下的文章中,我将以"办公自动化"系统为例,探讨如何在

大数据到底怎么学:数据科学概论与大数据学习误区

"数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at Kaggle 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问题.由于大数据技术涉及内容太庞杂,大数据应用领域广泛,而且各领域和方向采用的关键技术差异性也会较大,难以三言两语说清楚,本文从数据科学和大数据关键技术体系角度,来说

分布式大数据系统巧实现,全局数据调度管理不再难

背景 看到这个题目,我们会有很多疑问:什么是分布式大数据系统中的全局数据管理?为什么要从全局对数据进行管理?这种对数据从全局进行分布和调度的策略是在什么样的背景下产生的?如果我们不解决全局数据管理的问题,分布式大数据系统中将会面临一些什么样的风险? 总的来说:基于大数据,云计算的需求,加快了分布式系统的发展:开源分布式系统的发展,让海量数据存储和处理变的简单:产生了很多为了解决特定问题,服务特定业务的专有集群:集群之间数据无法共享,存在冗余甚至重复,迁移和复制代价高昂,同时还面临数据校验,验证和

阿里云大数据利器Maxcompute学习之--数据同步任务常见日志报错总结

在使用大数据开发套件时最常用的就是数据同步模块,工单里最常见的问题就是其中数据同步的问题,这里总结一些常见一些从Maxcompute到其他数据源的同步任务报错案例,主要是日志中出现数据回滚写入的问题.   那首先看下日志中数据回滚的原因,当数据写入rds或者hybridDB等一些支持事务的数据库中,数据批量写入,一旦由于各种原因没有写入成功,这个批次的数据会回滚重新写入,如果再次写入失败,就会报脏数据的错误导致任务失败.数据写入失败可能是以下原因导致回滚.1,脏数据(数据值超过数据类型最大范围,

邓锋:早期估值是愿打愿挨的事 估值空间很大

在发展高速的TMT产业如 何做好投资?Preangel创始人王利杰,北极光创投董事总经理创始人邓锋,Andreessen horowit的合伙人陈梅陵这三个著名投资人就这个问题,在GMIC 2013大会分享了自己的经验. 王利杰:非常荣幸主持接下来 对话环节,我们我们在座都是做投资的,经常会看很多创新的项目,要跟创业者探讨很多他们创业所谓的颠覆的商业模式.今天下午谈谈天使投资领域有什么创新更好服务于创业者,能够更好给我们所服务的基金带来更高的回报或者做一些更加符合潮流的事情.接下来两位嘉宾,主持