问题描述
数据集如下4,301830,490259,04,301830,417942,04,301830,422319,04,490259,460258,04,490259,544971,05,29612,497589,05,29612,449928,05,29612,278311,05,29612,402632,05,101817,449928,06,495770,365559,07,83092,25067,07,83092,2862,08,175667,224848,010,224848,29612,010,224848,128089,010,37192,29612,010,29612,128089,011,536007,150267,0。。。。。。。。。。数据集形式如上,实际的数据量非常大,数据集保存在一个文件中,以数据流的形式流入算法中进行处理,具体想做以下的事情:根据算法第一列的数值,统计出相同第一列值的记录个数,将具有相同第一列值的记录的第二、三列数值保存起来,由于数据量很大,数据不断流入,不知道怎么存储比较高效,而且好处理,向各位请教。
解决方案
解决方案二:
放到数据库里,用sql找出来,这样应该是最高效的可以试试hsqldb,很轻量的
解决方案三:
引用1楼bayougeng的回复:
放到数据库里,用sql找出来,这样应该是最高效的可以试试hsqldb,很轻量的
hsqldb不了解能具体下怎么做么比较着急
解决方案四:
http://hsqldb.org/下载下来,把jar放到classpath里,然后按照介绍把url搞对就OK了
解决方案五:
引用3楼bayougeng的回复:
http://hsqldb.org/下载下来,把jar放到classpath里,然后按照介绍把url搞对就OK了
事实上我想做数据流聚类不知道能不能用这个工具还有就是结果可以存储吗
解决方案六:
第一列数存储到一个hashmap,每遍历一行时,把第一列在hashmap里找,同时把当前第一列的值保存map中;找到就说明存在重复(接下来做你保存的动作),每找到说明还没有重复
解决方案七:
引用5楼blazingfire的回复:
第一列数存储到一个hashmap,每遍历一行时,把第一列在hashmap里找,同时把当前第一列的值保存map中;找到就说明存在重复(接下来做你保存的动作),每找到说明还没有重复
这个数据集是以数据流的形式以一定的时间间隔逐步得到的您能给出相关的代码吗我刚开始学java我邮箱:dyhlpt@163.com多谢了