java处理数据集

问题描述

数据集如下4,301830,490259,04,301830,417942,04,301830,422319,04,490259,460258,04,490259,544971,05,29612,497589,05,29612,449928,05,29612,278311,05,29612,402632,05,101817,449928,06,495770,365559,07,83092,25067,07,83092,2862,08,175667,224848,010,224848,29612,010,224848,128089,010,37192,29612,010,29612,128089,011,536007,150267,0。。。。。。。。。。数据集形式如上,实际的数据量非常大,数据集保存在一个文件中,以数据流的形式流入算法中进行处理,具体想做以下的事情:根据算法第一列的数值,统计出相同第一列值的记录个数,将具有相同第一列值的记录的第二、三列数值保存起来,由于数据量很大,数据不断流入,不知道怎么存储比较高效,而且好处理,向各位请教。

解决方案

解决方案二:
放到数据库里,用sql找出来,这样应该是最高效的可以试试hsqldb,很轻量的
解决方案三:
引用1楼bayougeng的回复:

放到数据库里,用sql找出来,这样应该是最高效的可以试试hsqldb,很轻量的

hsqldb不了解能具体下怎么做么比较着急
解决方案四:
http://hsqldb.org/下载下来,把jar放到classpath里,然后按照介绍把url搞对就OK了
解决方案五:
引用3楼bayougeng的回复:

http://hsqldb.org/下载下来,把jar放到classpath里,然后按照介绍把url搞对就OK了

事实上我想做数据流聚类不知道能不能用这个工具还有就是结果可以存储吗
解决方案六:
第一列数存储到一个hashmap,每遍历一行时,把第一列在hashmap里找,同时把当前第一列的值保存map中;找到就说明存在重复(接下来做你保存的动作),每找到说明还没有重复
解决方案七:
引用5楼blazingfire的回复:

第一列数存储到一个hashmap,每遍历一行时,把第一列在hashmap里找,同时把当前第一列的值保存map中;找到就说明存在重复(接下来做你保存的动作),每找到说明还没有重复

这个数据集是以数据流的形式以一定的时间间隔逐步得到的您能给出相关的代码吗我刚开始学java我邮箱:dyhlpt@163.com多谢了

时间: 2024-10-21 11:55:39

java处理数据集的相关文章

【转】java枚举使用详解

在实际编程中,往往存在着这样的"数据集",它们的数值在程序中是稳定的,而且"数据集"中的元素是有限的. 例如星期一到星期日七个数据元素组成了一周的"数据集",春夏秋冬四个数据元素组成了四季的"数据集". 在Java中如何更好的使用这些"数据集"呢?因此枚举便派上了用场,以下代码详细介绍了枚举的用法. Java代码   package com.ljq.test;      /**   * 枚举用法详解   *

Java Persistence with Hibernate中文版Hibernate实战第2版出版

Java Persistence with Hibernate中文版Hibernate实战第2版出版 图灵出版社官方Hibernate实战(第2版)链接为: http://www.turingbook.com/Books/ShowBook.aspx?BookID=260 书 名: Hibernate实战(第2版) 评论星级: **** 书 号: 978-7-115-17448-2 原 书 名: Java Persistence with Hibernate 原出版社: Manning Publi

Java中的ReentrantLock和synchronized两种锁机制的对比

原文:http://www.ibm.com/developerworks/cn/java/j-jtp10264/index.html 多线程和并发性并不是什么新内容,但是 Java 语言设计中的创新之一就是,它是第一个直接把跨平台线程模型和正规的内存模型集成到语言中的主流语言.核心类库包含一个 Thread 类,可以用它来构建.启动和操纵线程,Java 语言包括了跨线程传达并发性约束的构造 -- synchronized 和 volatile.在简化与平台无关的并发类的开发的同时,它决没有使并发

心得总结:Java性能优化技巧集锦

技巧|心得|性能|优化 一.通用篇 "通用篇"讨论的问题适合于大多数Java应用. 1.1 不用new关键词创建类的实例 用new关键词创建类的实例时,构造函数链中的所有构造函数都会被自动调用.但如果一个对象实现了Cloneable接口,我们可以调用它的clone()方法.clone()方法不会调用任何类构造函数. 在使用设计模式(Design Pattern)的场合,如果用Factory模式创建对象,则改用clone()方法创建新的对象实例非常简单.例如,下面是Factory模式的一

jfreechart 的java对象关系简释

chart|java对象  jfreechart 的java对象关系简释 博客中国分类:java技术,  jfreechart是一个优秀的开源JAVA 2D项目,缺点是缺乏文档,中英文都是如此.本文是经验总结的第二部分 二.jfreechart作图类对象的协调关系 jfreechart 的绘图对象由一个org.jfree.chart.JFreeChart组成,但作为绘图关键的Graphich2d通过 org.jfree.chart.render.*中的对应render类包装后设入,换言之,开发者

XML 和 Java:一个强大的组合

xml XML当它在1996年11月首次由WWW小组( W3C)提出时就是一个能够被很好接受的规范.现在,它与Java从本质上的结合--即把Java程序中的与XML相关的代码部分和对Java语义(动作)编码的部分转换成XML的标记,承诺能够向企业或更高层提供更简单和更具创造力的应用计算.Larry Cable 和 Mark Reinhold 是Sun公司的两名老资格的工程师,他们在最近召开的JavaOne开发者大会的"Java平台上的XML"技术会议部分发言,根据他们的发言,关注这种技

sqlserver在JAVA中的应用

server|sqlserver 一.应用JDBC-ODBC桥 1. 在sqlserver中建数据库和表 2. 创建数据源] (1) 开始->设置->控制面板->管理工具->ODBC数据源 (2) 在USER DSN下点击Add按钮,弹出Create NewDataSource对话框 (3) 选择sqlserver->完成 (4) 指定Name为你的数据源名,server为sqlserver服务器所在的主机的IP地址,若在本机,可以为(local),localhost,127

PHP 直接在共享内存中存储数据集

共享内存是一种在相同机器中的应用程序之间交换数据的有效方式.一个进程可创建一个可供其他进程访问的内存段,只要它分配了正确的权限.每个内存段拥有一个惟一的 ID(称为 shmid),这个 ID 指向一个物理内存区域,其他进程可在该区域操作它.创建并提供了合适的权限之后,同一台机器中的其他进程就可以操作这些内存段:读取.写入和删除. 这表明使用 C 语言编写的应用程序可与使用其他语言(比如 Java 或 PHP)编写的应用程序共享信息.它们都可以共享信息,只要它们可访问和理解该信息.共享内存在针对大

Java性能优化技巧集锦

技巧|性能|优化 =================================== 摘要: =================================== 可供程序利用的资源(内存.CPU时间.网络带宽等)是有限的,优化的目的就是让程序用尽可能少的资源完成预定的任务.优化通常包含两方面的内容:减小代码的体积,提高代码的运行效率.本文讨论的主要是如何提高代码的效率. =================================== 提纲: ===================