java大数据处理-大量数据到Excel

  在Java Web开发中,经常需要导出大量的数据到">Excel,使用POI、JXL直接生成Excel,很容易就造成内存溢出了。

  1、有一种方式,就是把数据写成csv格式文件。

  1)csv文件可以直接用Excel打开。

  2)写csv文件的效率和写txt文件的效率一样高。

  3)同样的数据内容,生成的csv文件的大小远远小于生成的Excel文件。

  从以上优点就可以看出生成csv文件消耗的内存绝对小于生成Excel文件。

  2、按一定的格式去生成csv文件,在Excel中打开的时候就是完整的行和列格式。

  例如:在Excel中的格式:

  

  那么,在csv文件中格式就必须为:

  

  就是说,列和列之间,需要用英文输入法状态下的逗号","间隔:风云第一刀,古龙。

  3、在Struts2中导出数据到Excel,一个简单的例子。

  CsvAction,生成csv文件,并且将生成的csv文件完整路径传递到下载Action。

  Java代码 <!--[if !vml]-->

<!--[endif]-->

  package cn.luxh.struts2.action;

  import java.io.FileWriter;

  import java.io.IOException;

  import java.text.SimpleDateFormat;

  import java.util.ArrayList;

  import java.util.Date;

  import java.util.List;

  import cn.luxh.struts2.entity.Novel;

  import com.opensymphony.xwork2.ActionSupport;

  /**

  * 导出数据到csv文件

  * @author Luxh

  */

  public class CsvAction extends ActionSupport {

  private static final long serialVersionUID = -2862629695443964658L;

  /**

  * 包含完整路径的文件名

  * 传递给下载Action进行下载

  */

  private String fileName;

  /**

  * 导出数据

  */

  public String exportData2CSV() {

  List novels = getNovels();

  fileName = "D:/novels.csv";

  writeData2CSV(novels,fileName);

  return SUCCESS;

  }

  /**

  * 构造一些数据

  * 实际上可能是从数据库中把大量的数据查出来

  */

  private List getNovels() {

  List novels = new ArrayList();

  Novel novel1 = new Novel("风云第一刀","古龙",new Date());

  Novel novel2 = new Novel("书剑恩仇录","金庸",new Date());

  Novel novel3 = new Novel("陆小凤传奇","古龙",new Date());

  Novel novel4 = new Novel("鹿鼎记","金庸",new Date());

  novels.add(novel1);

  novels.add(novel2);

  novels.add(novel3);

  novels.add(novel4);

  return novels;

  }

  /**

  * 把数据按一定的格式写到csv文件中

  * @param novels 数据集合

  * @param fileName csv文件完整路径

  */

  public void writeData2CSV(List novels,String fileName) {

  FileWriter fw = null;

  try {

  fw = new FileWriter(fileName);

  //输出标题头

  //注意列之间用","间隔,写完一行需要回车换行"\r\n"

  String title = "序号,小说名称,作者,出版日期\r\n";

  fw.write(title);

  String content = null;

  SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd");

  for(int i=0;i

  Novel novel = novels.get(i);

  //注意列之间用","间隔,写完一行需要回车换行"\r\n"

  content =(i+1)+","+novel.getName()+","+novel.getAuthor()+","+sdf.format(novel.getPublishDate())+"\r\n";

  fw.write(content);

  }

  }catch(Exception e) {

  e.printStackTrace();

  throw new RuntimeException(e);

  }finally {

  try {

  if(fw!=null) {

  fw.close();

  }

  } catch (IOException e) {

  e.printStackTrace();

  }

  }

  }

  }

  配置文件:

  Xml代码 <!--[if !vml]-->

<!--[endif]-->

  download

  /download

  ${fileName}

  4、看一下同样的数据内容,csv文件和Excel文件的大小对比:

  

时间: 2024-12-22 21:30:49

java大数据处理-大量数据到Excel的相关文章

从理论到实践的剖析,一网打尽13款开源Java大数据处理工具

什么是大数据?你可能会问; 更重要的是为什么它是在几乎所有业务领域的最新趋势?由于事实上"大数据"是一个非常简单的术语 - 它正是它说 - 一个非常大的数据集.有多大?确切的答案是"一样大,你能想象"!这个数据集怎么能这么大规模大吗?因为数据可能来自任何地方:RFID传感器来收集流量数据,用来收集气象信息的传感器,从手机的GPRS数据包,社会媒体网站,数码照片和视频,在线购买交易记录你的名字!大数据是一个巨大的数据集可能包含从产生数据,,当然前提是这些信息是我们感兴

java中导出大量数据到Excel的一种方法

在Java Web开发中,经常需要导出大量的数据到Excel,使用POI.JXL直接生成Excel,很容易就造成内存溢出了. 1.有一种方式,就是把数据写成csv格式文件. 1)csv文件可以直接用Excel打开. 2)写csv文件的效率和写txt文件的效率一样高. 3)同样的数据内容,生成的csv文件的大小远远小于生成的Excel文件. 从以上优点就可以看出生成csv文件消耗的内存绝对小于生成Excel文件. 2.按一定的格式去生成csv文件,在Excel中打开的时候就是完整的行和列格式. 例

java大数据处理

从ftp主机取xx数据文件. 千万级别只是个概念,代表数据量等于千万或者大于千万的数据 本分享不牵扯分布式采集存储之类的.是在一台机器上处理数据,如果数据量很大很大的话,可以考虑分布式处理,如果以后我有这方面的经验,会及时分享的. 1.程序采用的ftp工具, 2.千万级别ftp核心关键的部分--列目录到文件,只要是这块做好了,基本上性能就没有太大的问题了. 可以通过apache 发送ftp命令 "NLST" 的方式列目录到文件中去 # ftp列目录执行的命令 以环境变量的配置优先,不配

《Spark大数据处理:技术、应用与性能优化》——第1章 Spark 简 介1.1 Spark是什么

第1章 Spark 简 介 本章主要介绍Spark大数据计算框架.架构.计算模型和数据管理策略及Spark在工业界的应用.围绕Spark的BDAS 项目及其子项目进行了简要介绍.目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL.Spark Streaming.GraphX.MLlib等子项目,本章只进行简要 1.1 Spark是什么 介绍,后续章节再详细阐述.Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算,提高了在大数据环境下数据处理的

一种异构集群中能量高效的大数据处理算法

一种异构集群中能量高效的大数据处理算法 丁有伟,秦小麟,刘亮,王涛春 集群的能量消耗已经超过了其本身的硬件购置费用,而大数据处理需要大规模的集群耗费大量时间,因此如何进行能量高效的大数据处理是数据拥有者和使用者亟待解决的问题,也是对能源和环境的一个巨大挑战.现有的研究一般通过关闭部分节点以减少能量消耗,或者设计新的数据存储策略以便实施能量高效的数据处理.通过分析发现即便使用最少的节点也存在很大的能源浪费,而新的数据存储策略对于已经部署好的集群会造成大规模的数据迁移,消耗额外的能量.针对异构集群下

大数据时代你不得不了解的大数据处理工具

如今Apache Hadoop已成为大数据行业发展背后的驱动力.Hive和Pig等技术也经常被提到,但是他们都有什么功能,为什么会需要奇怪的名字(如Oozie,ZooKeeper.Flume). Hadoop带来了廉价的处理大数据(大数据的数据容量通常是10-100GB或更多,同时数据种类多种多样,包括结构化.非结构化等)的能力.但这与之前有什么不同? 现今企业数据仓库和关系型数据库擅长处理结构化数据,并且可以存储大量的数据.但成本上有些昂贵.这种对数据的要求限制了可处理的数据种类,同时这 种惯

《深入理解大数据:大数据处理与编程实践》一一1.3 MapReduce并行计算技术简介

1.3 MapReduce并行计算技术简介 1.3.1 MapReduce的基本概念和由来 1.?什么是MapReduce MapReduce是面向大数据并行处理的计算模型.框架和平台,它隐含了以下三层含义: 1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure).它允许用市场上普通的商用服务器构成一个包含数十.数百至数千个节点的分布和并行计算集群. 2)MapReduce是一个并行计算与运行软件框架(Software Framework).它提

导出大数据量excel,用POI

问题描述 导出大数据量excel,用POI 需要导出的数据量可能非常大(超过10W条),而且要照顾到没装07Excel的机器,不能用SXSSFworkbook.鉴于一个sheet页最多65000多条记录,那么大数据就需要多个sheet页.由于导出前要先查数据库,是应该一次查出所有数据然后导出还是分次查询?每次查询65000条数据? 解决方案 这么大的文件,excel 2003未必能打开.建议分页存入多个excel文件. 解决方案二: 看速度和效率了,分次是不是速度还快点

java对hbase读取数据时运行代码到new htable就不动了,会的大神们可以加Q

问题描述 java对hbase读取数据时运行代码到new htable就不动了,会的大神们可以加Q 解决方案 有人么 大神们 帮忙看看