使用pdfbox实现pdf文本提取和合并功能示例

这篇文章主要介绍了使用pdfbox实现pdf文本提取和合并功能示例,大家参考使用吧

有时我们需要对PDF文件进行一些处理，提取文本、合并等。以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢?
现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:

代码如下:
PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll

新建一个项目,代码很简单:
代码如下:
public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}

获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:

代码如下:
public static void WriteToTextFile(string str,string txtpath)
{
if (string.IsNullOrEmpty(txtpath))
throw new ArgumentNullException("Output file path should not be Null");
using (var txtWriter = new StreamWriter(txtpath))
{
txtWriter.Write(str);
txtWriter.Close();
}
}

其它的功能您可以自行发挥了. 这个类库目前支持:

PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF

时间： 2024-10-01 12:32:06

使用pdfbox实现pdf文本提取和合并功能示例的相关文章

使用pdfbox实现pdf文本提取和合并功能示例_实用技巧

有时我们需要对PDF文件进行一些处理,提取文本.合并等.以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢? 现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用: 复制代码代码如下: PDFBox-0.7.3.dllIKVM.GNU.Classpath.dll 新建一个项目,代码很简单: 复制代码代码如下: public static string ParseToTxtStringUsingPDFBox(string filename){P

java-JAVA PDFBox 获取PDF文本缩进消失问题

问题描述 JAVA PDFBox 获取PDF文本缩进消失问题我想做一个获取PDF文件的文本修改一些数据后重新生成一份新的PDF但文本格式要和前一个PDF文件一致,我成功的获取了PDF文件的文本打印出来后发现换行和空格都和PDF文件一致但缩进无法显示.有什么方法吗?

PDFTextStream 2.3.2发布 PDF文本和元数据提取软件

PDFTextStream是一个PDF文本和元数据提取软件,用于Java,Python 和 http://www.aliyun.com/zixun/aggregation/13480.html">.NET.它支持所有的PDF文档规范版本(包括V1.7,使用Acrobat 8和9),文本提取编码使用双字节字符集(包括中文,日文和韩文),40位解密和128位加密文件,PDF文件(包括表单数据,书签和注释)所提供的所有文档元数据的提取,与Jakarta Lucene易于集成,以及交互的形式更新功

跟益达学Solr5之使用Tika从PDF中提取数据导入索引（转字：http://www.tuicool.com/articles/JfUfaey）

开始此篇之前,我已经假定你已经学会了如何在Tomcat下部署Solr5啦.即启动Tomcat后你能看到Solr5的Web UI界面.OK,下面直接进入正题. 首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到 Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图: 这里我采用了另外一种方式,把依赖的jar包放当前core的lib目录下,这样做的好处是每个core依赖的jar包当初存放在各自core的子目

跟益达学Solr5之使用Tika从PDF中提取数据导入索引

开始此篇之前,我假定你已经学会了如何在Tomcat下部署Solr5啦.即启动Tomcat后你能看到Solr5的Web UI界面.OK,下面直接进入正题. 首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图: 这里我采用了另外一种方式,把依赖的jar包放当前core的lib目录下,这样做的好处是每个core依赖的jar包

文档-如何使用iText实现pdf文本内容的抽取？

问题描述如何使用iText实现pdf文本内容的抽取? 最近在使用iText实现pdf文本内容的抽取,我使用PdfTextExtractor.getTextFromPage将每一页中的文本提取出来,但是提取出来的txt文件当中全是空格,没有一个文字,请问这是什么情况?是pdf文档的问题还是代码的问题啊? public class GetText { public static void main(String[] args) throws DocumentException, IOExcepti

代码-求教一个简单的C++ OOP问题——怎样把信息从文本提取（帮忙实现一下）

问题描述求教一个简单的C++ OOP问题--怎样把信息从文本提取(帮忙实现一下) 40C 我要做的是一个英语单词的相关的小程序本来做这个提取信息是一件很简单的事情但是由于感觉比较繁再加上这部分学得也不牢固就乘机来学习学习麻烦大牛实现一下现在有一个txt的英语单词的数据库主要是单词+音标(有可能有多个)+词性一+词性一下的释义一+词性一下的释义二--+词性二+--大概就是这个意思比如其中一个部分:among [?'m??] prep. 在-之中amount [?'maunt] n.

TXR 56发布文本提取的模式匹配工具

Txr是一个文本提取的模式匹配工具,也称为查询语言.最简单的查询方式是一个文本文件,其中与一个相同的文件相匹配.Txr在查询中嵌入的变量绑定到输入的相应文本件,它可以从http://www.aliyun.com/zixun/aggregation/12240.html">数据收集到的原始绑定输出,或替换成一个模板驱动的报告.Txr语言有一个嵌入式的块结构,功能是:结合子查询的多个指示,搜索,收集,开放管道和文件,产生输出,抛出和处理异常等. TXR 56该版本修正了不正确的UTF-8解码的

java-我想问一下，用Java语言，利用pdfBox将pdf转为图片，怎样才能使图片不失真

问题描述我想问一下,用Java语言,利用pdfBox将pdf转为图片,怎样才能使图片不失真我用pdfBox将pdf转成图片的时候,图片中的文字有点不清晰,请问怎样才能使图片不失真,或者提高一下图片的清晰度呢,请问有谁知道的,帮忙解决一下,谢谢了解决方案首先用pdf阅读器看下,确认下你的pdf不是扫描件,或者分辨率足够. 如果可以,调整输出分辨率. imageWriter.writeImage(document, imageFormat, password, startPage, endP

猜你喜欢

在产品环境中使用32位Exchange 2007

Exchange Server 2007 用在产品环境中应该配置64位的硬件.一般说来,32位的Exchange 2007只能用于测试,评估或是训练.但这并不全对.在支持的方式中配置32位的版本(或简 ...

先排序还是先取值

排序先排序还是先取值题目: MS SQLSERVER和ORACLE中取出表 ...

读《C#入门经典》

c#也算是半路出家了,基础不是很好,这几天重新学习了一下<C#入门经典>,算是打基础啦.前三章已经看完了,今天开始看第四章. §1 C#简介 §2 编写C#程序 §3 变量和表达式 §4 ...

C++Builder中集合的处理

首先看一看窗口的MouseDown事件的声明 void __fastcall TForm1::FormMouseDown(TObject *Sender,TMouseButton Button,TSh ...

网站最好用的登陆框用特定的交互方式登陆

登录框存在已久,对于用户来说是必定每天接触,对于设计师来说也是一个墨守陈规的控件,两个框加个按键,如果猛然抓个设计师问「你觉得登录框还有哪些可以改进的点」,得到的回答应该是长时间的沉默,当然也包括我. ...

任务栏跑到左右两边怎么办？

如果你的任务栏不是在底部的话,在左边或者右边的话,比如在右边的情况,我们在右边任务栏的空白处右键一下,弹出了菜单栏,把上面的[锁定任务栏]的勾勾先去掉,然后将右边的任务栏拖动到底部来即可.是很简单的吧 ...

Win7系统出现蓝屏报错该怎么办

在98和XP时期蓝屏问题特别容易出现,当然在XP时代相对好一些.但到了win7系统更加稳定,蓝屏也越来越少见.然而,这并不代表蓝屏从此隐退江湖了.最近有朋友就遇到了一个蓝屏错误,在操作系统的过程中 ...

MathType如何更改工作区域的背景颜色

具体操作过程如下: 1.打开MathType公式编辑器软件进入到编辑状态,不管你是从Word中插入打开还是双击桌面上的MathType应用图标都没有影响.这里可以看到编辑区的背景是白色的,这也是M ...

mysql-data-dumper

mysql-data-dumper最近几天写的项目. 一开始仅仅想实现一个简单的数据导出工具,方便大家使用,提升团队成员的效率.后来结果想法天马行空,所以进度有点慢. 为什么要有这个项目下面简要的描 ...

《异构信息网络挖掘：原理和方法》—— 第1章引言

第1章引言我们生活在一个相互连接的世界中.大量的数据或信息化对象.个体.群组或其组成部件之间相互联系.相互影响,形成了数量众多.规模庞大.相互连接的复杂网络.不失一般性,本书称这种相互连接 ...

阐述FusionCharts Free与ExtJs结合的实现过程

本文先介绍 http://www.aliyun.com/zixun/aggregation/2014.html">FusionCharts Free 及其特性,紧接着详细说明使用 Fu ...

ASP.NET MVC下基于异常处理的完整解决方案

EntLib的异常处理应用块(Exception Handling Application Block)是一个不错的异常处理框架,它使我们可以采用配置的方式来定义异常处理策略.而ASP.NET MVC ...

html c++-如何读取本地html文件，并将该文件解析，根据解析的数据创建新的html

问题描述如何读取本地html文件,并将该文件解析,根据解析的数据创建新的html 问题是这样的: 我在网上获取了别人的html源代码后,把源代码保存到本地html,然后通过什么样的方法读取到里面ta ...

iOS主动退出

问题描述 iOS主动退出时一直不成功,error description是"is logging off" 解决方案是你的APP还是环信demo?你是怎么退出的解决方案二:是我的 ...

springframework maven地址

http://blog.springsource.com/2009/12/02/obtaining-spring-3-artifacts-with-maven/ A .pom <dependen ...

Building an MFC project for a non-Unicode character set is deprecated

VS2013多字节工程问题使用VS2013编译旧版VC++程序时,提示Building an MFC project for a non-Unicode character set is depre ...

腾讯QQ封杀hao123网址称其冒充腾讯网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅腾讯QQ封杀hao123网址(IT ...

迷茫：我该怎么做好网站

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅认识站长网已经有好几个月了,每天都 ...

算法师：打开数据复杂世界黑匣子的人

本文摘自维克托·迈尔-舍恩伯格与肯尼迪·库克耶合著的<大数据:改变我们生活.工作.思考的革命> 现在的电脑系统是根据编写程序时明确要求它们遵循的规则来进行运算的.因此,当一个结果偶尔无可避 ...

知名网友“边民”被刑拘曾是“躲猫猫”意见领袖

云南知名网友"边民"被昆明市公安局五华分局刑事拘留的消息,这两天引发网友关注.拘留通知书显示,刑拘的理由是其涉嫌虚报注册资本. 作为在昆明"躲猫猫"." ...

手机网站建设的过程是怎么样的？

互联网进入全民移动时代时代,现在大部分企业除了建设PC端官网之外,也有建设手机网站,在移动用户比PC端用户多的情况下,企业又该如何建设手机网站?如何去优化手机网站呢?其实手机网站建设都有一系列的流程, ...

c语言-求大神解答一下！程序编译通过，总是停止运行。

问题描述求大神解答一下!程序编译通过,总是停止运行. int* qiuyu(int n,int i) { int sum; static int m=2; sum[i]=n%m; m=2; n-=s ...

苹果iTunes 11评测

苹果周四面向OS X和Windows用户推出了最新版iTunes即iTunes 11,用户可在苹果网站下载,Mac用户则可通过Mac App Store应用商店进行更新.最新版iTunes 11与之前 ...

工信部编制《信息化发展规划》进一步刺激通信业发展

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断淘宝客云主机技术大厅日前,工信部为贯彻落实<国民 ...

python类参数self使用示例_python

复制代码代码如下: #coding:utf-8"""__new__和__init__到底是怎么一回事,看下面的代码如果类没有定义__new__方法,就从父类继承这个__ ...

msp430-MSP4305438a下载软件？谁有啊，跪求

问题描述 MSP4305438a下载软件?谁有啊,跪求 msp430f5438a单片机,刚买来,下载配套的下载器win10用不了,求下载器软件. 解决方案 http://download.csdn.n ...

备份3个判断指针是否有效的函数,以备不时之需

BOOLEAN MmIsAddressValid( _In_ PVOID VirtualAddress ); Parameters VirtualAddress [in] A pointer to ...

网友揭内地女星与富二代交际圈情欲生态链曝光

随着富二代年龄增加,以王烁为代表的他们对名利场充满好奇,也有强烈愿望凭借父辈资金在其中好好折腾一把,而大量年轻貌美的影视女星则成为他们最佳"猎物".他与她如何相识,如何相处,结果又 ...

淘宝网设计部负责人麻利：学习的态度

中介交易 SEO诊断淘宝客云主机技术大厅近年来设计行业迅猛发展,艺术院校也增加了招生规模,很多设计从业人员和设计专业的学生都会有很多疑问:我们的设计行业是否能满足每年十多万艺术设计专业毕业生的 ...

微软将于5月20日举行一场“小型”发布会

摘要: 过去两年,一直有传闻称微软会推出尺寸更小的Surface设备,如今,传闻可能即将成真,微软正式向媒体发出邀请,将于5月20日举办一场Surface活动,并在邀请函中附带一句标语:来参加过去两 ...

热搜

© 2024 iVAN | info#iamivan.net | 11 q. 0.031 s.