使用pdfbox实现pdf文本提取和合并功能示例

 这篇文章主要介绍了使用pdfbox实现pdf文本提取和合并功能示例,大家参考使用吧

有时我们需要对PDF文件进行一些处理,提取文本、合并等。以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢? 
现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:
 
代码如下:
PDFBox-0.7.3.dll
IKVM.GNU.Classpath.dll
 
 
新建一个项目,代码很简单:
代码如下:
public static string ParseToTxtStringUsingPDFBox(string filename){
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}
 
 
获得这个textString,再把它们写成磁盘文件就可以了, 像这样的方法:
 
代码如下:
public static void WriteToTextFile(string str,string txtpath)
{
if (string.IsNullOrEmpty(txtpath))
throw new ArgumentNullException("Output file path should not be Null");
using (var txtWriter = new StreamWriter(txtpath))
{
txtWriter.Write(str);
txtWriter.Close();
}
}
 
 
其它的功能您可以自行发挥了. 这个类库目前支持:
 
PDF to text extraction
Merge PDF Documents
PDF Document Encryption/Decryption
Lucene Search Engine Integration
Fill in form data FDF and XFDF
Create a PDF from a text file
Create images from PDF pages
Print a PDF
 

时间: 2024-10-01 12:32:06

使用pdfbox实现pdf文本提取和合并功能示例的相关文章

使用pdfbox实现pdf文本提取和合并功能示例_实用技巧

有时我们需要对PDF文件进行一些处理,提取文本.合并等.以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢? 现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用: 复制代码 代码如下: PDFBox-0.7.3.dllIKVM.GNU.Classpath.dll 新建一个项目,代码很简单: 复制代码 代码如下: public static string ParseToTxtStringUsingPDFBox(string filename){P

java-JAVA PDFBox 获取PDF文本缩进消失问题

问题描述 JAVA PDFBox 获取PDF文本缩进消失问题 我想做一个获取PDF文件的文本修改一些数据后重新生成一份新的PDF但文本格式要和前一个PDF文件一致,我成功的获取了PDF文件的文本打印出来后发现换行和空格都和PDF文件一致但缩进无法显示.有什么方法吗?

PDFTextStream 2.3.2发布 PDF文本和元数据提取软件

PDFTextStream是一个PDF文本和元数据提取软件,用于Java,Python 和 http://www.aliyun.com/zixun/aggregation/13480.html">.NET.它支持所有的PDF文档规范版本(包括V1.7,使用Acrobat 8和9),文本提取编码使用双字节字符集(包括中文,日文和韩文),40位解密和128位加密文件,PDF文件(包括表单数据,书签和注释)所提供的所有文档元数据的提取,与Jakarta Lucene易于集成,以及交互的形式更新功

跟益达学Solr5之使用Tika从PDF中提取数据导入索引(转字:http://www.tuicool.com/articles/JfUfaey)

开始此篇之前,我已经假定你已经学会了如何在Tomcat下部署Solr5啦.即启动Tomcat后你能看到Solr5的Web UI界面.OK,下面直接进入正题. 首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到 Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图: 这里我采用了另外一种方式,把依赖的jar包放当前core的lib目录下,这样做的好处是每个core依赖的jar包当初存放在各自core的子目

跟益达学Solr5之使用Tika从PDF中提取数据导入索引

    开始此篇之前,我假定你已经学会了如何在Tomcat下部署Solr5啦.即启动Tomcat后你能看到Solr5的Web UI界面.OK,下面直接进入正题.          首先你需要在你的core根目录下新建一个lib目录来存放依赖的jar包,当然你也可以直接到依赖的jar包扔到Tomcat webapps目录下部署的solr程序的WEB-INF\lib目录下即如图:     这里我采用了另外一种方式,把依赖的jar包放当前core的lib目录下,这样做的好处是每个core依赖的jar包

文档-如何使用iText实现pdf文本内容的抽取?

问题描述 如何使用iText实现pdf文本内容的抽取? 最近在使用iText实现pdf文本内容的抽取,我使用PdfTextExtractor.getTextFromPage将每一页中的文本提取出来,但是提取出来的txt文件当中全是空格,没有一个文字,请问这是什么情况?是pdf文档的问题还是代码的问题啊? public class GetText { public static void main(String[] args) throws DocumentException, IOExcepti

代码-求教一个简单的C++ OOP问题——怎样把信息从文本提取(帮忙实现一下)

问题描述 求教一个简单的C++ OOP问题--怎样把信息从文本提取(帮忙实现一下) 40C 我要做的是一个英语单词的相关的小程序 本来做这个提取信息是一件很简单的事情 但是由于感觉比较繁 再加上这部分学得也不牢固 就乘机来学习学习麻烦大牛实现一下 现在有一个txt的英语单词的数据库主要是 单词+音标(有可能有多个)+词性一+词性一下的释义一+词性一下的释义二--+词性二+--大概就是这个意思 比如其中一个部分:among [?'m??] prep. 在-之中amount [?'maunt] n.

TXR 56发布 文本提取的模式匹配工具

Txr是一个文本提取的模式匹配工具,也称为查询语言.最简单的查询方式是一个文本文件,其中与一个相同的文件相匹配.Txr在查询中嵌入的变量绑定到输入的相应文本件,它可以从http://www.aliyun.com/zixun/aggregation/12240.html">数据收集到的原始绑定输出,或替换成一个模板驱动的报告.Txr语言有一个嵌入式的块结构,功能是:结合子查询的多个指示,搜索,收集,开放管道和文件,产生输出,抛出和处理异常等. TXR 56该版本修正了不正确的UTF-8解码的

java-我想问一下,用Java语言,利用pdfBox将pdf转为图片,怎样才能使图片不失真

问题描述 我想问一下,用Java语言,利用pdfBox将pdf转为图片,怎样才能使图片不失真 我用pdfBox将pdf转成图片的时候,图片中的文字有点不清晰,请问怎样才能使图片不失真,或者提高一下图片的清晰度呢,请问有谁知道的,帮忙解决一下,谢谢了 解决方案 首先用pdf阅读器看下,确认下你的pdf不是扫描件,或者分辨率足够. 如果可以,调整输出分辨率. imageWriter.writeImage(document, imageFormat, password, startPage, endP