PDFTextStream 2.3.2发布 PDF文本和元数据提取软件

PDFTextStream是一个PDF文本和元数据提取软件,用于Java,Python 和 ">.NET。它支持所有的PDF文档规范版本(包括V1.7,使用Acrobat 8和9),文本提取编码使用双字节字符集(包括中文,日文和韩文),40位解密和128位加密文件,PDF文件(包括表单数据,书签和注释)所提供的所有文档元数据的提取,与Jakarta Lucene易于集成,以及交互的形式更新功能。

PDFTextStream 2.3.2版本发布了多种修复,以确保PDFTextStream能够从PDF文档中提取文本,同时还包括各种性能的增强。

软件信息:http://www.snowtide.com/

下载地址:

For .NET: http://downloads.snowtide.com/bundles/PDFTextStream.NET-2.3.2.zip

For Java: http://downloads.snowtide.com/bundles/PDFTextStream.Java-2.3.2.zip

时间: 2024-10-30 22:09:04

PDFTextStream 2.3.2发布 PDF文本和元数据提取软件的相关文章

Gaupol 0.19发布 基于文本的字幕编辑软件

Gaupol 0.19更新日志: &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;* Add speech recognition to allow generating subtitles from video   http://live.gnome.org/Gaupol/SpeechRecognition * Fix installation of custom-framerates extension * A

使用pdfbox实现pdf文本提取和合并功能示例

 这篇文章主要介绍了使用pdfbox实现pdf文本提取和合并功能示例,大家参考使用吧 有时我们需要对PDF文件进行一些处理,提取文本.合并等.以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢?  现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用:   代码如下: PDFBox-0.7.3.dll IKVM.GNU.Classpath.dll     新建一个项目,代码很简单: 代码如下: public static string Parse

java-JAVA PDFBox 获取PDF文本缩进消失问题

问题描述 JAVA PDFBox 获取PDF文本缩进消失问题 我想做一个获取PDF文件的文本修改一些数据后重新生成一份新的PDF但文本格式要和前一个PDF文件一致,我成功的获取了PDF文件的文本打印出来后发现换行和空格都和PDF文件一致但缩进无法显示.有什么方法吗?

C# 通过pdfbox-1.7.0.dll获取pdf文本,文本乱码

问题描述 根据pdfbox-1.7.0.dll获取pdf文本时产生乱码.我看pdf的属性中文档中使用的字体,编码有Ansi和Identity-H.怎么解决! 解决方案 解决方案二:把pdf的字符集改下解决方案三:引用1楼clxcxx的回复: 把pdf的字符集改下 怎么改?解决方案四:引用2楼tomtodayyesterday的回复: Quote: 引用1楼clxcxx的回复: 把pdf的字符集改下 怎么改? 如果pdf文档没有加密,就尝试着用不同的编码看看解决方案五:哥们我也遇到这个问题了你解决

文档-如何使用iText实现pdf文本内容的抽取?

问题描述 如何使用iText实现pdf文本内容的抽取? 最近在使用iText实现pdf文本内容的抽取,我使用PdfTextExtractor.getTextFromPage将每一页中的文本提取出来,但是提取出来的txt文件当中全是空格,没有一个文字,请问这是什么情况?是pdf文档的问题还是代码的问题啊? public class GetText { public static void main(String[] args) throws DocumentException, IOExcepti

PHP函数实现从一个文本字符串中提取关键字的方法

  本文实例讲述了PHP函数实现从一个文本字符串中提取关键字的方法.分享给大家供大家参考.具体分析如下: 这是一个函数定位接收一个字符串作为参数(连同其他配置可选参数),并且定位该字符串中的所有关键字(出现最多的词),返回一个数组或一个字符串由逗号分隔的关键字.功能正常工作,但我正在改进,因此,感兴趣的朋友可以提出改进意见. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

如何使用PDF Image Extraction Wizard提取pdf文档中jpeg图片

如何将PDF中的jpeg和bmp图片单独的批量提取出来?很多PDF中的图片资源都是很有使用价值的,可以作为其他方面的素材.小编教你使用PDF Image Extraction Wizard提取pdf文档中jpeg图片~ 工欲善其事必先利其器,pdf image extraction wizard下载 因为是绿色版软件的缘故所以无需安装就可以使用了,打开这个可执行文件EXE 现在进入到软件主界面了,点击"next" 找到要处理pdf文件,选号输出目录,推荐选中添加编号功能,然后next下

PHP函数实现从一个文本字符串中提取关键字的方法_php技巧

本文实例讲述了PHP函数实现从一个文本字符串中提取关键字的方法.分享给大家供大家参考.具体分析如下: 这是一个函数定位接收一个字符串作为参数(连同其他配置可选参数),并且定位该字符串中的所有关键字(出现最多的词),返回一个数组或一个字符串由逗号分隔的关键字.功能正常工作,但我正在改进,因此,感兴趣的朋友可以提出改进意见. /** * Finds all of the keywords (words that appear most) on param $str * and return them

求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做

问题描述 求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做 求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做 解决方案 你会什么语言就用什么语言.如果你什么语言都不会,那么也可以用什么"火车头"之类的傻瓜工具来抓取. 解决方案二: 把文档解析成一颗DOM树,获得里面所有的a标签节点,获得节点内文本节点,大部分需要都有相应的生成解析和操作DOM树的工具 解决方案三: 用正则表达式把连接全部匹配出来 什么语言都可以 解决方案四: Python 爬虫 可以