PDFTextStream 2.3.2发布 PDF文本和元数据提取软件

PDFTextStream是一个PDF文本和元数据提取软件，用于Java，Python 和 ">.NET。它支持所有的PDF文档规范版本（包括V1.7，使用Acrobat 8和9），文本提取编码使用双字节字符集（包括中文，日文和韩文），40位解密和128位加密文件，PDF文件（包括表单数据，书签和注释）所提供的所有文档元数据的提取，与Jakarta Lucene易于集成，以及交互的形式更新功能。

PDFTextStream 2.3.2版本发布了多种修复，以确保PDFTextStream能够从PDF文档中提取文本，同时还包括各种性能的增强。

软件信息：http://www.snowtide.com/

下载地址：

For .NET: http://downloads.snowtide.com/bundles/PDFTextStream.NET-2.3.2.zip

For Java: http://downloads.snowtide.com/bundles/PDFTextStream.Java-2.3.2.zip

时间： 2024-12-30 08:38:49

PDFTextStream 2.3.2发布 PDF文本和元数据提取软件的相关文章

Gaupol 0.19发布基于文本的字幕编辑软件

Gaupol 0.19更新日志: &http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;* Add speech recognition to allow generating subtitles from video http://live.gnome.org/Gaupol/SpeechRecognition * Fix installation of custom-framerates extension * A

使用pdfbox实现pdf文本提取和合并功能示例

这篇文章主要介绍了使用pdfbox实现pdf文本提取和合并功能示例,大家参考使用吧有时我们需要对PDF文件进行一些处理,提取文本.合并等.以前我们使用A-PDF Text Extractor免费工具,为什么不自己写一个呢? 现在我们可以使用PDFBox-0.7.3这个开源类库. 下载解包后引用: 代码如下: PDFBox-0.7.3.dll IKVM.GNU.Classpath.dll 新建一个项目,代码很简单: 代码如下: public static string Parse

java-JAVA PDFBox 获取PDF文本缩进消失问题

问题描述 JAVA PDFBox 获取PDF文本缩进消失问题我想做一个获取PDF文件的文本修改一些数据后重新生成一份新的PDF但文本格式要和前一个PDF文件一致,我成功的获取了PDF文件的文本打印出来后发现换行和空格都和PDF文件一致但缩进无法显示.有什么方法吗?

C# 通过pdfbox-1.7.0.dll获取pdf文本，文本乱码

问题描述根据pdfbox-1.7.0.dll获取pdf文本时产生乱码.我看pdf的属性中文档中使用的字体,编码有Ansi和Identity-H.怎么解决! 解决方案解决方案二:把pdf的字符集改下解决方案三:引用1楼clxcxx的回复: 把pdf的字符集改下怎么改?解决方案四:引用2楼tomtodayyesterday的回复: Quote: 引用1楼clxcxx的回复: 把pdf的字符集改下怎么改? 如果pdf文档没有加密,就尝试着用不同的编码看看解决方案五:哥们我也遇到这个问题了你解决

文档-如何使用iText实现pdf文本内容的抽取？

问题描述如何使用iText实现pdf文本内容的抽取? 最近在使用iText实现pdf文本内容的抽取,我使用PdfTextExtractor.getTextFromPage将每一页中的文本提取出来,但是提取出来的txt文件当中全是空格,没有一个文字,请问这是什么情况?是pdf文档的问题还是代码的问题啊? public class GetText { public static void main(String[] args) throws DocumentException, IOExcepti

PHP函数实现从一个文本字符串中提取关键字的方法

本文实例讲述了PHP函数实现从一个文本字符串中提取关键字的方法.分享给大家供大家参考.具体分析如下: 这是一个函数定位接收一个字符串作为参数(连同其他配置可选参数),并且定位该字符串中的所有关键字(出现最多的词),返回一个数组或一个字符串由逗号分隔的关键字.功能正常工作,但我正在改进,因此,感兴趣的朋友可以提出改进意见. ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31

如何使用PDF Image Extraction Wizard提取pdf文档中jpeg图片

如何将PDF中的jpeg和bmp图片单独的批量提取出来?很多PDF中的图片资源都是很有使用价值的,可以作为其他方面的素材.小编教你使用PDF Image Extraction Wizard提取pdf文档中jpeg图片~ 工欲善其事必先利其器,pdf image extraction wizard下载因为是绿色版软件的缘故所以无需安装就可以使用了,打开这个可执行文件EXE 现在进入到软件主界面了,点击"next" 找到要处理pdf文件,选号输出目录,推荐选中添加编号功能,然后next下

PHP函数实现从一个文本字符串中提取关键字的方法_php技巧

本文实例讲述了PHP函数实现从一个文本字符串中提取关键字的方法.分享给大家供大家参考.具体分析如下: 这是一个函数定位接收一个字符串作为参数(连同其他配置可选参数),并且定位该字符串中的所有关键字(出现最多的词),返回一个数组或一个字符串由逗号分隔的关键字.功能正常工作,但我正在改进,因此,感兴趣的朋友可以提出改进意见. /** * Finds all of the keywords (words that appear most) on param $str * and return them

求教怎么把一堆网页链接的文本内容批量提取出来，建议用什么语言怎么做

问题描述求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做求教怎么把一堆网页链接的文本内容批量提取出来,建议用什么语言怎么做解决方案你会什么语言就用什么语言.如果你什么语言都不会,那么也可以用什么"火车头"之类的傻瓜工具来抓取. 解决方案二: 把文档解析成一颗DOM树,获得里面所有的a标签节点,获得节点内文本节点,大部分需要都有相应的生成解析和操作DOM树的工具解决方案三: 用正则表达式把连接全部匹配出来什么语言都可以解决方案四: Python 爬虫可以