请教pdfbox解析pdf文件的问题

问题描述

c#使用pdfbox解析pdf文件代码很简单PDDocumentdoc=PDDocument.load("xxx.pdf");//doc.decrypt("111111");PDFTextStripperpts=newPDFTextStripper();returnpts.getText(doc);我用这段代码操作大多数pdf文件都已经成功--------------------------------------------------------------------------可是客户要求解析的pdf文件,用了很多的版本都搞不定最后试出来一个pdfbox1.8.3的能解析了但是解析的都是??????????????????????????????????乱码求大神解决pdf版本编码格式测试代码求老师解决(因为java了解这个比.net相对多些,所以发到这个版了)

解决方案

解决方案二:
找不到上传附件的地方,所以pdf文件传不上来不过可以私信,我通过其他方式发给你
解决方案三:
求老师指点。。。。

时间: 2024-12-19 14:59:52

请教pdfbox解析pdf文件的问题的相关文章

c#使用pdfbox解析PDF文件,对表格的解析

问题描述 使用pdfbox进行PDF数据采集时,希望PDF的表格数据采集出来后保持原来的形式,该怎么做?求教高手们 解决方案 解决方案二:求高手赐教,感激不尽

C#怎么解析PDF文件中的线段之类的图元?

问题描述 各位,我想解析PDF文件中的图形,网上有一大堆都是读取pdf文件里面的文字,或者顶多是图片之类的.但是我想要的是,读取PDF文件里面的CAD图纸:例如一个圆.一个线段.或者一段弧.其实也就是,想把这个PDF文件经过解析,生成同样的CAD文件.现在的问题就是:怎么获取里面线段.圆.圆弧等图元,获取图元的坐标信息,然后写到CAD文件里面(写到CAD这个很简单).说白了,就是这么把PDF文件里面的内容转换成CAD图纸.网上也有一些工具,但是效果不是很好,有的还是破解的.求助啊~~~~~~~~

请教个解析mht文件的问题,哪位大神指导?

问题描述 我的目的就是解析mht文件的源文件内容.通过传统解析html的方法好像不行,类似这种:System.Net.WebClientaWebClient=newSystem.Net.WebClient();aWebClient.Encoding=System.Text.Encoding.Default;stringhtml=aWebClient.DownloadString(url);通过文件流的形式也不行,解析出来的都是这样的:Subject:ResumeMIME-Version:1.0X

请教一个关于PDF文件的问题

问题描述 如何用c#编写代码,去掉PDF文件的密码?谢谢! 解决方案

请教如何解析mht文件

问题描述 本人最近在写一个程序将单位每天的日报(mht文件)导入数据库中,文件里面有很多报表.就是把表格中一行行的数据导入到数据库中.请问有好的方法不?因为我们要处理的mht文件里面就是表格,我将它另存为xls格式,然后用poi可以正确解析并导入数据库.目前就是存在一个问题.mht格式中,有一行是日期,比如"2013年01月30日",另存为xls文件后,就变成了数字"41304"了.请问这是何解.或者说"2013年01月30日"与41304存在何

2 pdfbox pdf-PDFBox解析PDF时,这种编码格式的解析不了unijis-ucs2-hw-h

问题描述 PDFBox解析PDF时,这种编码格式的解析不了unijis-ucs2-hw-h PDFBox解析PDF时,这种编码格式的解析不了unijis-ucs2-hw-h大家有没有什么 好办法? 解决方案 UniJIS-UCS2-HW-H看上去是韩语,你是不是缺少对应的语言支持 解决方案二: UniJIS-UCS2-HW-H它是日文的一个编码,解析出来全是乱码,在网上也找了些资料,问题还是没解决.

pdf-PDFBOX 打印PDF文件出现在异常

问题描述 PDFBOX 打印PDF文件出现在异常 我使用PDFBOX(版本1.8.3)打印PDF文件时老提示:""未发送 StartDocPrinter 调用""C# 测试代码如下:PDDocument pdf = PDDocument.load(strFileName);pdf.print();帮各位大侠帮忙看看pdfbox 的print方法到底要怎么使用.

如何解析pdf或者word文档内容,分章节存进mysql数据库

问题描述 如何解析pdf或者word文档内容,分章节存进mysql数据库 最近在做一个项目,有很多国家标准文档,格式很规范.如下所示: 1 主面内容和适用范围 本 标准 规 定了书脊的定义.内容和设计规则. 2 定义 2.1 书籍 连接书的封面和封四,以缝.钉.粘或其它方法装订而成的转折部位. 2.2 边缘名称 出版物封四上沿书脊边缘纵排的书脊名称. 3 设计和使用 3.1 ...... 3.2 ...... 如何解析文档内容,分章节存进mysql数据库的不同字段中,用java编写. 解决方案

C# Parsing 类实现的 PDF 文件分析器

项目让你可以去读取并解析一个PDF文件,并将其内部结构展示出来. PDF文件的格式标准文档可以从Adobe那儿获取到. 这个项目基于"PDF指南,第六版,Adobe便携文档格式1.7 2006年11月". 它是一个恐怕有1310页的大部头. 本文提供了对这份文档的简洁概述. 与此相关的项目定义了用来读取和解析PDF文件的C#类. 为了测试这些类,附带的测试程序PdfFileAnalyzer让你可以去读取一个PDF文件,分析它并展示和保存结果. 程序将PDF文件分割成单独每页的描述,字体