C# 读取 pdf

问题描述

需求是这样的:需要读取用户上传的pdf文件(可能有图片和表格),然后对内容进行拆分(根据段落),然后在页面上显示。我的想法是,无论什么文件都转换为html,主要是为了方便读取。请问pdf转html怎么实现?我试过用aspose.pdf(破解)。但问题是:1.转换后,原来的每一行都会被一个<div>包住,这样识别不出段落了。(这是主要问题)2.格式不太好,多出一些空格。3.大文件转换时间很长请教:1.要怎么识别出pdf的段落。2.怎么实现pdf转html。希望大家提供建议,谢谢。

解决方案

时间: 2024-09-08 12:38:28

C# 读取 pdf的相关文章

PHP使用imagick读取PDF生成png缩略图的两种方法

 这篇文章主要介绍了PHP使用imagick读取PDF第一页生成png缩略图的两种方法,使用了PHP扩展php_imagick,需要的朋友可以参考下 一.ImageMagick是什么 ImageMagick是一套功能强大.稳定而且免费的工具集和开发包,可以用来读.写和处理超过185种基本格式的图片文件,包括流行的TIFF, JPEG, GIF, PNG, PDF以及PhotoCD等格式.利用ImageMagick,你可以根据web应用程序的需要动态生成图片, 还可以对一个(或一组)图片进行改变大

android-如何从服务器中读取 pdf 内容并保存在文件中?

问题描述 如何从服务器中读取 pdf 内容并保存在文件中? 我有一个服务器链接,我需要读取pdf内容.我使用的下面的代码,但是它以其它的格式给出结果. public String readPDF() throws Exception{ BufferedReader in = null; String page = """"; try { HttpClient client = new DefaultHttpClient(); HttpGet request = ne

pdf-如果用HTML5读取PDF文件?求指教!急急急!

问题描述 如果用HTML5读取PDF文件?求指教!急急急! 我想在一个单独的HTML5页面读取任意的pdf文件怎么实现?求指教,刚才看了一下网 上的说法,都说是用pdf.js,有没有人知道怎么用啊,我根本就看不懂, 解决方案 虽然没用过,百度后发现这个里面有demo(也许你也查到了)http://www.html5cn.org/article-4190-1.html: 进入demo页面后,右击选择查看源代码.然后copy下来,不要的内容删掉就可以了. 解决方案二: 看什么浏览器了,如果是Chro

vb.net 如何读取PDF文件中的图像。

问题描述 如题,我想用vb.net读取PDF文件中的一个图片,并在窗体上的图片框中显示出来.我的PDF文件里只有一张图片,别的什么都没有.新手求各位大侠帮忙..谢谢! 解决方案 解决方案二:有很多pdftoimage控件,有這樣的功能解决方案三:大侠,能传给我一个吗,我在网上没找到.ocx格式的,我想要OCX格式的,不用注册的.谢谢我的邮箱.zhichenShen@163.com

java读取pdf乱码-java读取pdf文件出现中文乱码

问题描述 java读取pdf文件出现中文乱码 代码如下,读取pdf文件时,出现中文字符乱码的情况,求大神解决.. package read; import java.io.FileInputStream;import java.io.IOException;import java.io.InputStream; import com.linuxense.javadbf.DBFField;import com.linuxense.javadbf.DBFReader; public class re

java 读取pdf文档中的表格数据

问题描述 java 读取pdf文档中的表格数据 如题,如何使用Java读取PDF表格中的数据!跪求帮助,在线等回复,急!急!急! 解决方案 用Java读取pdf中的数据用Java读取pdf中的数据用Java读取pdf中的数据 解决方案二: 读出来就行,还是一行一条数据 解决方案三: http://bbs.csdn.net/topics/320171930 解决方案四: 要是实在不行先转换了啊

winform-有没有这样的组件,可以读取pdf文档,并且可以获取pdf文档当前页面的页码

问题描述 有没有这样的组件,可以读取pdf文档,并且可以获取pdf文档当前页面的页码 最近在做一个项目,要求在程序界面中显示pdf文档,并且自动获取该文档的当前页的页码, 我也用Adobe Acrobat PDF Reader 做了,但是没办法获得当前页的页码,在网上搜了好多,都没找到符合我的需求的组件,希望各位大侠指个思路 解决方案 用foxit sdk.http://www.foxitsoftware.cn/products/sdk/activex/ 解决方案二: 在线预览WORD文档,PD

delphi 用控件打开pdf文件无法读取pdf里的表单信息

问题描述 delphi 用控件打开pdf文件无法读取pdf里的表单信息 我用的delphi7 用的是破解版的foxit_ax_pro.ocx文件版本3.0.1.2506,用OpenFile打开一个包含表单的pdf文件,浏览正常,但用代码访问时出错(下面第二行,FNameMI存在): frm:=FoxitReaderSDK1.GetCurrentForm(); ShowMessage(frm.GetFieldByName('FNameMI').Value) ; 变成无法获取表单信息.另外单独打开该

itextsharp读取pdf byte[]

问题描述 .Net,用itextsharp读取pdf文件后生成byte[],再Encoding.Getstring()得到字符串,如下:qBT0612TdETQq0.0375w2J0j10M[]0d36576m756576l75672.04l3672.04l36576lhWn0.80.80.8rg42576m750576l749.25575.25l42.75575.25lhf*42576m42.75575.25l42.75414.45l42413.7lhf*749.25414.45m42.754

显示一个页面-app的页面是h5,怎么读取PDF文件

问题描述 app的页面是h5,怎么读取PDF文件 app的页面是h5,怎么读取PDF文件.求大神帮助.app的页面是h5,怎么读取PDF文件 解决方案 JSP读取PDF文件页面输出