问题描述
需求是这样的:需要读取用户上传的pdf文件(可能有图片和表格),然后对内容进行拆分(根据段落),然后在页面上显示。我的想法是,无论什么文件都转换为html,主要是为了方便读取。请问pdf转html怎么实现?我试过用aspose.pdf(破解)。但问题是:1.转换后,原来的每一行都会被一个<div>包住,这样识别不出段落了。(这是主要问题)2.格式不太好,多出一些空格。3.大文件转换时间很长请教:1.要怎么识别出pdf的段落。2.怎么实现pdf转html。希望大家提供建议,谢谢。
解决方案
时间: 2024-09-08 12:38:28