前言
如果我们想将服务端的PDF文档内容展示给客户端,往往会通过URL直接访问的方式。这样一来,PDF文档就会毫无保留的保存到客户端去,通过浏览器的PDF插件,客户端可以随意拷贝PDF的副本。(如下图)
本文通过HttpHandler和开源控件PDFBox来对PDF文档进行访问控制,只向客户端解析并展示PDF的内容而非PDF文件本身。
PDF解析
目前有许多PDF解析组件,国内比较常用的是iTextSharp,该控件早期从JAVA移植过来,完全支持.NET平台,在创建PDF文档方面非常灵活易用。然而在读取解析PDF时却显得力不从心,只有少数复杂难用的类可以让我们读取PDF。故不适合本案。
PDFBox在此方面表现却非常突出,同样,它也是从java平台移植过来的, 常用来作为Lucene的PDF索引器。目前,它的开源项目中已经包含了通过IKVM.NET(IKVM.NET is an implementation of Java for Mono and the Microsoft .NET Framework.)封装,而支持.NET的组件。
PDFBox对PDF的读取解析非常简单,只用如下代码即可完成:
private static string parseUsingPDFBox(string filename)
{
PDDocument doc = PDDocument.load(filename);
PDFTextStripper stripper = new PDFTextStripper();
return stripper.getText(doc);
}
时间: 2024-10-25 07:00:24