怎么提取PDF文件中的内容?

如何将多期PDF杂志中有用内容页面提取出来,处理后单独保存,随后将它们制作成一个PDF文件呢?
使用Foxit PDF Editor绿色汉化版和PDFBinder这款PDF合并工具免费版这两个工具,就能完成整理任务。

1、删除页面无关内容

第一步要做的工作就是要讲需要收藏的杂志页面中的无关内容删除掉。
首先下载Foxit PDF Editor V2.2.1 build 1102 绿色汉化版,解压运行,在其界面中使用打开按钮将需要处理的PDF文档打开。
点击状态栏的页码切换按钮,切换到需要提取的PDF文件页面,在页面上双击,出现Foxit工具条,从中选择“矩形选取框”工具,在页面上拖选不需要的区域,选择后按下键盘上的Delete键,将不需要的部分删除掉。同时还可以将其他页面需要的内容,剪切整理到一起。

2、添加必要注释文本
为了方便阅读,还需要为PDF页面添加文本标记内容(标记文章所在的期号、页码或必要的注释等)。
Foxit PDF Editor 支持中文字体,在添加中文文本内容前,需要导入中文字体。可从主菜单或右键菜单中选择“添加文本对象”项,点击出现对话框中的“对象属性---导入Windows字体”命令,然后选择想要的中文字体,确定后,在“添加文本对象”对话框中输入需要添加中文文本内容,确定即可。

小提示:如果是由Word或WPS文档直接转换的PDF文档,在这个小工具中还可以方便地编辑其中的文字,只需双击相应文字,即可进行编辑。

3、提取有用的PDF页面

处理好需要提取的页面后,从“文档”菜单中选择“导出页面”命令,打开“导出页面”对话框,点击“目的”后的按钮,选择设置好提取导出的PDF文件名称和保存位置,在“原始页面范围”中选择“当前页面”项,同时在右侧“源文档预览区”中可查看当前页面内容,最后点击“确定”按钮,将当前页面提取出来成为一个单独的PDF文档。

时间: 2024-12-22 02:58:22

怎么提取PDF文件中的内容?的相关文章

我想知道怎样提取pdf文件中的图片,因为我想把pdf文件转换为doc,还有别的形式,可是利用pdfbox只能提取出文本来,希望大家提供点办法,急呀

问题描述 我想知道怎样提取pdf文件中的图片,因为我想把pdf文件转换为doc,还有别的形式,可是利用pdfbox只能提取出文本来,希望大家提供点办法,急 解决方案 解决方案二:你从网上下载个PDF转化DOC工具就得了啊,很多的,到处都是咧解决方案三:貌似使用adobe的打印到文件就可以转换成doc文件解决方案四:你从网上下载个PDF转化DOC工具

高难度(怎么样提取PDF文件中的图片和样式)

问题描述 最好有列子可以研究一哈,分不够在加. 解决方案 解决方案二:自己先顶一下解决方案三:PDF似乎提供了一些接口,你可以查一下PDF官方帮助文档.解决方案四:看了很多,现在文字可以提出来,但是图片和样式不知道怎么搞.郁闷啊解决方案五:呵呵.顶了.学习!解决方案六:LS的兄弟,以前遇到这样的问题没有解决方案七:帮顶JF

如何自己写代码从pdf文件中提取纯文本

问题描述 最近做一个毕设,关于从pdf文件中提取纯文本的.从网上找了一段C写的代码,可以简单的实现从pdf中抽取文本,不过,只能提取英文,而不能提取汉字.研究了几天了,仍无头绪,急求大侠帮忙.下面附上c语言代码.#include<stdio.h>#include<windows.h>//YOurprojectmustalsoincludezdll.lib(ZLIB)asadependency.//ZLIBcanbefreelydownloadedfromtheinternet,ww

C#怎么解析PDF文件中的线段之类的图元?

问题描述 各位,我想解析PDF文件中的图形,网上有一大堆都是读取pdf文件里面的文字,或者顶多是图片之类的.但是我想要的是,读取PDF文件里面的CAD图纸:例如一个圆.一个线段.或者一段弧.其实也就是,想把这个PDF文件经过解析,生成同样的CAD文件.现在的问题就是:怎么获取里面线段.圆.圆弧等图元,获取图元的坐标信息,然后写到CAD文件里面(写到CAD这个很简单).说白了,就是这么把PDF文件里面的内容转换成CAD图纸.网上也有一些工具,但是效果不是很好,有的还是破解的.求助啊~~~~~~~~

linux下批量替换文件中的内容

  grep命令可以查找单个文件或文件夹下文件中的内容,使用参数"r"或"-R"可以递归查找指定文件夹下的所有文件;参数"l"可以让grep输出包含指定字符串的文件名,首次匹配成功后立刻停止对同文件的查询.如果不使用"l",grep查询单个文件时输出文件中所有包含指定字符串的行,对文件夹查询时则按照"文件名:包含字符串行"的方式输出. 有了上面提到的知识,执行批量替换的命令可以写为: grep "

一次读取文件中所有内容

http://blog.csdn.net/banzhiyu/archive/2007/07/26/1708438.aspx 一次读取文件中所有内容  #include <fstream>#include <sstream>#include <string>#include <iostream>#include <cstdlib>using namespace std; int  main(){string str;ifstream ifile(&

java如何将doc文件中的内容按照原样输出到jsp页面上

问题描述 java如何将一个doc文件中的内容按照原来的样式排版输出到页面上 如果doc文件中只包含文字的话就好弄了,但是文件中可能包含图片,表格 好纠结 ! 解决方案 将word直接转换成html解决方案二:利用openoffice/jcom可以实现上述功能,自己找找资料,实在不行,你再找我

java代码-Java GUI如何将文件中的内容读入Jtable中

问题描述 Java GUI如何将文件中的内容读入Jtable中 文件中有四列信息,分别是不同的数据类型,想要用DefaulttableModel读进去,但是构造函数需要一个二维数组以及一个一维数组,二维数组那个地方由于只能定义一种类型,但是需要的数据有多种类型,不知道应该怎样解决了

vb.net 如何读取PDF文件中的图像。

问题描述 如题,我想用vb.net读取PDF文件中的一个图片,并在窗体上的图片框中显示出来.我的PDF文件里只有一张图片,别的什么都没有.新手求各位大侠帮忙..谢谢! 解决方案 解决方案二:有很多pdftoimage控件,有這樣的功能解决方案三:大侠,能传给我一个吗,我在网上没找到.ocx格式的,我想要OCX格式的,不用注册的.谢谢我的邮箱.zhichenShen@163.com