欢迎来到论文网! 识人者智,自知者明,通过生日认识自己! 生日公历:
网站地图 | Tags标签 | RSS
论文网 论文网8200余万篇毕业论文、各种论文格式和论文范文以及9千多种期刊杂志的论文征稿及论文投稿信息,是论文写作、论文投稿和论文发表的论文参考网站,也是科研人员论文检测和发表论文的理想平台。lunwenf@yeah.net。
您当前的位置:首页 > 科技论文 > 计算机论文

对PDF文档的认识与应用探讨_OCR

时间:2012-10-17  作者:纪宏伟

论文导读::而若把这种格式的文档转换成PDF格式。再切换到Word或记事本程序中。使用OCR技术。公司的Acrobat软件可谓大名鼎鼎。文档应用的常见情况。
论文关键词:PDF,Word,OCR,Acrobat,应用
 

PDF是英文Portable Document Format的缩写,意为便携式文档格式,其突出优点是“将PDF文件格式的文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中”,从而保持源文档排版风格和字体格式不变(这样就不用担心其他电脑上的字体不全了)。我们都知道,一种软件一般只编辑自己格式的文档,如果计算机里没有该软件,则文档就无法打开,而若把这种格式的文档转换成PDF格式,则只要电脑里装有PDF浏览器,就可以阅览到这些文档的内容,从而避免了必须安装相应软件的麻烦。PDF文档的优点还有很多,具体可参见文[1-2]。所以很多产品说明书、技术文档、大量电子版书籍、学术论文以及相关文件等资源均以 PDF文件为主流的电子图书格式存储于互联网之中,它已成为了互联网中电子文档分发广泛使用的格式。

1 PDF文档浏览

我们平常看PDF文件的软件是Adobe Reader,这是Adobe公司免费提供的用于阅读PDF文档的软件,相信很多人对它并不陌生,但比较起来,有个软件似乎也并不逊色,它就是Foxit Reader(福昕阅读器)。该软件支持Adobe Reader的所有功能特性,它具有令人难以置信的小巧体积OCR,安装空间比Adobe Reader小得多,只有区区几个MB,而AdobeReader 比较庞大,安装后甚至多达190MB。难能可贵的是,FoxitReader也有一些常用的编辑功能,比如可以制作书签,在PDF文档上输入字符、对内容进行标记等等,这对于普通用户来说,已基本可以满足日常办公和学习需求。

2 PDF文件编辑

Adobe公司的Acrobat软件可谓大名鼎鼎,广为人知。它是一款用来创建、编辑、审阅、批准、加密和在线共享PDF的软件,功能非常强大。比如要编辑PDF文档里的文字,可以选择“视图→工具栏→打字机工具”,打开其工具箱,便可以对文字进行编辑。此外还有注释工具、文本框、页眉页脚的添加等等。Acrobat有许多功能,如PDF文件分割与合并、Word格式转换成PDF格式、PDF页面顺序调整、页面管理等,基本上都可以用其它的专门软件来替代实现,网上有不少的专门工具(这些工具小巧玲珑,启动速度快捷,有的还是绿色版,根本无需安装),可以在百度里以相应关键词搜索下载。Acrobat的不足之处也是体积过于庞大,正是因为如此,我们有时可用Foxit PDF Editor取而代之。Foxit PDF Editor同样具有可靠而卓越的所见即所得的编辑功能,其中,“快速导出电子书特定页面”更是可圈可点,值得称叹。对于一本拥有数十甚至数百页的PDF电子图书,如果想将其中某些页面提取出来单独作为资料进行保存,一般的常规作法可能很难来实现,但在这款软件中,却很容易搞定。用户在Foxit PDF Editor中打开PDF电子图书,然后在软件的“文档”菜单中选择“导出页面”选项,在打开的“导出页面”对话框中,只要指定导出页面保存路径和导出页面的范围,软件即可进行自动导出了论文服务。在默认的条件下,软件是导出“当前页面”,但这款软件还可以进行批量导出,在该“导出页面”对话框的“原始页面范围”中先选中“页面”,然后指定需要导出的页面页码或页面页码范围即可OCR,如“1,5,6,8,11”页、“5-12”页等等。美中不足的是,Foxit PDF Editor不支持为PDF文档添加页码。

3 PDF文档应用的常见情况

3.1 从PDF文档中提取文字和图片

从PDF格式的资料文件中提取文字内容拷贝到Word文档中,方法很简单:在PDF浏览器(如FoxitReader)中打开该PDF文档,然后用鼠标选取,右击“复制”命令(放到了剪切板上),再切换到Word或记事本程序中,“粘贴”即可(或者选用“选择性粘贴”中的“无格式文本”复制到Word)。这与我们平常在Word中的操作没有什么不同。问题是,有些PDF格式的文档,我们却不能拷贝其文本内容,原因可能是:1、本身里面的内容是图片格式的,即源文件没有文本内容,整个文件由bmp格式的图像组成;2、这个PDF文档是加密的,需要破解,破解后即可进行选取、复制等操作。如果是图片格式的PDF,只能通过一些OCR识别软件(例如Office自带的OCR识别软件)来进行识别,即从图中抓取文字,通俗地说,就是“抠字”。

OCR是英文Optical Character Recognition的缩写,即采用各种光学设备识别手写或打印的字符。使用OCR技术,可通过扫描仪、数码相机等光学输入设备将报刊、书籍、文稿、票据以及其它印刷品的文字转化为计算机的图像信息,然后再转化为计算机的内码,也就是计算机的文本。经过几十年的发展,OCR技术已经相当成熟。OCR技术功能强大,可以识别数字、标点符号、中英文字符,可以对中英文混排文稿进行识别,还具备版面分析和识别功能,无论横版、竖版、中文表格、图文混排文件都能识别[3]。需要提醒读者注意的是,在识别之前,需要首先把PDF文件转换成tif或jpg格式的图像页。

还有一种情况非常特殊(但也比较少见),PDF文档里的文本虽然可以复制,但粘贴到Word后竟全是乱码。这时候,只有把文档输出图片格式,再进行文字识别(OCR)了。

提取PDF文档中的图片的方法是:在Foxit Reader打开PDF文件,点击“工具→快照”OCR,或者直接在工具栏点选“框选某视区范围并复制为图片”按钮,随后光标变成十字型,拖动鼠标将要复制的图片选中,系统会自动将图片复制到剪贴板中了,再粘贴到Word等软件中即可。

这里要特别说明的是PDF文件中数学公式的抽取。把PDF数学公式复制粘贴到Word、记事本等程序中总是显示为不规范的符号、结构甚至乱码。文[4]也提到基于OCR技术的解决方法,但阐述的是从理论角度,不具有可操作性和适应性,对一般用户意义不大。

3.2 在PDF文档里添加页码

前已所述,Acrobat软件相关功能都可以用其它软件替代,但经笔者多年实践,若要对PDF文档添加页码,似乎只有Acrobat一枝独秀,可以胜任。添加页码的方法很简单,在Acrobat中,选择“文档→页眉和页脚”,在弹出的“添加页眉页脚”对话框进行相关设置即可,这里不多赘述。提醒读者注意一下几点:选择好某种字体,一定要注意下面的预览,看看其能否显示和显示效果;在“添加页眉页脚”对话框的右边可以设置一些其他要求,比如奇偶页什么的,最后点“确定”就行了;如果确定之后对之前设置的页码什么的不满意或者要修改,可以重新执行“文档→页眉和页脚”,点击“替换现有的”,重新弹出“添加页眉页脚”对话框,就可以直接设置为新的格式,当然,如果顶上的三个框框里都是空白的话那就是删除了页眉页脚,那页码也就没了。

3.3 Word文件转PDF格式

前已阐述Acrobat软件具有PDF文件转换的功能,但是如果仅仅用它来转换,显然是大材小用,尽管如此,我们还是有必要知道转换的方法,这主要是考虑到转换的方法有其相通性,即能虚拟打印就能转换。安装好Acrobat,系统会自动生成两个PDF虚拟打印机(Acrobat Distiller和Acrobat PDFWriter)。转换PDF格式,正是借助Acrobat Distiller或Acrobat PDFWriter实现。打开源文档,然后执行“文件→打印”命令调出打印对话框,在打印机名称下拉列表中选择 AcrobatDistiller 或Acrobat PDFWriterOCR,再像平时真正打印一样作一些设置,然后单击“确定”按钮,随后就会弹出一个另存为PDF的对话框,输入文件名并单击“确定”按钮即可。虚拟打印并不是真正的打印,请读者不要误会。当然,如果仅是为了转换格式,用Acrobat确实有点“杀鸡用牛刀”。其实有些转换PDF文件的小工具更好用,如著名的CutePDF Writer等,其转换的方法与之如出一辙,都是用“虚拟打印”的方法实现,过程、途径与上面相似,这里不赘。

3.4 PDF文件转Word格式

PDF格式虽然能用Acrobat编辑但毕竟不方便,因此很多时候,需要将它们转换为DOC文档后再编辑。微软的Word字处理软件想必是全民皆知的。PDF文档转换成Word文档,与Word转换PDF格式不同,相对比较难,容易出现乱码、格式版式丢失等等情况。网上PDF转Word 的工具软件也很多,如PDFFactory Pro、Converter for Microsoft Word等,但功能表现经笔者实践似以Solid PDF Converter最为抢眼。最值得称道的地方在于:当转化PDF文件为Word格式时,用其“全真页面模式”转化Word文件,转化的效果非常好,在编排上不出现任何变化,尤其是Word文档含有图片、表格时。具体的操作很简单论文服务。安装Solid PDF Converter后,Word中会多出一个“Open PDF”按钮。在Word中点击这个按钮,会出现PDF Converter的对话框。在“PDF File To”中选择要转换的PDF文档,然后点击“OPEN”就会在PDF文档所在的目录下生成同名的DOC文档,同时Word会自动打开转换后的DOC文档。虽然有时还是有乱码产生,但实践表明它在同类软件中仍然是最好的。由于转换DOC文档目的是为了更方便编辑,所以对于那种图片格式的PDF,尽管可以用Solid PDF Converter将其转换为Word格式,但转化后的Word仍然是图片似的,仍无法对其文字编辑。所以还是要借用OCR软件来处理(前面已有阐述)。识别的结果有时候可能有些“惨不忍睹”,但除了这种方法,似别无他法。

值得一提的是,若用Acrobat将PDF文档转换为Word文档,首先打开一篇PDF文档,再选择“文件→另存为”,选择“保存类型”为rtf格式OCR,建议最好保存成这种格式,以最大限度地减少乱码的产生。

3.5 PDF文档书签

我们在打开PDF电子书时,无论上次阅读到什么位置,显示的总是首页,如果页数较多找起来比较麻烦。若能像阅读书籍那样使用书签,就可方便下次的查阅。这是一项非常实用高效的功能。我们以Acrobat为例,加以简单介绍。首先进入Acrobat的主界面,然后在菜单栏中依次选择“编辑→首选项→文档”,并选中右侧的“重新打开文档时恢复上次视图设置”选项,这样设置后的PDF文档,即可在每次打开时自动定位到上次关闭的页面位置。使用这个无形的书签,减少了不必要的反复寻查,为我们具体摘要。

结束语

PDF是一种全球通用的文件格式,在网络信息中,越来越多的人在使用这种格式,PDF正越来越普及和受到青睐。本文探讨了普通用户相对比较关心、以及在具体使用中可能会碰到的问题,基于笔者多年的经验和心得,提出了参考意见,期待对大家有所启发和帮助。PDF更多赏心悦目的特色和引人入胜的功能,还有待读者自己去挖掘,去体会。


参考文献
[1]郑明.Adobe Acrobat软件在多媒体教学中的应用[J]. 科技信息,2010(6):258-260
[2]纪宏伟.数学论文的LaTeX排版与全文上网[J]. 软件导刊·教育技术,2011(1):87-88
[3]李新平.OCR技术的教育应用研究[J]. 教育技术导刊,2006(9):45-46
[4]田学东等.基于统计特征的数学公式抽取方法的研究[J]. 计算机工程,2006,32(19):211-213
 

 

查看相关论文专题
加入收藏  打印本文
上一篇论文:基于WEB挖掘的个性化教学推荐系统_Web挖掘
下一篇论文:从3G通信看我国通信业的发展_阶段
科技论文分类
科技小论文 数学建模论文
数学论文 节能减排论文
数学小论文 低碳生活论文
物理论文 建筑工程论文
网站设计论文 农业论文
图书情报 环境保护论文
计算机论文 化学论文
机电一体化论文 生物论文
网络安全论文 机械论文
水利论文 地质论文
交通论文
相关计算机论文
最新计算机论文
读者推荐的计算机论文