跳转至主要内容

看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器，可能会看到意想不到的结果。

OCR和可搜索pdf的介绍

学习OCR最佳实践，以及如何使用ABBYY FineReader、adobeacrobat Pro或Tesseract开始OCR项目。

学术共享

给我发邮件

联系人:

220和306主图书馆

欢迎@ 306

306服务台工作时间:
星期一至星期四:上午10:30至晚上7:30
星期五:上午十点半至下午六点半
星期日:下午二时至六时三十分

220室在主图书馆开放的任何时间都开放使用。

电话:217-244-1331

主题: 精明的研究员

活动文档

活动#1:PDF -> Excel在ABBYY FineReader

这个活动对你有帮助熟悉教你如何导入pdf文件，提供更正区域的介绍，并教你如何将文档导出为表格。

步骤1:导入PDF文档

下载活动#1 -在校学生注册。pdf从本LibGuide中的文档框。
打开ABBYY FineReader PDF 15(它应该在你的桌面上，或者你可以在左下角的窗口按钮上查看程序)
打开ABBYY FineReader后，下一步是定位您想要使用的文档。点击在OCR编辑器中打开并导航到活动#1 -在校学生注册。pdf导入它。
一旦你选择了你的文档，软件应该导入并开始分析。

步骤2:确保ABBYY正在识别表。

彩色方框及其代表的有用指南:

绿色:非表格文本

红色:图片

蓝色:表

检查文档区域，确保ABBYY Finereader已正确导入文档。
1. ABBYY是否将信息识别为表格?
  1. 提示:表格是否在一个蓝框内?
通读文档的每一页，确保所有内容都正确识别。一旦一切正常，就可以将文档保存到Excel中了。

步骤3:在Excel中输出

另存为Excel文档
1. 提示:保存/转换文档为不同的格式可以在工具栏中找到。
在Excel中打开文档并检查您的工作。

活动#2:在ABBYY FineReader中纠正OCR结果

该活动的目的是通过纠正ABBYY FineReader执行的OCR结果来获得练习。

步骤1:打开文档

下载活动#2 -富兰克林·罗斯福信。jpg从本LibGuide中的文档框。
当你第一次打开ABBYY FineReader时，点击“在OCR编辑器中打开”。这将打开一个文件对话框。导航到刚才下载的FDR信。点击开放．
然后，ABBYY将对图像进行识别，这只需要几分钟的时间。
在屏幕的左侧将是原始图像，顶部是方框。右边是它识别的文本。在右侧，任何突出显示为蓝色的文本都是ABBYY不太确定是否正确的文本。

第二步:文本修正和训练

若要调整识别的文本，请单击右侧的文本框并输入更正。
如果需要对图像文本进行训练，请单击工具>选项> OCR．单击使用训练来识别新的字符和连词单选按钮。
现在，如果您右键单击任何绿色方框并单击“识别”，ABBYY将询问您是否正确识别特定字符。
在这个截图中，它只选择了部分字母M。多次单击>>按钮，将方框展开以覆盖整个信件。一旦它这样做了，它可能会正确地将其识别为M，但如果不是，则在文本输入中输入M。然后单击火车．
你可以通过图像中的几个字母，直到你用完字母，或者你厌倦了训练OCR。如果要停止训练，请单击关闭然后是的以保存对训练过的OCR模式的更改。

第三步:修正方框

在左边，你会注意到富兰克林·罗斯福的签名在一个红框里。这意味着它被识别为图像，而不是文本。如果要将文档保存到Microsoft Word，则该元素仍然是图像。

由于其中包含文本，我们需要确保在该区域中放入文本。

单击红框并删除它。接下来，单击工具栏顶部的文本按钮。然后画两个绿色的矩形，一个在“非常真诚的你”周围，另一个在罗斯福的签名周围。然后右键单击每个方框并单击识别．
这将生成右边的文本，但您可能必须输入签名的名称，因为OCR不能很好地识别笔迹。

步骤4:输出为PDF

将文档保存为PDF格式
1. 提示:保存/转换文档为不同的格式可以在工具栏中找到。
在PDF查看器中打开文档并检查您的工作。

活动#3:使用示例文档

现在你有机会玩一下ABBYY以及它是如何做OCR的。下载活动#3 Documents.zip里面包含了一些你可以导入到ABBYY FineReader的图片。导入它们，看看ABBYY在识别文本方面做得有多好，进行更正，绘制新的识别框，并尝试导出到不同的程序。