跳转至主要内容
看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器,可能会看到意想不到的结果。

伊利诺伊大学香槟分校图书馆万博体育maxbetx

OCR和可搜索pdf的介绍

学习OCR最佳实践,以及如何使用ABBYY FineReader、adobeacrobat Pro或Tesseract开始OCR项目。

活动#1:PDF -> Excel在ABBYY FineReader

这个活动对你有帮助熟悉教你如何导入pdf文件,提供更正区域的介绍,并教你如何将文档导出为表格。

步骤1:导入PDF文档

  1. 下载活动#1 -在校学生注册。pdf从本LibGuide中的文档框。
  2. 打开ABBYY FineReader PDF 15(它应该在你的桌面上,或者你可以在左下角的窗口按钮上查看程序)
  3. 打开ABBYY FineReader后,下一步是定位您想要使用的文档。点击在OCR编辑器中打开并导航到活动#1 -在校学生注册。pdf导入它。
  4. 一旦你选择了你的文档,软件应该导入并开始分析。

步骤2:确保ABBYY正在识别表。

彩色方框及其代表的有用指南:

绿色:非表格文本

红色:图片

蓝色:表

  1. 检查文档区域,确保ABBYY Finereader已正确导入文档。
    1. ABBYY是否将信息识别为表格?
      1. 提示:表格是否在一个蓝框内?
  2. 通读文档的每一页,确保所有内容都正确识别。一旦一切正常,就可以将文档保存到Excel中了。

步骤3:在Excel中输出

  1. 另存为Excel文档
    1. 提示:保存/转换文档为不同的格式可以在工具栏中找到。
  2. 在Excel中打开文档并检查您的工作。

活动#2:在ABBYY FineReader中纠正OCR结果

该活动的目的是通过纠正ABBYY FineReader执行的OCR结果来获得练习。

步骤1:打开文档

  1. 下载活动#2 -富兰克林·罗斯福信。jpg从本LibGuide中的文档框。
  2. 当你第一次打开ABBYY FineReader时,点击“在OCR编辑器中打开”。这将打开一个文件对话框。导航到刚才下载的FDR信。点击开放
  3. 然后,ABBYY将对图像进行识别,这只需要几分钟的时间。
  4. 在屏幕的左侧将是原始图像,顶部是方框。右边是它识别的文本。在右侧,任何突出显示为蓝色的文本都是ABBYY不太确定是否正确的文本。

第二步:文本修正和训练

  1. 若要调整识别的文本,请单击右侧的文本框并输入更正。
  2. 如果需要对图像文本进行训练,请单击工具>选项> OCR.单击使用训练来识别新的字符和连词单选按钮。
  3. 现在,如果您右键单击任何绿色方框并单击“识别”,ABBYY将询问您是否正确识别特定字符。

    在这个截图中,它只选择了部分字母M。多次单击>>按钮,将方框展开以覆盖整个信件。一旦它这样做了,它可能会正确地将其识别为M,但如果不是,则在文本输入中输入M。然后单击火车
  4. 你可以通过图像中的几个字母,直到你用完字母,或者你厌倦了训练OCR。如果要停止训练,请单击关闭然后是的以保存对训练过的OCR模式的更改。

第三步:修正方框

在左边,你会注意到富兰克林·罗斯福的签名在一个红框里。这意味着它被识别为图像,而不是文本。如果要将文档保存到Microsoft Word,则该元素仍然是图像。

由于其中包含文本,我们需要确保在该区域中放入文本。

  1. 单击红框并删除它。接下来,单击工具栏顶部的文本按钮。然后画两个绿色的矩形,一个在“非常真诚的你”周围,另一个在罗斯福的签名周围。然后右键单击每个方框并单击识别
  2. 这将生成右边的文本,但您可能必须输入签名的名称,因为OCR不能很好地识别笔迹。

步骤4:输出为PDF

  1. 将文档保存为PDF格式
    1. 提示:保存/转换文档为不同的格式可以在工具栏中找到。
  2. 在PDF查看器中打开文档并检查您的工作。

活动#3:使用示例文档

现在你有机会玩一下ABBYY以及它是如何做OCR的。下载活动#3 Documents.zip里面包含了一些你可以导入到ABBYY FineReader的图片。导入它们,看看ABBYY在识别文本方面做得有多好,进行更正,绘制新的识别框,并尝试导出到不同的程序。

Baidu