该活动的目的是通过纠正ABBYY FineReader执行的OCR结果来获得练习。
步骤1:打开文档
- 下载活动#2 -富兰克林·罗斯福信。jpg从本LibGuide中的文档框。
- 当你第一次打开ABBYY FineReader时,点击“在OCR编辑器中打开”。这将打开一个文件对话框。导航到刚才下载的FDR信。点击开放.
- 然后,ABBYY将对图像进行识别,这只需要几分钟的时间。
- 在屏幕的左侧将是原始图像,顶部是方框。右边是它识别的文本。在右侧,任何突出显示为蓝色的文本都是ABBYY不太确定是否正确的文本。
第二步:文本修正和训练
- 若要调整识别的文本,请单击右侧的文本框并输入更正。
- 如果需要对图像文本进行训练,请单击工具>选项> OCR.单击使用训练来识别新的字符和连词单选按钮。
- 现在,如果您右键单击任何绿色方框并单击“识别”,ABBYY将询问您是否正确识别特定字符。在这个截图中,它只选择了部分字母M。多次单击>>按钮,将方框展开以覆盖整个信件。一旦它这样做了,它可能会正确地将其识别为M,但如果不是,则在文本输入中输入M。然后单击火车.
- 你可以通过图像中的几个字母,直到你用完字母,或者你厌倦了训练OCR。如果要停止训练,请单击关闭然后是的以保存对训练过的OCR模式的更改。
第三步:修正方框
在左边,你会注意到富兰克林·罗斯福的签名在一个红框里。这意味着它被识别为图像,而不是文本。如果要将文档保存到Microsoft Word,则该元素仍然是图像。
由于其中包含文本,我们需要确保在该区域中放入文本。
- 单击红框并删除它。接下来,单击工具栏顶部的文本按钮。然后画两个绿色的矩形,一个在“非常真诚的你”周围,另一个在罗斯福的签名周围。然后右键单击每个方框并单击识别.
- 这将生成右边的文本,但您可能必须输入签名的名称,因为OCR不能很好地识别笔迹。
步骤4:输出为PDF
- 将文档保存为PDF格式
- 提示:保存/转换文档为不同的格式可以在工具栏中找到。
- 在PDF查看器中打开文档并检查您的工作。