跳转至主要内容
看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器,可能会看到意想不到的结果。

伊利诺伊大学香槟分校图书馆万博体育maxbetx

OCR和可搜索pdf的介绍

学习OCR最佳实践,以及如何使用ABBYY FineReader、adobeacrobat Pro或Tesseract开始OCR项目。

学术共享

档案照片
学术共享
联系人:
220和306主图书馆

欢迎@ 306

306服务台工作时间:
星期一至星期四:上午10:30至晚上7:30
星期五:上午十点半至下午六点半
星期日:下午二时至六时三十分

220室在主图书馆开放的任何时间都开放使用。

电话:217-244-1331
网站
社会: Twitter页面

处理非标准字体

训练模式通过训练软件识别特定字符来提高具有装饰性或特殊字体(例如数学符号)的文档的OCR识别质量。在训练模式下,会创建一个用户模式,可以在对整个文本执行OCR时应用该模式。默认情况下,“训练阅读”选项是禁用的,如果需要,需要启用。

创建和训练用户模式

  1. 单击选项对话框(工具>选项),然后单击选项卡
  2. 在“培训”下,选择其中之一使用内置模式和用户模式只使用用户模式(注意:选择内置模式和用户模式将同时使用用户模式和工厂OCR预设模式)
  3. 选择经过训练的阅读显示的选项
  4. 单击模式编辑器…按钮
  5. 模式编辑器对话框,单击新…
  6. 创建模式对话框将打开。键入用户模式的名称并单击好吧
  7. 关闭模式编辑器选项对话框好吧每个按钮。
  8. 控件顶部的工具栏上图像窗口中,单击
    现在如果ABBYY FineReader遇到一个未知字符,该字符将显示在模式培训对话框如下所示。

注意:不建议在其他情况下使用训练模式,因为与花费在训练上的精力和时间相比,识别质量的增益是最小的。

另请注意:您只能训练ABBYY FineReader阅读识别语言的字母表中包含的字符。

修复错误识别的区域

ABBYY是一个很好的工具,但有时它会出错。区域可能被错误地分析和/或完全遗漏。当这种情况发生时,您可以重新指定不正确和缺失的区域。您可以使用界面中的区域编辑工具:

  • 创建一个新区域
  • 调整寄宿生
  • 添加或删除部分区域
  • 删除区域

创建一个新区域

的工具中单击一个工具图像编辑框左侧的窗口:

此符号将绘制一个识别区域

此符号将绘制一个文本区域

此符号将绘制一个图片区域

此符号将绘制一个具有背景照片和文本覆盖的区域

此符号将绘制一个表区域

在指定要创建的区域类型后,按住鼠标左键并拖动光标选择相应的区域。

完成后,您需要通过单击编辑窗口顶部的“阅读页面”按钮,或右键单击并从出现的菜单中选择“阅读”来重新阅读页面。别忘了存钱!

编辑图片

编辑图像是创建高质量最终文档不可或缺的一步。ABBYY允许在处理文档时进行一些简单的编辑。

  1. 当您在具有要编辑的图像的页面上时,请选择编辑图片开始编辑过程。
  2. ABBYY将在图像编辑器窗口中打开页面。
  3. 在图像编辑器中,您可以用几种方法编辑图像
    • 抗扭斜:纠正图像倾斜
    • 照片修正:平直文本行,消除运动模糊,降低噪音
    • 纠正梯形失真:纠正透视扭曲
    • 旋转和翻转:将图像旋转到标准方向(水平,从左到右)。
    • 分裂:将图像(例如对页)分割为单独的单元。
    • 作物:用于裁剪图像中不需要的边缘
    • :启用文档颜色的标准反转(深色文本对浅色背景)
    • 决议:改变图像精度
    • 亮度和对比度:编辑图像的亮度和对比度
    • 水平:编辑阴影、光和半色调
    • 橡皮擦:擦除部分图像(可用于编校信息)
    • 去除颜色标记:从扫描中删除钢笔和其他标记(只建议用于白色背景的深色文本,不建议用于照片)
  4. 单击所需工具的按钮,进行必要的调整。对话框的左侧显示了更改的预览。

Baidu