跳转至主要内容
看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器,可能会看到意想不到的结果。

伊利诺伊大学香槟分校图书馆万博体育maxbetx

OCR和可搜索pdf的介绍

学习OCR最佳实践,以及如何使用ABBYY FineReader、adobeacrobat Pro或Tesseract开始OCR项目。

为什么最佳实践很重要

这些步骤将帮助您在开始OCR流程之前创建一个清晰的计划,以便您可以节省时间并生产出最高质量和最灵活的最终产品。

一些通用OCR指南

扫描的考虑:

  • 推荐的分辨率OCR精度的最佳扫描结果是每英寸300点(dpi)。

  • 亮度设置过高或过低都会对图像的准确性产生负面影响。建议亮度为50%。

  • 初始扫描的直线度会影响OCR质量。倾斜的页面会导致不准确的识别。

  • 旧的和褪色的文档必须在RGB模式下扫描,以便捕获所有的图像数据。

文本的注意事项:

  • 语言:1850年以前出版的文本可能与OCR软件不太兼容。但是,如果您正在扫描的页面是不同的语言,许多OCR系统允许您选择文档的语言。

  • 低对比度的文档会导致较差的OCR。

  • Typescript的结果比打印的OCR差;不一致的字体面和大小会降低OCR精度。

其他注意事项:

  • OCR软件准确分析文档的能力取决于数字文件的原始状态和/或质量。

  • 如果您没有数字文档,或者您拥有的文档质量较差,您可以使用OCR程序作为扫描软件扫描原始文档。

  • 使用OCR软件不需要特殊技能。

  • 您应该意识到,如果您的目标是100%的文本准确性,则需要在文本完成原始识别过程后检查和更正文本。系统本身不能进行检查。对于大量文本和/或质量较差的原始文本,编辑/更正过程可能需要相当长的时间。

有关如何获得高质量图像的更多信息,请参阅LibGuide如何利用数字化工具进行档案研究

数字内容创作的5个OCR最佳实践(概述)

考虑到使用OCR输出

仔细考虑你对最终OCR文本的意图将帮助你创建一个在所有适当的方式中丰富的最终文本。你应该考虑你希望在最终文本中达到的精确程度。它应该是全文的传真风格的表示吗?或者,将来要将文本发送到的存储库是否需要某些标准?同样重要的是,所有合作者在最终产品的需求和期望方面保持一致。

考虑功能OCR软件

理解OCR软件如何处理你的文本也是一个重要的考虑因素。你应该考虑文本的结构元素,如标题、图像、表格、标题,甚至字体和语言。OCR软件将如何处理这些元素?你能做些什么来帮助这个过程尽可能顺利地进行?去偏,裁剪等。

考虑输出文件格式

在计划使用输出时,您可能已经考虑了最终文本文档的输出文件格式。请记住,使您的文本可广泛搜索是OCR的主要用途之一。考虑你的项目的最佳格式,基于你想要访问你的文本的人,以及你如何使它为你的目标受众所访问。

考虑影响的两个因素精度OCR的

请记住,软件包的准确率可能在97%到99%之间,但是,这些准确率是基于字符错误,而不是单词错误。

  • 文本的考虑

    • 特殊字体(打字机字体)、超小字体(6pt)和低对比度文本都会降低OCR软件的准确性。有时候,OCR软件使用起来根本没有帮助。例如,OCR软件无法以任何程度的准确性识别手写文档。

  • 扫描的考虑

    • 获得高质量的图像是获得最佳和最准确的OCR体验的第一步。在扫描文本之前,要考虑分辨率、亮度、平直度和褪色等问题。

考虑可能的修正

如果你的OCR文本要求100%的准确性,这可以使用OCR软件中的编辑工具来完成。这个过程可能是劳动密集型和耗时的,然而,这是产生文本精确副本的最佳方法。

更多的资源

Baidu