OCR最佳实践- OCR和可搜索pdf介绍-伊利诺伊大学香槟分校的LibGuides万博体育maxbetx

学术共享

给我发邮件

联系人:

220和306主图书馆

欢迎@ 306

306服务台工作时间:
星期一至星期四:上午10:30至晚上7:30
星期五:上午十点半至下午六点半
星期日:下午二时至六时三十分

220室在主图书馆开放的任何时间都开放使用。

电话:217-244-1331

主题: 精明的研究员

这些步骤将帮助您在开始OCR流程之前创建一个清晰的计划，以便您可以节省时间并生产出最高质量和最灵活的最终产品。

OCR软件准确分析文档的能力取决于数字文件的原始状态和/或质量。
如果您没有数字文档，或者您拥有的文档质量较差，您可以使用OCR程序作为扫描软件扫描原始文档。
使用OCR软件不需要特殊技能。
您应该意识到，如果您的目标是100%的文本准确性，则需要在文本完成原始识别过程后检查和更正文本。系统本身不能进行检查。对于大量文本和/或质量较差的原始文本，编辑/更正过程可能需要相当长的时间。

有关如何获得高质量图像的更多信息，请参阅LibGuide如何利用数字化工具进行档案研究．

仔细考虑你对最终OCR文本的意图将帮助你创建一个在所有适当的方式中丰富的最终文本。你应该考虑你希望在最终文本中达到的精确程度。它应该是全文的传真风格的表示吗?或者，将来要将文本发送到的存储库是否需要某些标准?同样重要的是，所有合作者在最终产品的需求和期望方面保持一致。

理解OCR软件如何处理你的文本也是一个重要的考虑因素。你应该考虑文本的结构元素，如标题、图像、表格、标题，甚至字体和语言。OCR软件将如何处理这些元素?你能做些什么来帮助这个过程尽可能顺利地进行?去偏，裁剪等。

在计划使用输出时，您可能已经考虑了最终文本文档的输出文件格式。请记住，使您的文本可广泛搜索是OCR的主要用途之一。考虑你的项目的最佳格式，基于你想要访问你的文本的人，以及你如何使它为你的目标受众所访问。

请记住，软件包的准确率可能在97%到99%之间，但是，这些准确率是基于字符错误，而不是单词错误。

文本的考虑
- 特殊字体(打字机字体)、超小字体(6pt)和低对比度文本都会降低OCR软件的准确性。有时候，OCR软件使用起来根本没有帮助。例如，OCR软件无法以任何程度的准确性识别手写文档。
扫描的考虑
- 获得高质量的图像是获得最佳和最准确的OCR体验的第一步。在扫描文本之前，要考虑分辨率、亮度、平直度和褪色等问题。

如果你的OCR文本要求100%的准确性，这可以使用OCR软件中的编辑工具来完成。这个过程可能是劳动密集型和耗时的，然而，这是产生文本精确副本的最佳方法。