帮助修改文本

简介

修改文本的目的是什么?

文本修正提高了伊利诺伊州数字报纸集(IDNC)关键字搜索的准确性。文本更正模块启用IDNC用户纠正在报纸数字化过程中引入的错误。随着时间的推移,由于我们的志愿者文本更正人员的努力,这些文本更正提高了可搜索文本的准确性。

任何人都可以参与文本更正(参见下面关于如何开始的说明)。

为什么需要文本更正?

当我们将报纸数字化时,我们使用光学字符识别(OCR)软件生成可搜索的文本。生成的文本通常被称为“光学字符识别“文本”,以区别于用户在报纸数字化图像中看到的文本。

在大多数数字化的报纸收藏中(如Newspapers.com)光学字符识别文本仍然隐藏,用户永远不会看到他们实际搜索的文本。你在这些收藏中看到的基本上都是报纸版面的数码照片。没有光学字符识别在美国,这些页面仍将无法搜索。

光学字符识别使用户能够搜索大量的全文数据,但它从来都不是100%准确的。准确性取决于许多因素,包括原始印刷品的质量,缩微摄影时的状况,扫描仪捕捉到的细节水平,以及图像的质量光学字符识别软件像脏的或损坏的页面、薄的纸张、小字体、混合的字体和复杂的页面布局等问题可以减少光学字符识别准确性。

IDNC的文本修正模块可以让您并排查看光学字符识别文本和数字化的页面图像。下面是一个poor的例子光学字符识别

OCR文本示例(右侧)和原始图像示例(右侧)
示例的OCR文本(在左边)和原始图像(在右边),从纽约快船(1865年6月2日,p. 2

在文本校正模块的右侧窗格是实际报纸的数字化图像;左边是光学字符识别文本,在文本修正界面中显示。的IDNC文本修正模块允许您查看光学字符识别文字即使选择不参与文字纠错。

在上面的例子中,第一行光学字符识别文本是软件试图渲染文章的标题“the RING”:

~\ t * i- ?j1r - < JT * μ - < 7t -s,-v >。- _ _ the bi ^ g。

右边的文章图片对于人类来说已经很难阅读了,所以你可以想象这对于计算机软件来说是多么棘手,它首先试图识别离散的形状并将它们与字母匹配。

文本修改说明

如何开始文本更正?

-创建帐户

要开始更正文本,必须先注册为用户。点击屏幕右上角的“注册”。验证邮件将发送到您的电子邮件地址。验证后,您可以登录到IDNC开始修改文本。

-进入文本修改界面

一旦您进入报纸查看器(无论是从搜索结果屏幕,还是从浏览屏幕),您将看到报纸查看器分为两个部分:右侧显示页面图像,左侧是文本更正界面,在那里您可以查看和更正光学字符识别文本。

报纸查看器
报纸查看器

当您将鼠标移到右窗格中的页面图像上时,组成页面的块将突出显示。可以用鼠标拖动来滚动视图,或者使用查看器上方的按钮放大/缩小视图。单击高亮显示的块将选中它,并将用于编辑该块的表单加载到左侧窗格中。

-如何进行文本更正

有两种方法可以开始从文档查看器中更正文本:

  • 选择要修改的文章或页面。这将在文档查看器的左窗格中显示文本。点击出现在文本上方的“更正此文本”链接。
    或者,
  • 右键单击文章或页面图像,并从选项弹出窗口中选择“正确的文章文本”或“正确的页面文本”。逐行修改文本。右边窗格中显示一个红色框,以帮助您确定应该在该行中包含哪些文本。

逐行修改文本。右边窗格中显示一个红色框,以帮助您确定应该在该行中包含哪些文本。修改完文本后,点击“保存”。您所做的更改将立即生效。或者,单击“取消”按钮将丢弃您所做的任何未保存的更改。

然后,您可以对同一块进行进一步更正,通过单击“保存和下一步”按钮移动到下一个块,在右侧窗格中选择另一个块,或通过单击“返回查看模式”链接退出文本更正视图。点击“保存&退出”而不是“保存”将保存更改,然后自动返回正常查看模式。

-保存你的工作

修改完文本后,点击“保存”。您所做的更改将立即生效。然后,您可以对同一块进行进一步更正,通过单击“Save & next”或“next”按钮移动到下一个块,在右侧窗格中选择另一个块,或通过单击“exit”链接退出文本更正视图。

点击“保存&退出”而不是“保存”将保存更改,然后自动返回正常查看模式。

文本修正指南

输入你看到的:单词、标点符号和连字符。你的抄写应该保留原始文档的拼写、语法和词序。

你不必纠正空格或其他标点符号,但如果你愿意,你可以这样做。

如果你遇到拼写错误,输入打印出来的单词,然后在方括号[]中输入正确的拼写,以提高可搜索性。下面的例子有三个拼写错误:

摘自1922年10月7日《蒙茅斯日报地图集》第5页
蒙茅斯从每天阿特拉斯, 1922年10月7日,p. 5

以上文字的更正如下:

摘自1922年10月7日《蒙茅斯日报地图集》第5页
蒙茅斯从每天阿特拉斯, 1922年10月7日,p. 5

你可能会发现一些单词似乎拼错了,但其实不是。拼写,就像语言本身一样,会发生变化,甚至在一个时间段内也会发生变化。像对待拼写错误的单词一样对待旧的或变体的拼写:保留页面上看到的原始拼写,但也可以在方括号中添加一个现代化的拼写,或者您认为搜索者更可能在查询中使用的变体拼写。

摘自《爱德华维尔观察家》,1825年5月31日,第2页。
从爱德华兹观众《1825年5月31日》,第2页。

在上面的例子中,“connexion”并没有拼错:它是“connection”的旧拼法。

地名和人名在旧报纸上的拼写经常与现在不同。例如,在19世纪的报纸上,“厄巴纳”通常是厄巴纳市的公认拼写。另一方面,明尼苏达州(Minnesota)的拼写通常只有一个“n”:Minesota。美洲印第安人的索克部落通常被拼写为“Sac”或“Sac Indians”。与拼写错误的单词一样,您应该保留原始单词的拼写,如果您愿意,可以在括号中添加现代化(或标准化)拼写。

对于更复杂的插值,使用注释或标记。例如,已婚女性通常会被提及丈夫的名字,即使他已经去世。

摘自伯克夏世界和玉米带斯托克曼,1917年4月,第74页
Berkshire World和Cornbelt Stockman(1917年4月)第74页

显然,你不可能总是知道对方的名字,甚至打印出来的名字是丈夫的还是妻子的。但是,如果你确信你知道,那么可以考虑添加她的真实姓名作为标签:“Bertha Palmer”。

麦斯科瓦基印第安人通常被称为“狐狸”印第安人。同样,请考虑将名称的标准化形式作为标记而不是文本更正添加,因为严格地说,“Fox”并不是一种变体拼写。

如果你看不出原来的单词,用方括号表示[难以辨认]文本。

如果有一行光学字符识别文本已被完全跳过,然后将缺失的文本行添加到上面一行的末尾。如果没有前面的行,则将文本添加到下一行的开头。在可能的情况下,确保每行的开头与原始文本的开头相匹配。

按正确的阅读顺序抄写文章。

在不可能重现页面上出现的文本的情况下,只需确保单词在最近可用的文本更正框中表示即可。

一旦你完成了对某个文本块的更正,请勾选“此块完全正确”框。一个区块仍然应该被标记为“完全正确”,即使它包含一些标记为[难以辨认]的文本。

有时,没有文本内容的图形被扫描为文本,将提示您更正它。如果图形不包含文本,只需删除出现在文本更正框中的文本,并标记为正确。

如果您想添加注释,请使用左窗口的注释部分,位于正在更正的文本的末尾(添加注释)。不要在转录区域添加注释。抄写区应该只包含报纸版面上的内容(括号中标注有更正或难以辨认的部分)。

如果你想添加标签,使用左窗口的标签部分在文本的末尾被纠正(添加标签)。标签可以被浏览并用于缩小搜索范围。

如果你发现了与原文无关的更正,你可以把它们改回原文。如果更正显示为故意破坏,请报告故意破坏idnc@library.illinois.edu