跳转至主要内容
看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器,可能会看到意想不到的结果。

伊利诺伊大学香槟分校图书馆万博体育maxbetx

HathiTrust研究中心简介

HathiTrust研究中心的工具和资源的介绍性指南。

术语汇编

  • 算法是可在工作集上运行的可执行程序。您可以自定义每个算法的参数。
  • 一个API或应用程序编程接口,是一组使数据可用于交换的过程。方法可以批量检索HTRC卷HTRC数据API在HTRC数据胶囊环境中。
  • 一个语料库是文本的集合。例如,Hathi Trust在其公共领域语料库中有近400万卷。
  • 工作是你在HTRC中运行算法时提交的。您可以查看已提交的作业的状态,并可以删除作业。
  • Non-consumptive研究包括对一本或多本书的计算分析,而研究人员没有能力重新组合收藏。使用这种分析方法,您可以通过机器处理来检测语料库(例如19世纪文学)中的趋势,而不是阅读一本书或一本书的集合。看到佛朗哥莫雷蒂的图表,地图,树获取更多信息。
  • 结果都是你工作的结果。你可以在HTRC查看或下载结果。
  • 沙盒是开始使用Hathi Trust数据和工具的好地方。它有成千上万的公共域卷作为数据可用。
  • 主题建模是通过确定主题或经常出现在一起的单词组来确定大量文本的主要主题的过程。
  • Worksets是要处理的卷和其他数据的集合。

Baidu