跳转至主要内容
看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器,可能会看到意想不到的结果。

伊利诺伊大学香槟分校图书馆万博体育maxbetx

查找文本数据集

在哪里可以找到用于计算文本分析的数据源
档案照片
学术共享
联系人:
220和306主图书馆

欢迎@ 306

306服务台工作时间:
星期一至星期四:上午10:30至晚上7:30
星期五:上午十点半至下午六点半
星期日:下午二时至六时三十分

220室在主图书馆开放的任何时间都开放使用。

电话:217-244-1331
网站
社会: Twitter页面

关于本指南

本指南详细介绍如何获取用于计算文本分析的文本数据。每个选项卡都尽可能地包含关于不同类型资源的文本数据集合的信息:集合的提供者、集合的范围、可用的数据格式以及如何访问文本数据。

有关文本挖掘方法、工具和示例项目的更多信息,请参见文本挖掘工具与方法指南。计算方法可用于可视化词汇趋势,将短语分类为主题,并查看人与人之间的联系。

如果一个来源说我需要“访问API”,这意味着什么?

应用程序编程接口(API)基本上是一个允许应用程序相互通信的接口。它们可以以多种方式使用,包括从网站下载大量数据而不需要用户输入。通过这种方式,研究人员甚至可以免提下载数字图书馆的全部内容。使用API确实需要一些技术或编程知识。本指南中的一些(但不是全部)资源需要使用API来访问数据。

一个你可以使用的公开可用的web api目录是Todd Motto在GitHub上提供的。它包括允许您收集数据(文本和其他类型的数据)的api,以及允许您做事的api(例如通过机器人向Twitter或其他网站发布消息)。这个目录中的API是按主题区域组织的,它包括关于是否需要API密钥和API文档链接的信息。

如果这些来源都没有我需要的文本怎么办?

不要担心!如果您想要分析的文本无法通过这些来源获得,那么可以使用光学字符识别(OCR)软件将印刷书籍转换为机器可读的纯文本。看到图书馆OCR指南,或访问学术共享资源开始学习。学术共享资源有扫描仪和软件可用于执行OCR,包括ABBYY FineReader,其中最好的可用。

如果您对本指南中未列出的供应商或资源有任何疑问,或需要获取文本的帮助,请联系学术交流与出版系

相关指南

许可

创作共用许可协议

除另有说明外,本指南中的原始内容已获得授权创作共用属性(CC BY) 4.0许可.您可以自由地分享、采用或改编这些材料。我们鼓励广泛采用这些材料用于教学和其他专业发展目的,并邀请您根据自己的需要定制它们。

Baidu