本指南详细介绍如何获取用于计算文本分析的文本数据。每个选项卡都尽可能地包含关于不同类型资源的文本数据集合的信息:集合的提供者、集合的范围、可用的数据格式以及如何访问文本数据。
有关文本挖掘方法、工具和示例项目的更多信息,请参见文本挖掘工具与方法指南。计算方法可用于可视化词汇趋势,将短语分类为主题,并查看人与人之间的联系。
应用程序编程接口(API)基本上是一个允许应用程序相互通信的接口。它们可以以多种方式使用,包括从网站下载大量数据而不需要用户输入。通过这种方式,研究人员甚至可以免提下载数字图书馆的全部内容。使用API确实需要一些技术或编程知识。本指南中的一些(但不是全部)资源需要使用API来访问数据。
一个你可以使用的公开可用的web api目录是Todd Motto在GitHub上提供的。它包括允许您收集数据(文本和其他类型的数据)的api,以及允许您做事的api(例如通过机器人向Twitter或其他网站发布消息)。这个目录中的API是按主题区域组织的,它包括关于是否需要API密钥和API文档链接的信息。
除另有说明外,本指南中的原始内容已获得授权创作共用属性(CC BY) 4.0许可.您可以自由地分享、采用或改编这些材料。我们鼓励广泛采用这些材料用于教学和其他专业发展目的,并邀请您根据自己的需要定制它们。