跳转至主要内容
看起来你使用的是Internet Explorer 11或更老版本。该网站在现代浏览器(如最新版本的Chrome、Firefox、Safari和Edge)下运行最好。如果继续使用此浏览器,可能会看到意想不到的结果。

伊利诺伊大学香槟分校图书馆万博体育maxbetx

文本挖掘工具与方法

本指南包含了研究文本挖掘的资源

学术交流与出版

学分

这本指南是由文学和语言图书馆研究生助理Erica Parker创建的。

本指南是2015年秋季由维多利亚·亨利更新的,学术共享的研究生助理。

本指南由数字人文学科研究生助理Kayla Abner在2019年春季更新。

文本挖掘概述

什么是文本挖掘?

文本挖掘是一种研究实践,涉及使用计算机在大量非结构化文本中发现信息。

Unstructu红色文本是没有按照HTML或XML等编码结构格式化的数据。

用于文本挖掘的非结构化数据示例包括期刊和新闻文章,博客文章和电子邮件

研究人员使用文本挖掘任务,例如:

  • 情绪分析
  • 实体提取
  • 文档摘要

通过这些方法,研究人员可以对大型文本语料库的内容进行联系并得出结论。

右边的图像是文本挖掘的一个例子。这个饼状图代表了詹姆斯时代戏剧中人物所说的总字数复仇者的悲剧

图片来源:Pgogy,可通过创作共用许可证获得。

文本挖掘目标

为什么要进行文本挖掘?

文本挖掘帮助研究人员发现大量文本材料中的模式和联系。

根据研究人员马蒂赫斯特“在文本挖掘中,目标是发现迄今为止未知的信息,没有人知道的东西,所以还没有写下来。”文本挖掘使研究人员能够从大量材料中得出结论,否则他们无法阅读、综合并将其纳入他们的学术研究中。

从生物科学到人文科学等领域的研究人员已经开始使用文本挖掘来检测模式和发现未知信息。

问题吗?问我们!

如果你对文本挖掘有疑问,请访问学术共享资源(sc@library.illinois.edu)。

学术共享
220主图书馆
217-244-1331

许可

创作共用许可协议

除另有说明外,本指南中的原始内容已获得授权创作共用属性(CC BY) 4.0许可.您可以自由地分享、采用或改编这些材料。我们鼓励广泛采用这些材料用于教学和其他专业发展目的,并邀请您根据自己的需要定制它们。

Baidu