什么是文本挖掘?
文本挖掘是一种研究实践,涉及使用计算机在大量非结构化文本中发现信息。
Unstructu红色文本是没有按照HTML或XML等编码结构格式化的数据。
用于文本挖掘的非结构化数据示例包括期刊和新闻文章,博客文章和电子邮件.
研究人员使用文本挖掘任务,例如:
通过这些方法,研究人员可以对大型文本语料库的内容进行联系并得出结论。
右边的图像是文本挖掘的一个例子。这个饼状图代表了詹姆斯时代戏剧中人物所说的总字数复仇者的悲剧.
图片来源:Pgogy,可通过创作共用许可证获得。
为什么要进行文本挖掘?
文本挖掘帮助研究人员发现大量文本材料中的模式和联系。
根据研究人员马蒂赫斯特“在文本挖掘中,目标是发现迄今为止未知的信息,没有人知道的东西,所以还没有写下来。”文本挖掘使研究人员能够从大量材料中得出结论,否则他们无法阅读、综合并将其纳入他们的学术研究中。
从生物科学到人文科学等领域的研究人员已经开始使用文本挖掘来检测模式和发现未知信息。
如果你对文本挖掘有疑问,请访问学术共享资源(sc@library.illinois.edu)。
学术共享
220主图书馆
217-244-1331
除另有说明外,本指南中的原始内容已获得授权创作共用属性(CC BY) 4.0许可.您可以自由地分享、采用或改编这些材料。我们鼓励广泛采用这些材料用于教学和其他专业发展目的,并邀请您根据自己的需要定制它们。