第 7 章 文本整理和分析
在本章中,我们将介绍:
-
安装 NLTK
-
执行句子拆分
-
执行标记化
-
执行词干提取
-
进行词形还原
-
识别并删除停用词
-
计算单词的频率分布
-
识别并删除罕见词
-
识别并删除短词
-
删除标点符号
-
拼凑 n 元语法
-
从 StackOverflow 抓取职位列表
-
阅读并清理职位列表中的描述从 StackOverflow 职位列表创建词云
挖掘数据通常是工作中最有趣的部分,而文本是最常见的数据源之一。 我们将使用 NLTK 工具包来介绍常见的自然语言处理概念和统计模型。 我们不仅希望找到定量数据,例如我们抓取的数据中的数字,我们还希望能够分析文本信息的各种特征。 这种文本信息分析通常归入自然语言处理 (NLP) 类别。 Python 有一个库 NLTK,它提供了丰富的功能。 我们将研究它的一些功能。