第 7 章文本整理和分析

在本章中，我们将介绍：

安装 NLTK
执行句子拆分
执行标记化
执行词干提取
进行词形还原
识别并删除停用词
计算单词的频率分布
识别并删除罕见词
识别并删除短词
删除标点符号
拼凑 n 元语法
从 StackOverflow 抓取职位列表
阅读并清理职位列表中的描述从 StackOverflow 职位列表创建词云

挖掘数据通常是工作中最有趣的部分，而文本是最常见的数据源之一。我们将使用 NLTK 工具包来介绍常见的自然语言处理概念和统计模型。我们不仅希望找到定量数据，例如我们抓取的数据中的数字，我们还希望能够分析文本信息的各种特征。这种文本信息分析通常归入自然语言处理 (NLP) 类别。 Python 有一个库 NLTK，它提供了丰富的功能。我们将研究它的一些功能。