第 7 章 文本整理和分析

在本章中,我们将介绍:

  • 安装 NLTK

  • 执行句子拆分

  • 执行标记化

  • 执行词干提取

  • 进行词形还原

  • 识别并删除停用词

  • 计算单词的频率分布

  • 识别并删除罕见词

  • 识别并删除短词

  • 删除标点符号

  • 拼凑 n 元语法

  • 从 StackOverflow 抓取职位列表

  • 阅读并清理职位列表中的描述从 StackOverflow 职位列表创建词云

挖掘数据通常是工作中最有趣的部分,而文本是最常见的数据源之一。 我们将使用 NLTK 工具包来介绍常见的自然语言处理概念和统计模型。 我们不仅希望找到定量数据,例如我们抓取的数据中的数字,我们还希望能够分析文本信息的各种特征。 这种文本信息分析通常归入自然语言处理 (NLP) 类别。 Python 有一个库 NLTK,它提供了丰富的功能。 我们将研究它的一些功能。