第 1 章 Scraping入门

在本章中,我们将讨论以下主题:

  • 设置 Python 开发环境

  • 使用 Requests 和 Beautiful Soup 抓取 Python.org

  • 使用 urllib3 和 Beautiful Soup 抓取 Python.org

  • 使用 Scrapy 抓取 Python.org

  • 使用 Selenium 和 PhantomJs 抓取 Python.org

网络上可用的数据量无论是数量还是形式都在持续增长。企业需要这些数据来做出决策,特别是随着机器学习工具的爆炸性增长,需要大量数据进行训练。其中大部分数据可通过应用程序编程接口获得,但同时许多有价值的数据仍然只能通过网络抓取过程获得。

本章将重点介绍设置抓取环境以及使用多种行业工具执行基本数据请求的几个基础知识。Python 是本书以及许多构建执行抓取系统的人所选择的编程语言。它是一种易于使用的编程语言,具有非常丰富的工具生态系统,可用于许多任务。如果你用其他语言编程,你会发现很容易上手,而且你可能永远不会回头!