第 3 章 处理数据

在本章中,我们将介绍:

  • 处理 CSV 和 JSON 数据

  • 使用 AWS S3 存储数据

  • 使用 MySQL 存储数据

  • 使用 PostgreSQL 存储数据

  • 使用 Elasticsearch 存储商店数据

  • 如何使用 AWS SQS 构建强大的 ETL 管道

在本章中,我们将介绍 JSON、CSV 和 XML 格式数据的使用。 这将包括解析这些数据并将其转换为其他格式的方法,包括将该数据存储在关系数据库、Elasticsearch 等搜索引擎以及包括 AWS S3 在内的云存储中。 我们还将讨论通过使用包括 AWS Simple Queue Service (SQS) 在内的消息系统创建分布式和大规模抓取任务。 目标是提供对您可能检索和需要解析的各种形式的数据的理解,以及您可以存储已抓取数据的各种后端的说明。 最后,我们首次介绍了 Amazon Web Service (AWS) 产品。 在本书的最后,我们将深入了解 AWS,这里会进行一个温和的介绍。