喜欢Scrapy的更多理由

Scrapy 已经拥有超过 5 年的历史了,成熟而又稳定。除了上一节中提到的性能优势外,还有下面这些能够让你爱上 Scrapy 的理由。

  • Scrapy 能够识别残缺的 HTML

    你可以在 Scrapy 中直接使用 Beautiful Soup 或 lxml,不过 Scrapy 还提供了一种在 lxml 之上更高级的 XPath(主要)接口——selectors。它能够更高效地处理残缺的 HTML 代码和混乱的编码。

  • 社区

    Scrapy 拥有一个充满活力的社区。只需要看看 https://groups.google.com/forum/#!forum/scrapy-users 上的邮件列表,以及 Stack Overflow 网站( http://stackoverflow.com/questions/tagged/scrapy )中的上千个问题就可以知道了。大部分问题都能够在几分钟内得到回应。更多社区资源可以从 http://scrapy.org/community/ 中获取到。

  • 社区维护的组织良好的代码

    Scrapy 要求以一种标准方式组织你的代码。你只需编写被称为爬虫和管道的少量 Python 模块,并且还会自动从引擎自身获取到未来的任何改进。如果你在网上搜索,可以发现有相当多专业人士拥有 Scrapy 经验。也就是说,你可以很容易地找到人来维护或扩展你的代码。无论是谁加入你的团队,都不需要漫长的学习曲线,来理解你的自定义爬虫中的特别之处。

  • 越来越多的高质量功能

    如果你快速浏览发布日志( http://doc.scrapy.org/en/latest/news.html ),就会注意到无论是在功能上,还是在稳定性/bug 修复上,Scrapy 都在不断地成长。