精通Python爬虫框架Scrapy-宝阳悦读网

精通Python爬虫框架Scrapy

作者：（美）迪米特里奥斯考奇斯-劳卡斯

格式：

mobi/epub/pdf/awz3

浏览量：

459次

扫码关注公众号

温馨提示：书籍来自网络收集，版权归原作者所有，仅做学习试读,下载后请24小时内删除,侵权删(联系:1401211620@qq.com)

所属分类:

计算机网络 >> 软硬件开发

点击下载

收藏该图书

编辑推荐:

Scrapy是一个源的Python爬虫框架，可以用来轻松提取从页面数据。Scrapy带有丰富的特性，可通过简单的编码或配置来访问，从而可以节省发人员数周的发时间，并高效地提取所需数据。Scrapy有一个高度活跃且迅速增长的社区，而且已经成为黑客、创业者和Web爬取专家的首选框架。本书讲解了Scrapy的基础知识，讨论了如何从任意源提取数据，如何清理数据，以及如何使用Python和第三方API行处理，以满足自身需求。本书还讲解了如何将爬取的数据高效地馈数据库、搜索引擎和流数据处理系统（比如Apache Spark）。在学习完本书后，你将对数据爬取胸有成竹，并将数据应用在自己的应用程序中。本书内容：使用HTML和Xpath提取所需的数据；使用Python编写Scrapy爬虫，并在网络上行爬取操作；将数据推送到任意数据库、搜搜引擎或分析系统的方法；配置爬虫，使其下载文件和图形，以及使用代理；创建用来限流数据的高效管道；使用Twitsted实践驱动的API并发处理数百个Item；让爬虫更快速，让内存使用率更高，以及对Scrapy性能行调优的技巧；使用Scrapyd和Scrapinghub执行大规模分布式爬取操作的方法。

内容简介:

Scrapy是使用Python发的一个快速、高层次的屏幕抓取和Web抓取框架，用于抓Web站并从页面中提取结构化的数据。《精通Python爬虫框架Scrapy》以Scrapy 1.0版本为基础，讲解了Scrapy的基础知识，以及如何使用Python和三方API提取、整理数据，以满足自己的需求。本书共11章，其内容涵盖了Scrapy基础知识，理解HTML和XPath，安装Scrapy并爬取一个网站，使用爬虫填充数据库并输出到移动应用中，爬虫的强大功能，将爬虫部署到Scrapinghub云服务器，Scrapy的配置与管理，Scrapy编程，管道秘诀，理解Scrapy性能，使用Scrapyd与实时分析行分布式爬取。本书附录还提供了各种软件的安装与故障排除等内容。本书适合软件发人员、数据科学家，以及对自然语言处理和机器学习感兴趣的人阅读。

作者简介:

Dimitrios Kouzis-Loukas作为一位软件发人员，已经拥有超过15年的经验。同时，他还使用自己掌握的知识和技能，向广大读者讲授如何编写软件。他学习并掌握了多门学科，包括数学、物理学以及微电子学。他对这些学科的透彻理解，提高了自身的标准，而不只是“实用的解决方案”。他知道真正的解决方案应当是像物理学规律一样确定，像ECC内存一样健壮，像数学一样通用。 Dimitrios目前正在使用新的数据中心技术发低延迟、高可用的分布式系统。他是语言无关论者，不过对Python、C 和Java略有偏好。他对源软硬件有着坚定的信念，他希望他的贡献能够造福于各个社区和全人类。关于译者李斌，毕业于北京科技大学计算机科学与技术专业，获得硕士学位。曾任职于*，当前供职于凡普金科，负责应用安全工作。热爱Python编程和Web安全，希望以更加智能和自动化的方式提升网络安全。