以下是一些基于Python的高质量爬虫开源项目,它们提供了一个很好的学习和工作的资源。
Scrapy:Scrapy是一个为了爬取网站数据,提取结构化数据而编写的应用框架。 它使用Twisted异步网络库来处理网络通信。
pyspider:pyspider是一个用python编写的爬虫系统,它专注于模块化和易用性,用于快速地编写爬虫脚本用于抓取网页并将抓取的内容用php脚本进行处理。
Crawley:Crawley是一个分布式爬虫框架,以Python编写,它提供了一个易于使用的API来创建爬虫。
Portia:Portia是一个开源可视化爬虫,它可以用于创建并记录你想要爬取的网站的结构,然后Portia会生成一个爬虫,并用于自动地抓取相关的数据。
Cola:Cola是一个分布式的爬虫和网页抓取工具,用于抓取网站、API等,并可以将抓取的内容导入到 MongoDB 等数据库中。
Gne:Gne是一个用于网络爬虫的Python库,它提供了一个简单而强大的API,用于下载网络资源。
Feapder:Feapder是一个使用Python开发的轻量级爬虫框架,它可以进行数据爬取、数据清洗、数据保存等工作。
SpiderKeeper:SpiderKeeper是一个用于管理和运行爬虫的平台,它提供了一个用户友好的界面,可以用于监控和控制爬虫的运行。
Dora the Robot:Dora是一个用于Python的爬虫和自动化工具,它提供了一个简单的API,用于创建和执行爬虫。
PacketStream:PacketStream是一个用于网络爬虫和数据挖掘的Python库,它提供了一个简单的API,用于下载网络资源,并对其进行处理。
这些项目都是开源的,你可以在GitHub上找到它们,并查看如何安装和使用。