Scrapy与分布式开发：原生scrapy如何接入scrapy-redis，初步入局分布式

这篇文章距离上次修改已过582天，其中的内容可能已经有所变动。

Scrapy-Redis是一个Scrapy分布式爬虫的工具，它提供了一些以Redis为基础的调度器(dupefilter)、序列化(pipeline)和去重(scheduler)机制。

要使用Scrapy-Redis，你需要安装Scrapy-Redis包，然后在你的Scrapy项目中配置相应的Redis设置。

以下是一个基本的配置示例：

安装Scrapy-Redis:




pip install scrapy-redis

在你的Scrapy项目的settings.py文件中，设置以下配置项：




# 启用Redis调度器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
 
# 使用Scrapy-Redis的去重
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
 
# 持久化存储，不清除Redis队列，允许暂停/恢复爬取
SCHEDULER_PERSIST = True
 
# 默认的去重方式（你可以指定其他去重规则）
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
 
# 指定Redis的地址和端口，默认为localhost:6379
# REDIS_HOST = 'localhost'
# REDIS_PORT = 6379
 
# 如果Redis需要密码，使用这个变量
# REDIS_PASSWORD = 'your_redis_password'
 
# 如果你想使用Redis的其他数据库，可以这样设置：
# REDIS_PARAMS = { 'db': 1 }

你的Item Pipeline也应该修改以支持Scrapy-Redis的序列化：




# 使用Scrapy-Redis的Item Pipeline
ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 100
}

最后，你需要指定爬虫的起始URL。由于Scrapy-Redis使用Redis的列表(list)来存储待爬取的请求(request)，你可以通过Redis的客户端将起始URL添加到这个列表中：




redis-cli lpush scrapy_redis:requests your_spider_name:start_urls/*

这样配置之后，Scrapy会使用Scrapy-Redis的调度器来管理待爬取的URL，以及使用Redis来存储去重信息和Item。

注意：这只是一个基本的配置示例，根据你的实际需求，你可能需要调整更多的配置项，例如设置日志等级、指定不同的去重规则、设置Item加密等。

Scrapy与分布式开发：原生scrapy如何接入scrapy-redis，初步入局分布式

评论已关闭

推荐阅读