Scrapy Redis实现分布式爬取与缓存管理




import redis
from scrapy.dupefilters import RFPDupeFilter
from scrapy.utils.request import request_fingerprint
 
class RedisDupeFilter(RFPDupeFilter):
    """Redis 中的 URL 去重复过滤器"""
    
    def __init__(self, server, key, debug=False):
        self.server = server
        self.key = key
        self.debug = debug
        self.rfp_count = 0
        self._duplicates = set()
 
    @classmethod
    def from_settings(cls, settings):
        server = redis.Redis(host=settings['REDIS_HOST'], 
                             port=settings['REDIS_PORT'], 
                             db=settings['REDIS_DB'])
        key = 'dupefilter:%s' % settings.get('JOB_NAME', 'default')
        return cls(server, key, settings.getbool('DUPEFILTER_DEBUG'))
 
    def request_seen(self, request):
        fp = request_fingerprint(request)
        if self.server.sismember(self.key, fp):
            self.rfp_count += 1
            if self.debug:
                print("  Fingerprint %s already seen; skipping" % fp)
            return True
        self.server.sadd(self.key, fp)
 
    def close(self, reason):
        self.server.srem(self.key, *list(self._duplicates))
        self.server.save()
 
    def log(self, request, spider):
        msg = "Filtered duplicate request: %(request)s"
        self.logger.debug(msg, {'request': request}, extra={'spider': spider})

这段代码定义了一个名为RedisDupeFilter的类,它继承自Scrapy的RFPDupeFilter。它使用Redis作为去重复存储的后端,而不是使用Scrapy默认的内存去重复过滤系统。这个类提供了from_settings类方法来初始化Redis连接和去重复的key。request_seen方法检查一个给定的请求的指纹是否已经在Redis的集合中。如果已经存在,则认为这个请求已经被处理过,返回True表示请求被过滤掉了。close方法在去重复过滤器不再需要时调用,用来清理Redis中的数据。log方法用于记录被过滤掉的请求。

最后修改于:2024年08月09日 17:09

评论已关闭

推荐阅读

DDPG 模型解析,附Pytorch完整代码
2024年11月24日
DQN 模型解析,附Pytorch完整代码
2024年11月24日
AIGC实战——Transformer模型
2024年12月01日
Socket TCP 和 UDP 编程基础(Python)
2024年11月30日
python , tcp , udp
如何使用 ChatGPT 进行学术润色?你需要这些指令
2024年12月01日
AI
最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)
2024年11月24日
ChatGPT 和 DALL·E 2 配合生成故事绘本
2024年12月01日
omegaconf,一个超强的 Python 库!
2024年11月24日
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
2024年12月01日
[超级详细]如何在深度学习训练模型过程中使用 GPU 加速
2024年11月29日
Python 物理引擎pymunk最完整教程
2024年11月27日
MediaPipe 人体姿态与手指关键点检测教程
2024年11月27日
深入了解 Taipy:Python 打造 Web 应用的全面教程
2024年11月26日
基于Transformer的时间序列预测模型
2024年11月25日
Python在金融大数据分析中的AI应用(股价分析、量化交易)实战
2024年11月25日
AIGC Gradio系列学习教程之Components
2024年12月01日
Python3 `asyncio` — 异步 I/O,事件循环和并发工具
2024年11月30日
llama-factory SFT系列教程:大模型在自定义数据集 LoRA 训练与部署
2024年12月01日
Python 多线程和多进程用法
2024年11月24日
Python socket详解,全网最全教程
2024年11月27日