scrapy暂停与重启/数据收集/去重原理/爬虫中间件等

warning: 这篇文章距离上次修改已过190天,其中的内容可能已经有所变动。

Scrapy 提供了多种方式来控制爬虫的暂停和重启,包括信号、设置标志位,或者直接使用命令行工具。

  1. 使用命令行暂停和重启:



# 启动爬虫
scrapy crawl myspider
 
# 在另外一个终端,发送信号暂停爬虫
kill -SIGSTOP $(pgrep -f 'scrapy crawl myspider')
 
# 暂停后,重新启动爬虫
kill -SIGCONT $(pgrep -f 'scrapy crawl myspider')
  1. 使用Scrapy内置信号控制:



from twisted.internet import reactor
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from myspider.spiders.myspider import MySpider
 
runner = CrawlerRunner(get_project_settings())
 
def start_crawler():
    return runner.crawl(MySpider)
 
def stop_crawler():
    reactor.stop()
 
# 启动爬虫
d = start_crawler()
d.addBoth(lambda _: stop_crawler())
 
# 运行Twisted reactor
reactor.run()

数据收集、去重和爬虫中间件是Scrapy的核心组件,用于处理爬取的数据,确保爬虫行为的灵活性和效率。

  1. 数据收集:



# 在爬虫中
def parse(self, response):
    item = {}
    item['name'] = response.css('div.name::text').extract_first()
    item['link'] = response.urljoin(response.css('div.link::attr(href)').extract_first())
    yield item
  1. 去重:Scrapy内置了去重系统,通过指定item的key作为去重的依据。



class MySpider(scrapy.Spider):
    # ...
    def start_requests(self):
        urls = ['http://example.com/1', 'http://example.com/2']
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse_item, dont_filter=False)
  1. 爬虫中间件:



# 在middlewares.py中
class MyCustomMiddleware(object):
    def process_request(self, request):
        # 可以在这里添加自定义逻辑,比如代理切换
        pass
 
    def process_response(self, request, response):
        # 可以在这里处理响应,或者重新发起请求
        pass

在settings.py中启用中间件:




DOWNLOADER_MIDDLEWARES = {
    'myspider.middlewares.MyCustomMiddleware': 543,
}

这些是Scrapy中控制爬虫行为和实现数据收集、去重和爬虫中间件的基本方法。

最后修改于:2024年08月16日 10:43

评论已关闭

推荐阅读

DDPG 模型解析,附Pytorch完整代码
2024年11月24日
DQN 模型解析,附Pytorch完整代码
2024年11月24日
AIGC实战——Transformer模型
2024年12月01日
Socket TCP 和 UDP 编程基础(Python)
2024年11月30日
python , tcp , udp
如何使用 ChatGPT 进行学术润色?你需要这些指令
2024年12月01日
AI
最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)
2024年11月24日
ChatGPT 和 DALL·E 2 配合生成故事绘本
2024年12月01日
omegaconf,一个超强的 Python 库!
2024年11月24日
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
2024年12月01日
[超级详细]如何在深度学习训练模型过程中使用 GPU 加速
2024年11月29日
Python 物理引擎pymunk最完整教程
2024年11月27日
MediaPipe 人体姿态与手指关键点检测教程
2024年11月27日
深入了解 Taipy:Python 打造 Web 应用的全面教程
2024年11月26日
基于Transformer的时间序列预测模型
2024年11月25日
Python在金融大数据分析中的AI应用(股价分析、量化交易)实战
2024年11月25日
AIGC Gradio系列学习教程之Components
2024年12月01日
Python3 `asyncio` — 异步 I/O,事件循环和并发工具
2024年11月30日
llama-factory SFT系列教程:大模型在自定义数据集 LoRA 训练与部署
2024年12月01日
Python 多线程和多进程用法
2024年11月24日
Python socket详解,全网最全教程
2024年11月27日