Scrapy-Redis分布式爬虫

这篇文章距离上次修改已过412天，其中的内容可能已经有所变动。




import scrapy
from scrapy_redis.spiders import RedisSpider
from scrapy_redis.items import RedisItem
 
class MySpider(RedisSpider):
    name = 'my_spider'
    redis_key = 'my_spider:start_urls'
 
    def parse(self, response):
        # 解析响应内容，提取items
        item = RedisItem()
        # 填充item字段
        item['field'] = 'value'
        return item

这个简单的示例展示了如何使用scrapy_redis库创建一个名为my_spider的RedisSpider。这个爬虫从my_spider:start_urls键中读取起始URL，并在解析每个响应时提取items，这些items会自动被序列化并存储到Redis中。注意，这只是一个框架，你需要根据实际情况进行详细的字段填充和数据解析。

Scrapy-Redis分布式爬虫

评论已关闭

推荐阅读