Scrapy爬虫框架案例学习之四（使用中间件代理IP、更换请求头、添加cookie爬取豆瓣电影排行榜页面信息写进Excel文件）

作者：System 时间：2024年08月23日分类：所有,中间件字数：654

这篇文章距离上次修改已过690天，其中的内容可能已经有所变动。




import scrapy
 
class DoubanSpider(scrapy.Spider):
    name = 'douban'
    allowed_domains = ['douban.com']
    start_urls = ['https://www.douban.com/']
 
    # 使用自定义下载中间件来设置代理IP和更换请求头
    custom_settings = {
        'DOWNLOADER_MIDDLEWARES': {
            'mySpider.middlewares.ProxyMiddleware': 750,
            'mySpider.middlewares.RandomUserAgentMiddleware': 400,
        }
    }
 
    def parse(self, response):
        # 爬取数据的逻辑
        pass

在这个例子中，我们定义了一个名为DoubanSpider的爬虫，它使用了两个自定义的下载中间件：ProxyMiddleware和RandomUserAgentMiddleware。这两个中间件分别用于设置代理IP和随机更换请求头。这样，爬虫在运行时会通过这些自定义的中间件来实现代理和请求头的更换，从而更好地模拟真实用户的访问。

Scrapy爬虫框架案例学习之四（使用中间件代理IP、更换请求头、添加cookie爬取豆瓣电影排行榜页面信息写进Excel文件）

评论已关闭

推荐阅读