Scrapy爬虫框架案例学习之四(使用中间件代理IP、更换请求头、添加cookie爬取豆瓣电影排行榜页面信息写进Excel文件)
import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban'
allowed_domains = ['douban.com']
start_urls = ['https://www.douban.com/']
# 使用自定义下载中间件来设置代理IP和更换请求头
custom_settings = {
'DOWNLOADER_MIDDLEWARES': {
'mySpider.middlewares.ProxyMiddleware': 750,
'mySpider.middlewares.RandomUserAgentMiddleware': 400,
}
}
def parse(self, response):
# 爬取数据的逻辑
pass
在这个例子中,我们定义了一个名为DoubanSpider
的爬虫,它使用了两个自定义的下载中间件:ProxyMiddleware
和RandomUserAgentMiddleware
。这两个中间件分别用于设置代理IP和随机更换请求头。这样,爬虫在运行时会通过这些自定义的中间件来实现代理和请求头的更换,从而更好地模拟真实用户的访问。
评论已关闭