python爬虫从0到1(第十七天)——scrapy中间件

在Python爬虫Scrapy框架中,中间件是一种扩展机制,允许你自定义爬虫的请求和响应处理过程。

以下是一个简单的Scrapy中间件示例,用于限制爬虫的请求发送频率:




import random
from scrapy.downloadermiddlewares.robotstxt import RobotsTxtMiddleware
 
class RandomUserAgentMiddleware(object):
    """
    随机更换请求的User-Agent
    """
    def __init__(self, user_agent='Scrapy'):
        self.user_agent = user_agent
 
    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            user_agent=crawler.settings.get('USER_AGENT')
        )
 
    def process_request(self, request, spider):
        user_agent = random.choice(spider.settings['USER_AGENT_LIST'])
        request.headers.setdefault('User-Agent', user_agent)
 
class ProxyMiddleware(object):
    """
    代理IP中间件
    """
    def process_request(self, request, spider):
        proxy = spider.settings['PROXY']
        request.meta['proxy'] = proxy
 
class CustomDownloaderMiddleware(object):
    """
    自定义下载器中间件
    """
    def process_response(self, request, response, spider):
        # 自定义处理下载器得到的响应
        return response
 
class CustomRobotsMiddleware(RobotsTxtMiddleware):
    """
    自定义的Robots.txt中间件
    """
    def process_request(self, request, spider):
        # 自定义处理Robots.txt的逻辑
        return super(CustomRobotsMiddleware, self).process_request(request, spider)

在这个例子中,我们定义了三个中间件:RandomUserAgentMiddleware用于随机更换请求的User-Agent,ProxyMiddleware用于设置代理,CustomDownloaderMiddleware用于自定义处理响应。同时,我们还创建了一个CustomRobotsMiddleware来自定义处理Robots.txt的逻辑。

要在Scrapy中使用这些中间件,你需要在爬虫的settings.py文件中进行相应的配置。例如:




DOWNLOADER_MIDDLEWARES = {
    'myproject.middlewares.RandomUserAgentMiddleware': 400,
    'myproject.middlewares.ProxyMiddleware': 410,
    'myproject.middlewares.CustomDownloaderMiddleware': 420,
    'myproject.middlewares.CustomRobotsMiddleware': 430,
}
 
USER_AGENT_LIST = [
    'Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)',
    # ... 其他User-Agent字符串
]
 
PROXY = 'http://12.34.56.78:9010'

在这个配置中,每个中间件被赋予了一个唯一的优先级,数字越小表示优先级越高。USER_AGENT_LISTPROXY也需要在settings.py中进行相应的配置。

评论已关闭

推荐阅读

Vue中使用mind-map实现在线思维导图
2024年08月04日
VUE
Web前端最全Vue实现免密登录跳转的方式_vue怎么样不登录返回首页,最强技术实现
2024年08月04日
VUE
vue3 项目搭建教程(基于create-vue,vite,Vite + Vue)
2024年08月04日
VUE
Vue-颜色选择器实现方案——>Vue-Color( 实战*1+ Demo*7)
2024年08月04日
VUE
Vue项目卡顿慢加载?这些优化技巧告诉你!_vue数据多渲染卡顿
2024年08月04日
VUE
vue中的keep-alive详解与应用场景
2024年08月04日
VUE
Vue、React实现excel导出功能(三种实现方式保姆级讲解)
2024年08月04日
vue-office/docx插件实现docx文件预览
2024年08月04日
VUE
java调用js文件的两种方法(支持V8引擎)
2024年08月04日
JavaScript:解决计算精度问题/mathjs/bignumber.js/big.js/decimal.js
2024年08月04日
两周从爬虫小白变大神 _yjs_js_security_passport
2024年08月04日
JS笔记(对象、函数、数组)
2024年08月04日
Markdown.js:强大的纯JavaScript Markdown解析器
2024年08月04日
Vue项目:js模拟点击a标签下载文件并重命名,URL文件地址下载方法、请求接口下载文件方法总结。
2024年08月04日
vue 父组件怎么获取子组件里面的data数据
2024年08月04日
VUE
个人开发实现AI套壳网站快速搭建(Vue+elementUI+SpringBoot)
2024年08月04日
el-table 表格封装并改造实现单元格可编辑
2024年08月04日
none
nodejs环境下创建vue项目、SSH密钥登陆!!!
2024年08月04日
vue+quill+element-ui实现视频、图片上传及缩放保姆级教程,轻松使用富文本
2024年08月04日
【three.js】22. Imported Models导入模型
2024年08月04日