import scrapy
from scrapy.selector import Selector
from selenium import webdriver
from selenium.webdriver.common.by import By
from scrapy_selenium import SeleniumMiddleware
from scrapy.http import HtmlResponse
class MySpider(scrapy.Spider):
name = 'myspider'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def start_requests(self):
for url in self.start_urls:
yield SeleniumRequest(url=url, callback=self.parse)
def parse(self, response):
# 使用SeleniumResponse的selector选择器选择元素
sel = Selector(type="xpath", root=response)
# 提取数据的代码...
# 注意:下面的代码是假设的,实际的SeleniumMiddleware会有Scrapy为我们提供。
class SeleniumMiddleware:
def __init__(self):
self.driver = webdriver.Chrome()
@classmethod
def from_crawler(cls, crawler):
middleware = cls()
crawler.signals.connect(middleware.spider_opened, signals.spider_opened)
return middleware
def spider_opened(self, spider):
self.driver.get(spider.start_urls[0]) # 假设只有一个start_url
# 这里可以添加更多的初始化代码,比如等待页面加载完成
def process_request(self, request):
# 使用Selenium的driver来处理请求
self.driver.find_element(By.ID, "some_id").click()
# 这里可以添加更多的处理代码,比如模拟用户输入等
page_source = self.driver.page_source
return HtmlResponse(url=self.driver.current_url, body=page_source, request=request, encoding='utf-8')
def process_response(self, request, response):
return response
def process_exception(self, request, exception):
# 处理异常
pass
这个示例代码展示了如何使用SeleniumMiddleware来处理Scrapy爬虫中的请求。在process_request
方法中,我们使用Selenium的WebDriver来处理请求,这样就可以模拟用户的行为(比如点击按钮、输入文本等)。然后,我们使用返回的页面源码创建一个HtmlResponse
对象,并将其返回给Scrapy爬虫,以便进一步解析和提取数据。