『scrapy爬虫』03. 爬取多个页面(详细注释步骤)
warning:
这篇文章距离上次修改已过238天,其中的内容可能已经有所变动。
import scrapy
class QuotesSpider(scrapy.Spider):
name = 'quotes'
start_urls = [
'http://quotes.toscrape.com/page/1/',
'http://quotes.toscrape.com/page/2/',
]
def parse(self, response):
# 提取每一页的所有引用信息
quotes = response.css('div.quote')
for quote in quotes:
yield {
'author': quote.css('small.author::text').extract_first(),
'text': quote.css('span.text::text').extract_first(),
}
# 提取并跟踪下一页的链接
next_page_url = response.css('li a.next::attr(href)').extract_first()
if next_page_url:
next_page_url = response.urljoin(next_page_url)
yield scrapy.Request(next_page_url, callback=self.parse)
这段代码定义了一个名为quotes
的爬虫,它将从两个指定的URL(每个页面的引用页)开始爬取数据。在parse
方法中,它提取了每个页面上的所有引用,并且如果当前页之后有下一页,它会提取下一页的URL并跟踪进入下一轮的爬取。这个例子展示了如何使用Scrapy进行简单的多页面数据爬取。
评论已关闭