scrapy写爬虫
为了创建一个Scrapy爬虫,您需要遵循以下步骤:
- 使用
scrapy startproject
命令创建一个新的Scrapy项目。 - 使用
scrapy genspider
命令创建一个新的爬虫。 - 定义爬虫的行为,通常是修改
items.py
、middlewares.py
、pipelines.py
和爬虫文件本身。 - 运行爬虫。
以下是一个简单的例子:
# 创建一个新的Scrapy项目
scrapy startproject myproject
# 进入项目目录
cd myproject
# 创建一个新的爬虫
scrapy genspider myspider example.com
接下来,您需要编辑myspider.py
文件来定义爬虫的行为。例如:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
# 提取信息的逻辑
for title in response.css('.product_title'):
yield {
'title': title.css('a::attr(title)').extract_first(),
'price': title.css('::attr(data-price)').extract_first(),
'url': title.css('a::attr(href)').extract_first(),
}
# 跟踪下一页的链接
next_page_url = response.css('a.next_page::attr(href)').extract_first()
if next_page_url is not None:
yield response.follow(next_page_url, self.parse)
最后,运行爬虫:
scrapy crawl myspider
这个例子中的爬虫会抓取example.com
的产品信息,包括标题、价格和URL,并且会跟踪下一页的链接。您需要根据实际的网站结构来修改CSS选择器和提取的数据。
评论已关闭