网络爬虫之Scrapy框架

作者：System 时间：2024年08月12日分类：所有,爬虫字数：1103

这篇文章距离上次修改已过508天，其中的内容可能已经有所变动。

Scrapy是一个用于创建Web爬虫的Python库。以下是一个使用Scrapy框架的简单示例：

首先，安装Scrapy：




pip install scrapy

创建一个新的Scrapy项目：




scrapy startproject myspider

进入项目目录，创建一个爬虫：




cd myspider
scrapy genspider example example.com

编辑myspider/spiders/example.py文件以提取所需数据：




import scrapy
 
class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/items']
 
    def parse(self, response):
        for item in response.css('div.item'):
            yield {
                'name': item.css('a.item-name::text').extract_first(),
                'price': item.css('div.item-price::text').extract_first(),
                # 提取其他需要的字段...
            }
 
        next_page_url = response.css('a.next-page::attr(href)').extract_first()
        if next_page_url is not None:
            yield response.follow(next_page_url, self.parse)

运行爬虫：




scrapy crawl example

这个爬虫会抓取example.com/items页面上的所有项目，并提取每个项目的名称和价格。如果有下一页，爬虫会递归地抓取下一页。这只是一个简单的例子，实际的爬虫可能需要根据目标网站的结构进行更复杂的数据提取和处理。

网络爬虫之Scrapy框架

评论已关闭

推荐阅读