Python高效爬虫——scrapy介绍与使用

作者：System 时间：2024年08月13日分类：所有,爬虫字数：795

这篇文章距离上次修改已过690天，其中的内容可能已经有所变动。

Scrapy是一个用Python编写的开源爬虫框架，用于抓取网站并提取结构化数据。以下是一个使用Scrapy框架的简单示例：

首先，安装Scrapy：




pip install scrapy

创建一个新的Scrapy项目：




scrapy startproject myspider

进入项目目录，创建一个爬虫：




cd myspider
scrapy genspider example example.com

这将创建一个名为example的爬虫，用于抓取example.com。

编辑爬虫文件example.py，提取所需数据：




import scrapy
 
class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']
 
    def parse(self, response):
        # 提取数据的示例XPath表达式
        for href in response.xpath('//a/@href'):
            yield {'href': href.get()}

运行爬虫：




scrapy crawl example

这个简单的Scrapy爬虫会抓取example.com上的所有超链接，并输出包含每个链接的字典。这只是Scrapy功能的一个简单展示，实际应用中可以提取更多数据，处理更复杂的逻辑。

Python高效爬虫——scrapy介绍与使用

评论已关闭

推荐阅读