【Python】Scrapy 爬虫（简单了解）

作者：System 时间：2024年08月08日分类：所有,爬虫字数：871

这篇文章距离上次修改已过722天，其中的内容可能已经有所变动。

Scrapy是一个用于创建爬虫的开源和自由的Python框架。它简单而强大，可以用于抓取网站并提取结构化数据。

以下是一个简单的Scrapy爬虫示例，用于抓取一个网站上的链接和标题。

首先，创建一个Scrapy项目：




scrapy startproject myspider

然后，进入项目目录，创建一个爬虫：




cd myspider
scrapy genspider basic_spider example.com

接下来，编辑爬虫文件 basic_spider.py 以提取链接和标题：




import scrapy
 
class BasicSpider(scrapy.Spider):
    name = 'basic_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com']
 
    def parse(self, response):
        for href in response.css('a::attr(href)').getall():
            yield {'link': href}
 
        for title in response.css('a::attr(title)').getall():
            yield {'title': title}

最后，运行爬虫：




scrapy crawl basic_spider -o items.json

这个爬虫会抓取 example.com 上的所有链接和带有标题的链接，并将结果保存到 items.json 文件中。这只是Scrapy的一个简单示例，实际应用中可能需要定义更复杂的解析规则和持久化策略。

【Python】Scrapy 爬虫（简单了解）

评论已关闭

推荐阅读