python scrapy爬虫

作者：System 时间：2024年08月13日分类：所有,爬虫字数：620

这篇文章距离上次修改已过431天，其中的内容可能已经有所变动。

Scrapy是一个用于创建爬虫的开源和自由的Python框架。下面是一个使用Scrapy框架的简单爬虫示例，用于抓取一个网站上的所有链接。

首先，安装Scrapy：




pip install scrapy

然后，创建一个新的Scrapy项目：




scrapy startproject myspider

接下来，定义你的爬虫：




import scrapy
 
class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']
 
    def parse(self, response):
        for url in response.css('a::attr(href)').getall():
            yield {'url': url}

在这个爬虫中，start_urls 是爬虫开始爬取的URL列表，parse 方法用于处理响应并生成爬取的数据和新的URL。

运行爬虫：




scrapy crawl myspider -o links.csv

这将运行爬虫并将结果保存到 links.csv 文件中。

python scrapy爬虫

评论已关闭

推荐阅读