Python 爬虫—scrapy
Scrapy是一个用于创建爬虫的开源和跨平台的Python框架。下面是一个使用Scrapy框架的简单爬虫示例,用于抓取一个网站上的所有链接。
首先,安装Scrapy:
pip install scrapy
然后,创建一个新的Scrapy项目:
scrapy startproject myspider
接下来,定义你的爬虫:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://example.com']
def parse(self, response):
for url in response.css('a::attr(href)').getall():
yield {'url': url}
# 继续抓取下一页的链接,假设分页按钮是一个类 "next"
next_page = response.css('a.next::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
运行爬虫:
scrapy crawl myspider -o links.csv
评论已关闭