python scrapy爬虫
Scrapy是一个用于创建爬虫的开源和自由的Python框架。下面是一个使用Scrapy框架的简单爬虫示例,用于抓取一个网站上的所有链接。
首先,安装Scrapy:
pip install scrapy
然后,创建一个新的Scrapy项目:
scrapy startproject myspider
接下来,定义你的爬虫:
import scrapy
class MySpider(scrapy.Spider):
name = 'myspider'
start_urls = ['http://example.com']
def parse(self, response):
for url in response.css('a::attr(href)').getall():
yield {'url': url}
在这个爬虫中,start_urls
是爬虫开始爬取的URL列表,parse
方法用于处理响应并生成爬取的数据和新的URL。
运行爬虫:
scrapy crawl myspider -o links.csv
这将运行爬虫并将结果保存到 links.csv
文件中。
评论已关闭