【Python】Scrapy 爬虫(简单了解)
Scrapy是一个用于创建爬虫的开源和自由的Python框架。它简单而强大,可以用于抓取网站并提取结构化数据。
以下是一个简单的Scrapy爬虫示例,用于抓取一个网站上的链接和标题。
首先,创建一个Scrapy项目:
scrapy startproject myspider
然后,进入项目目录,创建一个爬虫:
cd myspider
scrapy genspider basic_spider example.com
接下来,编辑爬虫文件 basic_spider.py
以提取链接和标题:
import scrapy
class BasicSpider(scrapy.Spider):
name = 'basic_spider'
allowed_domains = ['example.com']
start_urls = ['http://example.com']
def parse(self, response):
for href in response.css('a::attr(href)').getall():
yield {'link': href}
for title in response.css('a::attr(title)').getall():
yield {'title': title}
最后,运行爬虫:
scrapy crawl basic_spider -o items.json
这个爬虫会抓取 example.com
上的所有链接和带有标题的链接,并将结果保存到 items.json
文件中。这只是Scrapy的一个简单示例,实际应用中可能需要定义更复杂的解析规则和持久化策略。
评论已关闭