Python高效爬虫——scrapy介绍与使用
warning:
这篇文章距离上次修改已过193天,其中的内容可能已经有所变动。
Scrapy是一个用Python编写的开源爬虫框架,用于抓取网站并提取结构化数据。以下是一个使用Scrapy框架的简单示例:
首先,安装Scrapy:
pip install scrapy
创建一个新的Scrapy项目:
scrapy startproject myspider
进入项目目录,创建一个爬虫:
cd myspider
scrapy genspider example example.com
这将创建一个名为example
的爬虫,用于抓取example.com
。
编辑爬虫文件example.py
,提取所需数据:
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
# 提取数据的示例XPath表达式
for href in response.xpath('//a/@href'):
yield {'href': href.get()}
运行爬虫:
scrapy crawl example
这个简单的Scrapy爬虫会抓取example.com
上的所有超链接,并输出包含每个链接的字典。这只是Scrapy功能的一个简单展示,实际应用中可以提取更多数据,处理更复杂的逻辑。
评论已关闭