网络爬虫之Scrapy框架
Scrapy是一个用于创建Web爬虫的Python库。以下是一个使用Scrapy框架的简单示例:
首先,安装Scrapy:
pip install scrapy
创建一个新的Scrapy项目:
scrapy startproject myspider
进入项目目录,创建一个爬虫:
cd myspider
scrapy genspider example example.com
编辑myspider/spiders/example.py
文件以提取所需数据:
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/items']
def parse(self, response):
for item in response.css('div.item'):
yield {
'name': item.css('a.item-name::text').extract_first(),
'price': item.css('div.item-price::text').extract_first(),
# 提取其他需要的字段...
}
next_page_url = response.css('a.next-page::attr(href)').extract_first()
if next_page_url is not None:
yield response.follow(next_page_url, self.parse)
运行爬虫:
scrapy crawl example
这个爬虫会抓取example.com/items
页面上的所有项目,并提取每个项目的名称和价格。如果有下一页,爬虫会递归地抓取下一页。这只是一个简单的例子,实际的爬虫可能需要根据目标网站的结构进行更复杂的数据提取和处理。
评论已关闭