爬虫-Scrapy框架(vscode)
Scrapy是一个用于创建爬虫的开源和跨平台的Python框架。以下是一个简单的Scrapy项目创建和运行的例子:
- 安装Scrapy:
pip install scrapy
- 创建一个新的Scrapy项目:
scrapy startproject myspider
- 进入项目目录:
cd myspider
- 创建一个新的爬虫Spider:
scrapy genspider example example.com
- 编辑
myspider/spiders/example.py
文件以提取所需数据。例如:
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
allowed_domains = ['example.com']
start_urls = ['http://example.com/']
def parse(self, response):
for title in response.css('.product_name::text').getall():
yield {'title': title}
next_page_url = response.css('li.next a::attr(href)').get()
if next_page_url is not None:
next_page_url = response.urljoin(next_page_url)
yield scrapy.Request(next_page_url, callback=self.parse)
- 运行爬虫:
scrapy crawl example
这个例子创建了一个名为example
的爬虫,它会抓取example.com
上产品的标题,并且如果有下一页,会递归地抓取下一页。
注意:这只是一个简单的例子,实际的爬虫会根据目标网站的结构和需求有所不同。
评论已关闭