Python爬虫之Scrapy框架系列(12)——实战ZH小说的爬取来深入学习CrawlSpider
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class ZhihuUserSpider(CrawlSpider):
name = 'zh_user'
allowed_domains = ['www.zhihu.com']
start_urls = ['https://www.zhihu.com/people/excited-vczh']
rules = (
Rule(LinkExtractor(allow=r'/people/[^\s]+'), callback='parse_item', follow=True),
)
def parse_item(self, response):
# 这里提供了一个简单的例子来说明如何解析用户主页
# 实际应用中,你可能需要解析更多的信息,比如关注者数量、回答数量等
name = response.css('h1.zm-edit-header-content::text').extract_first()
follower_num = response.css('a[class="zm-edit-follower-num"]::text').extract_first()
print(f"用户名: {name}, 关注者数量: {follower_num}")
这个例子展示了如何使用CrawlSpider来爬取一个用户的主页,并提取用户名和关注者数量。这个例子简单明了,便于理解和实践。
评论已关闭