探寻爬虫世界01：HTML页面结构

作者：System 时间：2024年08月23日分类：所有,爬虫字数：974

这篇文章距离上次修改已过336天，其中的内容可能已经有所变动。




from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
 
class MySpider(BaseSpider):
    name = "example.com"
    allowed_domains = ["example.com"]
    start_urls = [
        "http://www.example.com/some/page.html",
    ]
 
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
 
        # 提取页面中的所有链接
        links = hxs.select('//a/@href').extract()
        for link in links:
            print(link)
 
        # 提取页面中的所有图片链接
        images = hxs.select('//img/@src').extract()
        for image in images:
            print(image)
 
        # 提取页面中的所有标题
        titles = hxs.select('//h1/text()').extract()
        for title in titles:
            print(title)
 
        # 提取页面中的所有段落文本
        paragraphs = hxs.select('//p/text()').extract()
        for paragraph in paragraphs:
            print(paragraph)

这个简单的爬虫示例展示了如何使用Scrapy框架来解析HTML页面，提取页面中的链接、图片、标题和段落文本。这是学习爬虫技术的基础，也是理解网页内容提取的重要概念。

探寻爬虫世界01：HTML页面结构

评论已关闭

推荐阅读