探寻爬虫世界01:HTML页面结构
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class MySpider(BaseSpider):
name = "example.com"
allowed_domains = ["example.com"]
start_urls = [
"http://www.example.com/some/page.html",
]
def parse(self, response):
hxs = HtmlXPathSelector(response)
# 提取页面中的所有链接
links = hxs.select('//a/@href').extract()
for link in links:
print(link)
# 提取页面中的所有图片链接
images = hxs.select('//img/@src').extract()
for image in images:
print(image)
# 提取页面中的所有标题
titles = hxs.select('//h1/text()').extract()
for title in titles:
print(title)
# 提取页面中的所有段落文本
paragraphs = hxs.select('//p/text()').extract()
for paragraph in paragraphs:
print(paragraph)
这个简单的爬虫示例展示了如何使用Scrapy框架来解析HTML页面,提取页面中的链接、图片、标题和段落文本。这是学习爬虫技术的基础,也是理解网页内容提取的重要概念。
评论已关闭