爬虫学习:XPath提取网页数据
from lxml import etree
# 示例HTML字符串
html = """
<!DOCTYPE html>
<html>
<head>
<title>Example Page</title>
</head>
<body>
<div id="container">
<ul class="list">
<li class="item">Item 1</li>
<li class="item">Item 2</li>
<li class="item">Item 3</li>
</ul>
</div>
</body>
</html>
"""
# 解析HTML字符串
tree = etree.HTML(html)
# 使用XPath提取所有列表项的文本
items = tree.xpath('//ul[@class="list"]/li[@class="item"]/text()')
# 打印结果
for item in items:
print(item)
这段代码首先导入了lxml库的etree模块,然后定义了一个包含HTML内容的字符串。接着使用etree.HTML方法解析这个字符串,并使用XPath表达式提取出所有class为"item"的<li>
标签中的文本。最后,遍历并打印了提取出的数据。这个例子展示了如何使用XPath来定位和提取HTML中的数据,是学习爬虫技术的一个基本入门示例。
评论已关闭