爬虫学习：XPath提取网页数据

作者：System 时间：2024年08月23日分类：所有,爬虫字数：723

这篇文章距离上次修改已过683天，其中的内容可能已经有所变动。




from lxml import etree
 
# 示例HTML字符串
html = """
<!DOCTYPE html>
<html>
<head>
    <title>Example Page</title>
</head>
<body>
    <div id="container">
        <ul class="list">
            <li class="item">Item 1</li>
            <li class="item">Item 2</li>
            <li class="item">Item 3</li>
        </ul>
    </div>
</body>
</html>
"""
 
# 解析HTML字符串
tree = etree.HTML(html)
 
# 使用XPath提取所有列表项的文本
items = tree.xpath('//ul[@class="list"]/li[@class="item"]/text()')
 
# 打印结果
for item in items:
    print(item)

这段代码首先导入了lxml库的etree模块，然后定义了一个包含HTML内容的字符串。接着使用etree.HTML方法解析这个字符串，并使用XPath表达式提取出所有class为"item"的<li>标签中的文本。最后，遍历并打印了提取出的数据。这个例子展示了如何使用XPath来定位和提取HTML中的数据，是学习爬虫技术的一个基本入门示例。

爬虫学习：XPath提取网页数据

评论已关闭

推荐阅读