Python lxml库：强大的XML和HTML处理工具

作者：System 时间：2024年08月20日分类：所有,html 字数：581

这篇文章距离上次修改已过691天，其中的内容可能已经有所变动。

lxml是一个Python库，用于处理XML和HTML。它提供了一个强大且灵活的API，可以用来解析、修改以及创建XML和HTML数据。

以下是一个使用lxml库解析HTML并提取链接的简单示例：




from lxml import html
import requests
 
# 获取HTML内容
url = 'https://www.example.com'
r = requests.get(url)
r.raise_for_status()  # 检查请求是否成功
 
# 解析HTML
tree = html.fromstring(r.text)
 
# 使用XPath选择所有的a标签，并提取href属性
links = tree.xpath('//a/@href')
 
# 打印链接
for link in links:
    print(link)

这段代码首先导入了lxml的html模块和requests模块。然后，使用requests库获取网页内容，并检查请求是否成功。接下来，使用html.fromstring()函数将HTML文本解析成一个可以进行XPath查询的对象。最后，使用XPath表达式选取所有a标签的href属性，即网页中的所有链接，并打印出来。

Python lxml库：强大的XML和HTML处理工具

评论已关闭

推荐阅读