from lxml import etree
import requests
# 发送HTTP请求获取网页内容
url = 'https://example.com'
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用lxml解析网页
html = etree.HTML(response.text)
# 示例:提取所有的段落
paragraphs = html.xpath('//p/text()')
for p in paragraphs:
print(p)
# 示例:提取所有的链接
links = html.xpath('//a/@href')
for link in links:
print(link)
else:
print("网页请求失败,状态码:", response.status_code)
这段代码使用了requests
库来发送HTTP GET请求,获取网页内容,然后使用lxml.etree
来解析HTML,并使用XPath表达式来提取所需的数据,如段落文本和链接。这是一个简单的网络爬虫示例,展示了如何使用Python和lxml库进行基本的网页解析和数据提取。