Python爬虫利器 - requests-html

作者：System 时间：2024年08月17日分类：所有,html 字数：633

这篇文章距离上次修改已过709天，其中的内容可能已经有所变动。

requests-html 是一个 Python 库，可以用来解析和提取 HTML 内容，它基于 requests 库，并提供了一些便捷的方法来操作和解析 HTML 文档。

以下是一个使用 requests-html 的简单示例：




import requests
 
# 使用 pip install requests-html 安装
 
# 创建一个 Session 对象
session = requests.Session()
 
# 用 Session 对象获取网页内容
resp = session.get('http://example.com')
 
# 解析获取到的 HTML 内容
html = resp.html
 
# 提取 HTML 元素，例如所有的段落
paragraphs = html.find('p')
 
# 打印每个段落的内容
for p in paragraphs:
    print(p.text)

在这个例子中，我们首先导入 requests 库，然后创建一个 Session 对象以便进行后续的网络请求。通过 Session 对象的 get 方法获取网页内容，之后我们使用 resp.html 来获取解析后的 HTML 内容，并使用 find 方法找到所有的段落标签 <p>，最后遍历并打印每个段落的文本内容。

Python爬虫利器 - requests-html

评论已关闭

推荐阅读