Python爬虫利器 - requests-html
requests-html 是一个 Python 库,可以用来解析和提取 HTML 内容,它基于 requests
库,并提供了一些便捷的方法来操作和解析 HTML 文档。
以下是一个使用 requests-html
的简单示例:
import requests
# 使用 pip install requests-html 安装
# 创建一个 Session 对象
session = requests.Session()
# 用 Session 对象获取网页内容
resp = session.get('http://example.com')
# 解析获取到的 HTML 内容
html = resp.html
# 提取 HTML 元素,例如所有的段落
paragraphs = html.find('p')
# 打印每个段落的内容
for p in paragraphs:
print(p.text)
在这个例子中,我们首先导入 requests
库,然后创建一个 Session
对象以便进行后续的网络请求。通过 Session
对象的 get
方法获取网页内容,之后我们使用 resp.html
来获取解析后的 HTML 内容,并使用 find
方法找到所有的段落标签 <p>
,最后遍历并打印每个段落的文本内容。
评论已关闭