Python利器:Requests-HTML——网络爬虫的得力助手
import requests
from requests_html import HTMLSession
# 创建一个HTMLSession对象,以便使用它来发送请求
session = HTMLSession()
# 指定要抓取的URL
url = 'https://example.com'
# 使用get方法发送请求
response = session.get(url)
# 解析并提取HTML内容
response.html.render() # 渲染页面,如果需要JavaScript渲染的内容
# 提取所需数据
# 例如,提取页面的标题
title = response.html.find('title', first=True)
print(title.text)
# 关闭session,释放资源
session.close()
这段代码演示了如何使用requests-html
库来发送网络请求,并提取页面的标题。在实际应用中,你可以根据需要提取页面上的其他数据,如链接、图片、文本等。
评论已关闭