【python】使用代理IP爬取猫眼电影专业评分数据
import requests
from lxml import etree
# 设置代理服务器
proxies = {
'http': 'http://用户名:密码@代理服务器地址:端口',
'https': 'https://用户名:密码@代理服务器地址:端口'
}
# 目标网页URL
url = 'https://maoyan.com/cs/boxoffice'
# 发送请求
response = requests.get(url, proxies=proxies)
# 确保网页请求成功
if response.status_code == 200:
# 解析网页
html = etree.HTML(response.text)
# XPath表达式,提取专业评分数据
xpath_expr = '//dl[@class="board-wrapper"]//dd/text()'
scores = html.xpath(xpath_expr)
# 打印专业评分数据
for score in scores:
print(score.strip()) # 去除可能的空白字符
else:
print('网页请求失败,状态码:', response.status_code)
这段代码使用了代理服务器来发送HTTP GET请求到猫眼的专业评分网页,并使用lxml库来解析网页并提取专业评分数据。代码中的XPath表达式用于定位专业评分数据在网页中的位置,并打印出来。需要注意的是,代理服务器的用户名、密码、代理服务器地址和端口需要根据实际情况进行替换。
评论已关闭