【python】使用代理IP爬取猫眼电影专业评分数据

作者：System 时间：2024年08月19日分类：所有,python 字数：783

这篇文章距离上次修改已过689天，其中的内容可能已经有所变动。




import requests
from lxml import etree
 
# 设置代理服务器
proxies = {
    'http': 'http://用户名:密码@代理服务器地址:端口',
    'https': 'https://用户名:密码@代理服务器地址:端口'
}
 
# 目标网页URL
url = 'https://maoyan.com/cs/boxoffice'
 
# 发送请求
response = requests.get(url, proxies=proxies)
 
# 确保网页请求成功
if response.status_code == 200:
    # 解析网页
    html = etree.HTML(response.text)
    
    # XPath表达式，提取专业评分数据
    xpath_expr = '//dl[@class="board-wrapper"]//dd/text()'
    scores = html.xpath(xpath_expr)
    
    # 打印专业评分数据
    for score in scores:
        print(score.strip())  # 去除可能的空白字符
else:
    print('网页请求失败，状态码：', response.status_code)

这段代码使用了代理服务器来发送HTTP GET请求到猫眼的专业评分网页，并使用lxml库来解析网页并提取专业评分数据。代码中的XPath表达式用于定位专业评分数据在网页中的位置，并打印出来。需要注意的是，代理服务器的用户名、密码、代理服务器地址和端口需要根据实际情况进行替换。

【python】使用代理IP爬取猫眼电影专业评分数据

评论已关闭

推荐阅读