十分钟带你学会用python3网络爬虫抓取猫眼电影排行!
import requests
from bs4 import BeautifulSoup
def get_cat_movie_rank(url):
"""获取猫眼电影排行榜"""
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
rank_list = soup.select('.board-wrapper .board-body li')
rank_data = []
for item in rank_list:
rank = item.select_one('.board-index').text
desc = item.select_one('.image-link').get('title')
score = item.select_one('.score').text
rank_data.append({'排行': rank, '电影名称': desc, '评分': score})
return rank_data
# 示例使用
if __name__ == '__main__':
url = 'https://maoyan.com/board'
rank_list = get_cat_movie_rank(url)
for item in rank_list:
print(item)
这段代码使用了requests库来发送HTTP请求,以及BeautifulSoup库来解析HTML内容。代码中定义了一个get_cat_movie_rank
函数,该函数接收一个URL作为参数,发送请求,解析返回的页面,提取电影排行信息,并以列表的形式返回。最后,代码中还有一个示例使用的部分,用于调用该函数并打印结果。
评论已关闭