python—爬虫爬取电影页面实例
import requests
from bs4 import BeautifulSoup
def get_movie_details(movie_url):
"""
获取电影详情
:param movie_url: 电影URL
:return: 电影详细信息字典
"""
response = requests.get(movie_url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'lxml')
movie_details = {
'name': soup.find('div', class_='hd').a.text.strip(),
'rating': soup.find('div', class_='star').text.strip(),
'quote': soup.find('div', class_='inq').text.strip(),
'director': soup.find('div', class_='bd').find_all('p')[1].text.strip(),
}
return movie_details
else:
return "Error: Unable to fetch movie details."
# 示例使用
movie_url = 'https://movie.douban.com/subject/12927202/'
print(get_movie_details(movie_url))
这段代码定义了一个函数get_movie_details
,它接受一个电影的URL作为参数,发送HTTP GET请求,并使用BeautifulSoup解析页面。然后,它提取电影的名称、评分、引言和导演信息,并以字典的形式返回。最后,我们提供了一个使用示例,展示了如何调用这个函数并打印结果。
评论已关闭