基于Python使用爬虫从豆瓣网获取最新上映的电影信息
以下是一个简单的Python爬虫示例,用于抓取豆瓣电影的数据。请注意,在实际应用中,可能需要处理反爬机制,如cookies、headers、代理、爬取频率限制等。此外,请尊重网站的robots.txt规则,并始终尊重他人的版权和隐私。
import requests
from bs4 import BeautifulSoup
def get_latest_movies():
url = 'https://movie.douban.com/cinema/nowplaying/'
response = requests.get(url)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
movies = soup.find_all('div', class_='movie-item-info')
for movie in movies:
title = movie.find('h3', class_='movie-title').text
rating = movie.find('span', class_='rating-num').text
link = movie.find('a', class_='nbgnbg').get('href')
print(f"Title: {title}, Rating: {rating}, Link: {link}")
if __name__ == '__main__':
get_latest_movies()
这段代码使用了requests库来发送HTTP请求,以及BeautifulSoup库来解析HTML。它会打印出豆瓣电影上映页面中最新上映的电影的标题、评分以及链接。这只是一个简单的示例,实际应用中可能需要进行更复杂的处理,例如处理分页、登录态、异步爬取等。
评论已关闭