【爬虫实战项目一】Python爬取豆瓣电影榜单数据
warning:
这篇文章距离上次修改已过188天,其中的内容可能已经有所变动。
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
def get_movies(url):
# 发送GET请求
response = requests.get(url, headers=headers)
# 解析网页
soup = BeautifulSoup(response.text, 'lxml')
# 找到电影信息的列表
movie_list = soup.find('ol', attrs={'data-items': 'movies'})
movies = []
# 遍历电影信息列表
for movie in movie_list.find_all('li'):
data = movie.find('div', class_='info')
if data:
movie_info = {
'排名': movie.find('em').text,
'电影名': data.find('div', class_='hd').find('a').text,
'评分': data.find('div', class_='bd').find('div', class_='star').find('span', class_='rating_num').text,
'评论数': data.find('div', class_='bd').find('p', class_='quote').text.strip()[3:-1]
}
movies.append(movie_info)
return movies
# 主函数
def main():
# 爬取的豆瓣电影榜单URL
url = 'https://movie.douban.com/chart'
# 获取电影数据
movies = get_movies(url)
# 将数据保存到CSV文件
df = pd.DataFrame(movies)
df.to_csv('douban_movies.csv', index=False, encoding='utf-8-sig')
if __name__ == '__main__':
main()
这段代码实现了从豆瓣电影TOP250排行榜中爬取电影信息的功能,并将爬取的数据保存到CSV文件中。代码使用了requests库来发送HTTP请求,BeautifulSoup库来解析HTML,以及pandas库来处理和保存数据。同时,代码中加入了请求头来模拟浏览器访问,避免了反爬虫策略的阻止。
评论已关闭