【爬虫实战项目一】Python爬取豆瓣电影榜单数据

作者：System 时间：2024年08月17日分类：所有,爬虫字数：1490

这篇文章距离上次修改已过691天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
# 设置请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
def get_movies(url):
    # 发送GET请求
    response = requests.get(url, headers=headers)
    # 解析网页
    soup = BeautifulSoup(response.text, 'lxml')
    # 找到电影信息的列表
    movie_list = soup.find('ol', attrs={'data-items': 'movies'})
    movies = []
    # 遍历电影信息列表
    for movie in movie_list.find_all('li'):
        data = movie.find('div', class_='info')
        if data:
            movie_info = {
                '排名': movie.find('em').text,
                '电影名': data.find('div', class_='hd').find('a').text,
                '评分': data.find('div', class_='bd').find('div', class_='star').find('span', class_='rating_num').text,
                '评论数': data.find('div', class_='bd').find('p', class_='quote').text.strip()[3:-1]
            }
            movies.append(movie_info)
    return movies
 
# 主函数
def main():
    # 爬取的豆瓣电影榜单URL
    url = 'https://movie.douban.com/chart'
    # 获取电影数据
    movies = get_movies(url)
    # 将数据保存到CSV文件
    df = pd.DataFrame(movies)
    df.to_csv('douban_movies.csv', index=False, encoding='utf-8-sig')
 
if __name__ == '__main__':
    main()

这段代码实现了从豆瓣电影TOP250排行榜中爬取电影信息的功能，并将爬取的数据保存到CSV文件中。代码使用了requests库来发送HTTP请求，BeautifulSoup库来解析HTML，以及pandas库来处理和保存数据。同时，代码中加入了请求头来模拟浏览器访问，避免了反爬虫策略的阻止。

【爬虫实战项目一】Python爬取豆瓣电影榜单数据

评论已关闭

推荐阅读