python 小白爬虫豆瓣爬取数据

这篇文章距离上次修改已过363天，其中的内容可能已经有所变动。

要爬取豆瓣上的数据，你可以使用Python的requests和BeautifulSoup库。以下是一个简单的示例，展示了如何爬取豆瓣电影TOP250的电影信息。

首先，安装所需库（如果尚未安装的话）：




pip install requests
pip install beautifulsoup4

然后，使用以下代码爬取数据：




import requests
from bs4 import BeautifulSoup
import csv
 
# 定义要爬取的豆瓣电影TOP250页面的URL
def get_page_source(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return None
    except requests.RequestException:
        return None
 
# 解析页面并提取电影信息
def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    movie_list = soup.find_all('div', class_='info')
    for movie in movie_list:
        rank = movie.find('em').get_text()
        title = movie.find('span', class_='title').get_text()
        rating = movie.find('span', class_='rating_num').get_text()
        yield {
            'rank': rank,
            'title': title,
            'rating': rating
        }
 
# 保存数据到CSV文件
def save_to_csv(data):
    with open('douban_movies.csv', 'w', newline='', encoding='utf-8') as f:
        writer = csv.DictWriter(f, fieldnames=['rank', 'title', 'rating'])
        writer.writeheader()
        for item in data:
            writer.writerow(item)
 
# 主函数
def main():
    base_url = 'https://movie.douban.com/top250?start='
    urls = [base_url + str(i * 25) for i in range(10)]  # 假设总共有10页
    movie_data = []
 
    for url in urls:
        html = get_page_source(url)
        if html:
            movie_data.extend(parse_page(html))
 
    save_to_csv(movie_data)
 
if __name__ == '__main__':
    main()

这段代码会生成一个名为douban_movies.csv的CSV文件，其中包含了电影的排名、名称和评分。

注意：

爬取数据时应遵守豆瓣的robots.txt协议，并尊重网站的爬取政策。
实际爬取过程中可能需要处理登录、反爬虫机制等问题，可能需要使用代理、Session对象、设置User-Agent等。
爬取数据应尊重网站版权和隐私，不得用于商业目的以外的非法活动。

python 小白爬虫豆瓣爬取数据

评论已关闭

推荐阅读