【Python学习】网络爬虫-爬取豆瓣电影评论
import requests
from bs4 import BeautifulSoup
import re
import pandas as pd
# 定义一个函数来获取豆瓣电影评论
def get_douban_movie_comments(movie_url):
# 发送HTTP请求
response = requests.get(movie_url)
# 解析网页
soup = BeautifulSoup(response.text, 'html.parser')
# 提取评论信息
comments = soup.find_all('div', class_='comment-content')
# 提取评分信息
ratings = soup.find_all('span', class_='rating-star')
# 初始化列表来存储评论和评分
comments_list = []
ratings_list = []
# 遍历评论和评分,并提取信息
for comment, rating in zip(comments, ratings):
comments_list.append(comment.get_text().strip())
ratings_list.append(rating.get_text())
# 将评论和评分存储在字典中
data = {
'comments': comments_list,
'ratings': ratings_list
}
return data
# 要爬取的豆瓣电影URL
movie_url = 'https://movie.douban.com/subject/12927204/comments?status=P'
# 获取评论数据
comments_data = get_douban_movie_comments(movie_url)
# 将数据转换为DataFrame
comments_df = pd.DataFrame(comments_data)
# 输出前几行结果
print(comments_df.head())
这段代码定义了一个函数get_douban_movie_comments
,它接受一个豆瓣电影评论页面的URL作为参数,发送HTTP请求,解析网页,提取评论和评分,并将数据存储在一个DataFrame中。这个过程展示了如何使用Python网络爬虫技术来抓取和分析网页数据的基本步骤。
评论已关闭