python 小白爬虫 豆瓣爬取数据
要爬取豆瓣上的数据,你可以使用Python的requests和BeautifulSoup库。以下是一个简单的示例,展示了如何爬取豆瓣电影TOP250的电影信息。
首先,安装所需库(如果尚未安装的话):
pip install requests
pip install beautifulsoup4
然后,使用以下代码爬取数据:
import requests
from bs4 import BeautifulSoup
import csv
# 定义要爬取的豆瓣电影TOP250页面的URL
def get_page_source(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except requests.RequestException:
return None
# 解析页面并提取电影信息
def parse_page(html):
soup = BeautifulSoup(html, 'html.parser')
movie_list = soup.find_all('div', class_='info')
for movie in movie_list:
rank = movie.find('em').get_text()
title = movie.find('span', class_='title').get_text()
rating = movie.find('span', class_='rating_num').get_text()
yield {
'rank': rank,
'title': title,
'rating': rating
}
# 保存数据到CSV文件
def save_to_csv(data):
with open('douban_movies.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.DictWriter(f, fieldnames=['rank', 'title', 'rating'])
writer.writeheader()
for item in data:
writer.writerow(item)
# 主函数
def main():
base_url = 'https://movie.douban.com/top250?start='
urls = [base_url + str(i * 25) for i in range(10)] # 假设总共有10页
movie_data = []
for url in urls:
html = get_page_source(url)
if html:
movie_data.extend(parse_page(html))
save_to_csv(movie_data)
if __name__ == '__main__':
main()
这段代码会生成一个名为douban_movies.csv
的CSV文件,其中包含了电影的排名、名称和评分。
注意:
- 爬取数据时应遵守豆瓣的robots.txt协议,并尊重网站的爬取政策。
- 实际爬取过程中可能需要处理登录、反爬虫机制等问题,可能需要使用代理、Session对象、设置User-Agent等。
- 爬取数据应尊重网站版权和隐私,不得用于商业目的以外的非法活动。
评论已关闭