Python爬虫——urllib_ajax的get请求爬取豆瓣电影前十页
使用urllib
库发起AJAX GET请求,并爬取豆瓣电影前十页的示例代码如下:
import urllib.request
import json
# 豆瓣电影前十页的URL
url = 'https://movie.douban.com/j/chart/top_list?'
params = {
'type': '5', # 5 代表电影
'interval_id': '100:90', # 时间范围,100:90 代表2015年前十名
'action': '', # 空字符串即可
'start': '0', # 第一页
'limit': '10', # 每页10个电影
}
# 构建GET请求的参数字符串
params_encoded = urllib.parse.urlencode(params)
# 完整的请求URL
url_with_params = f'{url}{params_encoded}'
# 发起请求
with urllib.request.urlopen(url_with_params) as response:
# 解析JSON数据
data = json.loads(response.read())
# 提取和输出电影信息
for movie in data['data']:
print(f"{movie['title']} - 评分: {movie['rate']}")
这段代码通过构建请求的URL参数,并使用urllib.request
发起GET请求来获取豆瓣电影前十页的数据,然后解析JSON格式的响应并打印出电影名称和评分。注意,实际爬取数据时可能需要处理反爬虫策略,如需高效爬取数据,推荐使用更强大的爬虫库如requests
和BeautifulSoup
。
评论已关闭