爬虫学习2:爬虫爬取网页的信息与图片的方法
import requests
from bs4 import BeautifulSoup
import os
# 设置图片保存路径
image_dir = 'images'
if not os.path.exists(image_dir):
os.makedirs(image_dir)
# 设置起始URL
start_url = 'http://example.com/galleries'
# 发送HTTP请求
response = requests.get(start_url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含图片链接的div
image_div = soup.find('div', {'class': 'image-gallery'})
# 遍历图片链接
for img in image_div.find_all('img'):
img_url = img['src']
response_img = requests.get(img_url)
if response_img.status_code == 200:
# 获取图片文件名
filename = os.path.basename(img_url)
# 保存图片到本地
with open(os.path.join(image_dir, filename), 'wb') as f:
f.write(response_img.content)
print(f'图片 {filename} 已保存。')
else:
print(f'图片 {img_url} 下载失败,状态码: {response_img.status_code}')
else:
print(f'请求失败,状态码: {response.status_code}')
这段代码使用了requests库来发送HTTP请求,使用BeautifulSoup库来解析HTML内容,并使用os库来处理文件操作。代码中假设网页结构已知并且图片在具有特定类名的div中,需要根据实际网页结构进行相应调整。
评论已关闭