爬虫学习2：爬虫爬取网页的信息与图片的方法

作者：System 时间：2024年08月23日分类：所有,爬虫字数：1170

这篇文章距离上次修改已过680天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
import os
 
# 设置图片保存路径
image_dir = 'images'
if not os.path.exists(image_dir):
    os.makedirs(image_dir)
 
# 设置起始URL
start_url = 'http://example.com/galleries'
 
# 发送HTTP请求
response = requests.get(start_url)
 
# 检查请求是否成功
if response.status_code == 200:
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 找到包含图片链接的div
    image_div = soup.find('div', {'class': 'image-gallery'})
    
    # 遍历图片链接
    for img in image_div.find_all('img'):
        img_url = img['src']
        response_img = requests.get(img_url)
        if response_img.status_code == 200:
            # 获取图片文件名
            filename = os.path.basename(img_url)
            # 保存图片到本地
            with open(os.path.join(image_dir, filename), 'wb') as f:
                f.write(response_img.content)
                print(f'图片 {filename} 已保存。')
        else:
            print(f'图片 {img_url} 下载失败，状态码: {response_img.status_code}')
else:
    print(f'请求失败，状态码: {response.status_code}')

这段代码使用了requests库来发送HTTP请求，使用BeautifulSoup库来解析HTML内容，并使用os库来处理文件操作。代码中假设网页结构已知并且图片在具有特定类名的div中，需要根据实际网页结构进行相应调整。

爬虫学习2：爬虫爬取网页的信息与图片的方法

评论已关闭

推荐阅读