百度图像主题爬虫代码

这篇文章距离上次修改已过494天，其中的内容可能已经有所变动。

由于原始代码中存在一些问题，以下是一个修改后的示例，它使用了requests和beautifulsoup4库，并且修正了一些语法错误。




import requests
from bs4 import BeautifulSoup
import os
import time
 
def download_image(url, keyword, count):
    # 图片的保存路径
    save_path = os.path.join('D:/', keyword)
    if not os.path.exists(save_path):
        os.makedirs(save_path)
    # 图片的文件名
    filename = os.path.join(save_path, str(count) + '.jpg')
 
    # 请求图片的URL，获取图片的二进制数据
    response = requests.get(url)
    if response.status_code == 200:
        with open(filename, 'wb') as file:
            file.write(response.content)
            print(f'第{count}张图片已保存')
    else:
        print(f'第{count}张图片下载失败，状态码：{response.status_code}')
 
def crawl_images(keyword, max_num):
    # 搜索引擎的URL
    base_url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + keyword + '&pn='
    # 请求头部信息，模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    count = 0
    while count < max_num:
        pn = (count - 1) * 30  # 计算pn值
        url = base_url + str(pn)
        # 请求搜索引擎，获取HTML页面
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            # 解析HTML页面
            soup = BeautifulSoup(response.text, 'html.parser')
            # 查找图片的URL
            image_urls = soup.find_all('img', {'class': 'main_img'})
            for image_url in image_urls:
                if count >= max_num:
                    break
                image_url = image_url['src']
                download_image(image_url, keyword, count)
                count += 1
                time.sleep(2)  # 暂停2秒，避免过快请求，防止被封禁
        else:
            print(f'请求状态码：{response.status_code}')
            break
 
if __name__ == '__main__':
    crawl_images('cat', 100)  # 爬取关键词为'cat'的前100张图片

这段代码首先定义了下载图片和爬取图片的函数。download_image函数接受图片的URL、关键词和计数器作为参数，然后请求图片URL，将图片保存到本地文件夹。crawl_images函数则是循环请求搜索引擎，并解析页面获取图片URL，然后调用download_image函数下载图片。

注意：爬取图片可能违反搜索引擎的使用协议，使用时请确保合法性，并适当减少请求频率，避免对服务器造成过大压力。

百度图像主题爬虫代码

评论已关闭

推荐阅读