百度图像主题爬虫代码
warning:
这篇文章距离上次修改已过201天,其中的内容可能已经有所变动。
由于原始代码中存在一些问题,以下是一个修改后的示例,它使用了requests
和beautifulsoup4
库,并且修正了一些语法错误。
import requests
from bs4 import BeautifulSoup
import os
import time
def download_image(url, keyword, count):
# 图片的保存路径
save_path = os.path.join('D:/', keyword)
if not os.path.exists(save_path):
os.makedirs(save_path)
# 图片的文件名
filename = os.path.join(save_path, str(count) + '.jpg')
# 请求图片的URL,获取图片的二进制数据
response = requests.get(url)
if response.status_code == 200:
with open(filename, 'wb') as file:
file.write(response.content)
print(f'第{count}张图片已保存')
else:
print(f'第{count}张图片下载失败,状态码:{response.status_code}')
def crawl_images(keyword, max_num):
# 搜索引擎的URL
base_url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + keyword + '&pn='
# 请求头部信息,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
count = 0
while count < max_num:
pn = (count - 1) * 30 # 计算pn值
url = base_url + str(pn)
# 请求搜索引擎,获取HTML页面
response = requests.get(url, headers=headers)
if response.status_code == 200:
# 解析HTML页面
soup = BeautifulSoup(response.text, 'html.parser')
# 查找图片的URL
image_urls = soup.find_all('img', {'class': 'main_img'})
for image_url in image_urls:
if count >= max_num:
break
image_url = image_url['src']
download_image(image_url, keyword, count)
count += 1
time.sleep(2) # 暂停2秒,避免过快请求,防止被封禁
else:
print(f'请求状态码:{response.status_code}')
break
if __name__ == '__main__':
crawl_images('cat', 100) # 爬取关键词为'cat'的前100张图片
这段代码首先定义了下载图片和爬取图片的函数。download_image
函数接受图片的URL、关键词和计数器作为参数,然后请求图片URL,将图片保存到本地文件夹。crawl_images
函数则是循环请求搜索引擎,并解析页面获取图片URL,然后调用download_image
函数下载图片。
注意:爬取图片可能违反搜索引擎的使用协议,使用时请确保合法性,并适当减少请求频率,避免对服务器造成过大压力。
评论已关闭