用Python编写一个功能强大的爬虫,功能至少要有图片爬取等
下面是一个简单的Python爬虫示例,用于下载网页上的图片。
import requests
from bs4 import BeautifulSoup
import os
# 图片保存目录
save_dir = 'images'
if not os.path.exists(save_dir):
os.makedirs(save_dir)
# 目标网页URL
url = 'http://example.com'
# 发送HTTP请求
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的img标签
for img in soup.find_all('img'):
# 获取图片的URL
img_url = img.get('src')
# 如果是相对路径,拼接成完整的URL
if not img_url.startswith(('http:', 'https:')):
img_url = response.urljoin(img_url)
# 下载图片
response = requests.get(img_url)
img_data = response.content
# 提取图片文件名
filename = os.path.basename(img_url)
# 保存图片到本地
with open(os.path.join(save_dir, filename), 'wb') as f:
f.write(img_data)
print("图片爬取完成,保存在", save_dir)
这段代码使用了requests
库来发送HTTP请求,BeautifulSoup
来解析HTML,以及os
来处理文件操作。代码会下载指定网页上的所有图片,并将它们保存到本地的images
文件夹中。这个例子展示了如何使用Python进行基本的网络爬取和文件操作。
评论已关闭