[Python]编写一个简易爬虫模型——爬取百度百科图片链接
warning:
这篇文章距离上次修改已过205天,其中的内容可能已经有所变动。
import requests
from bs4 import BeautifulSoup
import re
def get_baidu_baike_images(subject):
# 百度百科主页面的URL
base_url = 'https://baike.baidu.com/item/' + subject
# 发送HTTP请求
response = requests.get(base_url)
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 使用正则表达式匹配图片链接
image_pattern = re.compile(r'https://.*?\.jpg')
# 查找所有符合模式的链接
image_urls = image_pattern.findall(response.text)
return image_urls
# 使用函数并打印结果
image_urls = get_baidu_baike_images('Python')
print(image_urls)
这段代码首先导入了必要的模块,定义了一个函数get_baidu_baike_images
,该函数接收一个主题名称,构造百度百科的URL,发送HTTP请求,解析HTML内容,并使用正则表达式匹配图片链接。最后,调用这个函数并打印结果。这个简易的爬虫模型可以作为学习如何使用Python进行网络爬取的起点。
评论已关闭