[Python]编写一个简易爬虫模型——爬取百度百科图片链接

作者：System 时间：2024年08月07日分类：所有,爬虫字数：725

这篇文章距离上次修改已过580天，其中的内容可能已经有所变动。




import requests
from bs4 import BeautifulSoup
import re
 
def get_baidu_baike_images(subject):
    # 百度百科主页面的URL
    base_url = 'https://baike.baidu.com/item/' + subject
    # 发送HTTP请求
    response = requests.get(base_url)
    # 解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    # 使用正则表达式匹配图片链接
    image_pattern = re.compile(r'https://.*?\.jpg')
    # 查找所有符合模式的链接
    image_urls = image_pattern.findall(response.text)
    return image_urls
 
# 使用函数并打印结果
image_urls = get_baidu_baike_images('Python')
print(image_urls)

这段代码首先导入了必要的模块，定义了一个函数get_baidu_baike_images，该函数接收一个主题名称，构造百度百科的URL，发送HTTP请求，解析HTML内容，并使用正则表达式匹配图片链接。最后，调用这个函数并打印结果。这个简易的爬虫模型可以作为学习如何使用Python进行网络爬取的起点。

[Python]编写一个简易爬虫模型——爬取百度百科图片链接

评论已关闭

推荐阅读