0Python爬虫——以爬取官方医院信息为例（HTML基本结构框架+正则表达式）

作者：System 时间：2024年08月14日分类：所有,html 字数：1075

这篇文章距离上次修改已过718天，其中的内容可能已经有所变动。




import re
import requests
 
def get_hospitals_info(url):
    """
    获取官方提供的医院信息数据
    :param url: 医院信息页面的URL
    :return: 医院信息列表
    """
    response = requests.get(url)
    hospitals_info = []
    if response.status_code == 200:
        html = response.text
        # 使用正则表达式匹配医院信息
        hospitals = re.findall(r'<tr><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>', html)
        for hospital in hospitals:
            hospitals_info.append({
                'hospital_name': hospital[0],
                'hospital_level': hospital[1],
                'bed_count': hospital[2],
                'address': hospital[3]
            })
    return hospitals_info
 
# 示例URL
example_url = 'http://www.health.com.cn/nhic/szks/szks_201803/14/content_285268.html'
hospitals = get_hospitals_info(example_url)
for hospital in hospitals:
    print(hospital)

这段代码使用了requests库来发送HTTP请求，并使用正则表达式re来解析HTML页面中的医院信息。代码首先定义了一个函数get_hospitals_info，它接受一个URL作为参数，发送HTTP请求，然后使用正则表达式匹配页面中的医院数据，并以字典的形式返回医院信息列表。最后，代码提供了一个示例URL，并调用函数获取医院信息，打印出结果。

0Python爬虫——以爬取官方医院信息为例（HTML基本结构框架+正则表达式）

评论已关闭

推荐阅读