0Python爬虫——以爬取官方医院信息为例(HTML基本结构框架+正则表达式)
import re
import requests
def get_hospitals_info(url):
"""
获取官方提供的医院信息数据
:param url: 医院信息页面的URL
:return: 医院信息列表
"""
response = requests.get(url)
hospitals_info = []
if response.status_code == 200:
html = response.text
# 使用正则表达式匹配医院信息
hospitals = re.findall(r'<tr><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td><td>(.*?)</td></tr>', html)
for hospital in hospitals:
hospitals_info.append({
'hospital_name': hospital[0],
'hospital_level': hospital[1],
'bed_count': hospital[2],
'address': hospital[3]
})
return hospitals_info
# 示例URL
example_url = 'http://www.health.com.cn/nhic/szks/szks_201803/14/content_285268.html'
hospitals = get_hospitals_info(example_url)
for hospital in hospitals:
print(hospital)
这段代码使用了requests库来发送HTTP请求,并使用正则表达式re来解析HTML页面中的医院信息。代码首先定义了一个函数get_hospitals_info
,它接受一个URL作为参数,发送HTTP请求,然后使用正则表达式匹配页面中的医院数据,并以字典的形式返回医院信息列表。最后,代码提供了一个示例URL,并调用函数获取医院信息,打印出结果。
评论已关闭