day01 爬虫-python
import requests
from bs4 import BeautifulSoup
# 获取网页内容
def get_html(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
except requests.RequestException:
return None
# 解析网页并提取数据
def parse_data(html):
soup = BeautifulSoup(html, 'html.parser')
data = []
for tr in soup.find('tbody').children:
if isinstance(tr, bs4.element.Tag): # 确保 tr 是一个标签元素
tds = tr('td')
data.append({
'rank': tds[0].text,
'name': tds[1].text,
'score': tds[2].text
})
return data
# 打印数据
def print_data(data):
for item in data:
print(f"排名: {item['rank']}, 名称: {item['name']}, 分数: {item['score']}")
# 主函数
def main():
url = 'https://example.com/some_table'
html = get_html(url)
if html:
data = parse_data(html)
print_data(data)
else:
print('无法获取网页内容')
if __name__ == '__main__':
main()
这个示例代码展示了如何使用Python的requests库获取网页内容,以及如何使用BeautifulSoup库解析网页并提取表格数据。代码中的get_html
函数负责发送HTTP请求并获取网页内容,parse_data
函数负责解析HTML并提取表格中的数据,最后print_data
函数负责打印数据。main
函数则是这些功能的组合和调用。
评论已关闭