import requests
from bs4 import BeautifulSoup
def get_html(url):
"""发送HTTP请求,获取网页内容"""
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "网页请求失败,状态码:{}".format(response.status_code)
except requests.RequestException:
return "请求出错"
def parse_html(html):
"""解析网页,提取需要的信息"""
soup = BeautifulSoup(html, 'html.parser')
title = soup.find('h1', class_='post-title').get_text()
content = soup.find('div', class_='post-content').get_text()
return {'title': title, 'content': content}
def main():
url = 'http://example.com/some-post'
html = get_html(url)
parsed_data = parse_html(html)
print(parsed_data)
if __name__ == '__main__':
main()
这段代码首先定义了一个get_html
函数,用于发送HTTP请求并获取网页内容。然后定义了一个parse_html
函数,用于解析网页并提取标题和内容。最后,在main
函数中,我们构建了网页URL,调用get_html
获取内容,并调用parse_html
解析内容,打印结果。这个例子展示了如何使用Python的requests库和BeautifulSoup库来简单地抓取和解析网页。