import requests
from bs4 import BeautifulSoup
# 获取网页内容
def get_html_content(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return "网页获取失败,状态码:" + str(response.status_code)
except requests.exceptions.RequestException:
return "请求异常"
# 解析和提取数据
def parse_html_data(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
return [p.get_text() for p in paragraphs]
# 示例URL
url = "https://example.com"
# 获取网页内容
html_content = get_html_content(url)
# 解析和提取数据
data = parse_html_data(html_content)
# 打印提取的数据
for item in data:
print(item)
这段代码使用了requests
库来获取网页内容,使用了BeautifulSoup
来解析HTML并提取数据。代码首先定义了一个获取网页内容的函数get_html_content
,它接受一个URL,向该URL发送GET请求,并返回响应的文本内容。如果请求失败或发生异常,它会返回错误信息。接着定义了一个解析和提取数据的函数parse_html_data
,它接受HTML内容作为参数,使用BeautifulSoup解析后提取所有段落标签的文本内容。最后,代码示例了如何使用这两个函数来获取网页内容并打印提取的数据。