python爬取网站数据(含代码和讲解)
import requests
from bs4 import BeautifulSoup
# 目标网站URL
url = 'https://example.com'
# 发送HTTP请求
response = requests.get(url)
# 确认请求成功
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取数据
# 假设我们要提取所有的段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
else:
print(f"请求失败,状态码:{response.status_code}")
# 注意:实际应用中可能需要处理更多的异常情况,如网络问题、页面解析错误等。
这段代码展示了如何使用Python的requests库和BeautifulSoup库来发送HTTP请求,获取网页内容,并解析提取数据。代码中的url
变量需要替换为你要爬取的目标网站。在实际应用中,你可能需要根据目标网站的HTML结构来修改soup.find_all()
方法中的标签名,以及进一步处理提取的数据。
评论已关闭