Beautiful Soup4爬虫速成
import requests
from bs4 import BeautifulSoup
# 设置代理服务器
proxies = {
'http': 'http://user:password@proxy.server.com:port',
'https': 'https://user:password@proxy.server.com:port'
}
# 发送请求
url = 'http://example.com'
response = requests.get(url, proxies=proxies)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取页面标题
title = soup.title.text
print(title)
# 查找所有的段落
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
else:
print('请求失败,状态码:', response.status_code)
这段代码使用了requests库来发送一个HTTP GET请求,并使用BeautifulSoup来解析返回的HTML内容。它还演示了如何设置代理服务器,以及如何检查请求是否成功,并处理了请求失败的情况。这是学习如何使用Beautiful Soup进行Web爬虫的一个很好的速成指南。
评论已关闭