以下是一个简单的Python爬虫示例,使用requests和BeautifulSoup库来抓取一个网页的标题。
首先,你需要安装requests和beautifulsoup4库(如果还没有安装的话):
pip install requests beautifulsoup4
然后,你可以使用以下代码来爬取网页:
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com'
# 发送HTTP请求
response = requests.get(url)
# 确保网页请求成功
if response.status_code == 200:
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取标题
title = soup.title.text
print(title)
else:
print('Failed to retrieve the webpage')
这段代码会输出网页的标题。如果你想要抓取其他信息,可以根据需要修改选择器。例如,要获取所有段落文本,可以使用soup.find_all('p')
。