爬虫:静态网页的爬取
要爬取一个静态网页的内容,你可以使用Python的requests库来获取网页内容,然后使用BeautifulSoup库来解析HTML并提取所需数据。以下是一个简单的例子:
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com/static-page.html'
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取你感兴趣的数据,例如所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
else:
print(f"Error: {response.status_code}")
确保你已经安装了requests和beautifulsoup4库,如果没有,可以使用pip安装:
pip install requests
pip install beautifulsoup4
这段代码会抓取指定URL的所有段落文本。根据你的需求,你可以修改soup.find_all('p')
来查找其他元素,如'h1'、'div'等,并进一步处理数据。
评论已关闭