网络爬虫:爬取网页数据
以下是一个使用Python的requests和BeautifulSoup库来爬取网页数据的基本例子。
首先,确保安装了所需的库:
pip install requests beautifulsoup4
然后,使用以下代码来爬取网页数据:
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'http://example.com/'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取数据
# 例如,提取页面的标题
title = soup.title.text
print(title)
# 您可以根据需要提取其他数据,如段落、链接、图片等
# 例如,提取所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
else:
print("Failed to retrieve the webpage")
这段代码会发送一个HTTP GET请求到指定的URL,如果请求成功,它会使用BeautifulSoup解析HTML内容,并打印出网页的标题和所有段落文本。您可以根据需要修改这段代码来提取其他数据,如图片、链接等。
评论已关闭