Python-数据爬取(爬虫)
以下是一个简单的Python爬虫示例,使用requests
库获取网页内容,并使用BeautifulSoup
解析网页。
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'https://example.com'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取需要的数据,例如所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.get_text())
else:
print(f"Error: {response.status_code}")
确保在运行此代码前安装所需的库:
pip install requests beautifulsoup4
这个简单的爬虫示例获取了指定URL的内容,并打印出所有段落标签<p>
的文本内容。在实际应用中,你需要根据目标网站的结构和你想要抓取的数据来调整选择器和数据提取逻辑。
评论已关闭