Python 爬虫编写入门
import requests
from bs4 import BeautifulSoup
# 目标网页URL
url = 'https://example.com/'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所需数据
# 例如,提取标题
title = soup.title.text
print(title)
# 提取特定的HTML元素或数据
# 例如,提取所有段落文本
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
else:
print("网页请求失败,状态码:", response.status_code)
# 注意:以上代码仅为示例,需要根据实际网页结构进行相应调整。
这段代码使用了requests
库来发送HTTP GET请求,使用了BeautifulSoup
库来解析HTML内容,并提取了网页标题和段落文本作为示例。开发者可以根据实际需求,调整选择器来提取其他数据。
评论已关闭