Python爬虫篇:爬虫笔记合集
由于篇幅限制,这里仅提供一个简单的Python爬虫示例代码,用于抓取一个网页上的链接。
import requests
from bs4 import BeautifulSoup
# 目标网页
url = 'https://www.example.com'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有的a标签,即链接
for link in soup.find_all('a'):
# 获取链接的href属性
href = link.get('href')
if href:
print(href)
else:
print(f"Error: {response.status_code}")
这段代码使用了requests
库来发送HTTP请求,获取网页内容,并使用BeautifulSoup
库来解析HTML,提取所有的链接。这是一个简单的Python爬虫示例,适合作为学习的起点。
评论已关闭