Python爬虫入门教程:初识爬虫_程序员爬虫教学,字节跳动厂内部超高质量Flutter+Kotlin笔记
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求
url = 'https://www.example.com'
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取页面内容
# 例如,提取所有的段落
paragraphs = soup.find_all('p')
for p in paragraphs:
print(p.text)
else:
print("请求网页失败,状态码:", response.status_code)
这段代码使用了requests
库来发送HTTP GET请求,使用了bs4
(BeautifulSoup4)库来解析HTML页面,并提取了页面中所有段落标签的文本内容。这是爬虫开发中最基础的步骤,为进一步开发更复杂的爬虫设置了基础。
评论已关闭