【爬虫】python爬虫爬取网站页面（基础讲解）

作者：System 时间：2024年08月16日分类：所有,爬虫字数：755

这篇文章距离上次修改已过692天，其中的内容可能已经有所变动。

使用Python进行网页爬取，最常用的库是requests用于发送HTTP请求，以及BeautifulSoup用于解析HTML页面。以下是一个简单的例子：

安装所需库（如果尚未安装）：




pip install requests beautifulsoup4

编写Python代码：




import requests
from bs4 import BeautifulSoup
 
# 目标网页URL
url = 'http://example.com'
 
# 发送HTTP请求
response = requests.get(url)
 
# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取页面内容
    # 例如，提取标题
    title = soup.title.text
    print(title)
else:
    print('Failed to retrieve the webpage')
 
# 注意：实际爬取时需要处理更多的情况，例如处理HTTP错误、处理JavaScript渲染的内容、处理AJAX异步加载的数据等。

这段代码会发送一个HTTP GET请求到指定的URL，并尝试提取页面标题。需要注意的是，实际的网站可能会有反爬机制，如cookies、session验证、IP封禁等，因此进行爬取时还需考虑这些问题。

【爬虫】python爬虫爬取网站页面（基础讲解）

评论已关闭

推荐阅读