python 爬虫之 爬取网站信息并保存到文件
以下是一个使用Python的requests和BeautifulSoup库来爬取网站信息并将其保存到文件的基本示例。
import requests
from bs4 import BeautifulSoup
# 目标网址
url = 'http://example.com/'
# 发送HTTP请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取你需要的信息,例如页面标题
title = soup.title.text
# 将信息写入文件
with open('output.txt', 'w', encoding='utf-8') as file:
file.write(title)
print(f'网站标题已保存到 output.txt: {title}')
else:
print('网页请求失败')
确保你已经安装了requests和beautifulsoup4库,可以使用以下命令安装:
pip install requests beautifulsoup4
这段代码会发送一个HTTP GET请求到指定的网址,然后使用BeautifulSoup解析HTML内容,提取页面标题,并将其保存到当前目录下的output.txt文件中。你可以根据需要修改这段代码,以提取不同的网页信息或保存到不同的文件。
评论已关闭