python 爬虫之爬取网站信息并保存到文件

作者：System 时间：2024年08月19日分类：所有,爬虫字数：775

这篇文章距离上次修改已过341天，其中的内容可能已经有所变动。

以下是一个使用Python的requests和BeautifulSoup库来爬取网站信息并将其保存到文件的基本示例。




import requests
from bs4 import BeautifulSoup
 
# 目标网址
url = 'http://example.com/'
 
# 发送HTTP请求
response = requests.get(url)
 
# 检查请求是否成功
if response.status_code == 200:
    # 解析响应内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取你需要的信息，例如页面标题
    title = soup.title.text
    
    # 将信息写入文件
    with open('output.txt', 'w', encoding='utf-8') as file:
        file.write(title)
    print(f'网站标题已保存到 output.txt: {title}')
else:
    print('网页请求失败')

确保你已经安装了requests和beautifulsoup4库，可以使用以下命令安装：




pip install requests beautifulsoup4

这段代码会发送一个HTTP GET请求到指定的网址，然后使用BeautifulSoup解析HTML内容，提取页面标题，并将其保存到当前目录下的output.txt文件中。你可以根据需要修改这段代码，以提取不同的网页信息或保存到不同的文件。

python 爬虫之爬取网站信息并保存到文件

评论已关闭

推荐阅读