python爬虫——抓取表格pandas当爬虫用超简单

作者：System 时间：2024年08月13日分类：所有,爬虫字数：773

这篇文章距离上次修改已过692天，其中的内容可能已经有所变动。




import requests
import pandas as pd
 
# 设置请求头，模拟浏览器访问
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
 
# 发送请求
url = 'https://www.example.com/data'
response = requests.get(url, headers=headers)
 
# 检查请求是否成功
if response.status_code == 200:
    # 将获取的数据转换为pandas DataFrame
    data_df = pd.read_html(response.text)[0]  # 假设我们需要第一个表格
 
    # 查看前几行数据
    print(data_df.head())
 
    # 将DataFrame保存到CSV文件
    data_df.to_csv('data.csv', index=False)
else:
    print("请求失败，状态码：", response.status_code)

这段代码使用了requests库来发送HTTP请求，并使用pandas的read_html函数来解析返回的HTML中的表格数据。然后，我们可以使用to_csv方法将数据保存到CSV文件中。这个例子演示了如何使用Python快速抓取网页上的表格数据，并进行基本的数据处理。

python爬虫——抓取表格pandas当爬虫用超简单

评论已关闭

推荐阅读