python爬虫——抓取表格pandas当爬虫用超简单
import requests
import pandas as pd
# 设置请求头,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送请求
url = 'https://www.example.com/data'
response = requests.get(url, headers=headers)
# 检查请求是否成功
if response.status_code == 200:
# 将获取的数据转换为pandas DataFrame
data_df = pd.read_html(response.text)[0] # 假设我们需要第一个表格
# 查看前几行数据
print(data_df.head())
# 将DataFrame保存到CSV文件
data_df.to_csv('data.csv', index=False)
else:
print("请求失败,状态码:", response.status_code)
这段代码使用了requests
库来发送HTTP请求,并使用pandas
的read_html
函数来解析返回的HTML中的表格数据。然后,我们可以使用to_csv
方法将数据保存到CSV文件中。这个例子演示了如何使用Python快速抓取网页上的表格数据,并进行基本的数据处理。
评论已关闭