爬虫、存储与数据分析:解锁数据价值的强大组合
import requests
import pandas as pd
from bs4 import BeautifulSoup
# 定义一个函数来获取网页内容
def get_html(url):
try:
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
return None
except requests.RequestException:
return None
# 定义一个函数来解析网页并提取需要的数据
def parse_html(html):
soup = BeautifulSoup(html, 'html.parser')
data = []
for row in soup.find_all('tr')[1:]: # 从第二行开始解析,跳过表头
cols = row.find_all('td')
data_row = [elem.text.strip() for elem in cols]
data.append(data_row)
return data
# 定义一个函数来将数据存储到CSV文件中
def save_to_csv(data, filename):
df = pd.DataFrame(data, columns=['日期', '开盘', '收盘', '最高', '最低', '成交量', '成交额'])
df.to_csv(filename, index=False, encoding='utf-8-sig')
# 定义一个主函数来运行整个流程
def main():
url = 'http://example.com/stock-data' # 示例URL,实际应用中需要替换为实际的股票信息网址
html = get_html(url)
parsed_data = parse_html(html)
save_to_csv(parsed_data, 'stock_data.csv')
if __name__ == '__main__':
main()
这个代码示例展示了如何使用Python爬取网页数据,并使用BeautifulSoup进行解析,然后将数据存储到CSV文件中。这个流程是数据分析的常规步骤,并且演示了如何将多个函数组合在一起来完成一个完整的任务。
评论已关闭