Python-凯斯西储大学(CWRU)轴承数据解读与分类处理
import numpy as np
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
# 读取CSV文件并进行数据处理
data = pd.read_csv('data/cwru01.csv')
data = data.dropna() # 删除含有NaN的行
data = data.drop(['#time'], axis=1) # 删除带有'#time'标签的列
data = data[data['Bearing'] != 'Not Available'] # 删除'Bearing'不可用的行
data['Bearing'] = data['Bearing'].apply(lambda x: float(x[:-1])) # 将'Bearing'转换为浮点数
# 对类别标签进行编码
le = LabelEncoder()
data['Bearing_class'] = le.fit_transform(data['Bearing_class'])
# 分割数据集为训练集和测试集
X = data[['Bearing', 'Vibration_1', 'Vibration_2', 'Vibration_3', 'Vibration_4', 'Vibration_5', 'Temperature']]
y = data['Bearing_class']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 初始化随机森林分类器
rf = RandomForestClassifier(n_estimators=100, random_state=42)
# 训练模型
rf.fit(X_train, y_train)
# 进行预测
y_pred = rf.predict(X_test)
# 计算分类性能指标
print(rf.score(X_test, y_test)) # 输出模型准确度
这段代码首先导入必要的库,并读取CSV文件。然后,它通过删除NaN值和不可用的数据行来清洗数据集,并将'Bearing'列的数据转换为浮点数。接着,它使用LabelEncoder
对分类变量进行编码,并将数据拆分为特征X和目标y。最后,它使用随机森林分类器进行模型训练和预测,并输出模型的准确度。这个过程是数据处理和机器学习项目中常见的一个流程,值得作为学习材料。
评论已关闭