[Python] 如何使用scikit-learn的preprocessing和impute模块进行数据预处理(数据无量纲化,缺失值填充,对分类型特征编码与哑变量,对连续型特征进行二值化与分段)
from sklearn import preprocessing
import numpy as np
# 假设data_array是你的数据矩阵
data_array = np.array([[1, -1, 2],
[2, 0, 3],
[0, 1, 4]])
# 使用StandardScaler标准化数据
scaler = preprocessing.StandardScaler()
standardized_data = scaler.fit_transform(data_array)
# 使用MinMaxScaler归一化数据
scaler = preprocessing.MinMaxScaler()
normalized_data = scaler.fit_transform(data_array)
# 使用Imputer填充缺失值
imputer = preprocessing.Imputer(missing_values=0, strategy='mean', axis=0)
imputed_data = imputer.fit_transform(data_array)
这段代码展示了如何使用sklearn.preprocessing
模块中的StandardScaler
和MinMaxScaler
进行标准化和归一化处理,以及如何使用Imputer
来填充数据中的缺失值。在实际应用中,你需要根据数据集的特点选择合适的标准化或归一化方法。
评论已关闭