[Python] 如何使用scikit-learn的preprocessing和impute模块进行数据预处理（数据无量纲化，缺失值填充，对分类型特征编码与哑变量，对连续型特征进行二值化与分段）

作者：System 时间：2024年08月12日分类：所有,elasticsearch 字数：731

这篇文章距离上次修改已过694天，其中的内容可能已经有所变动。




from sklearn import preprocessing
import numpy as np
 
# 假设data_array是你的数据矩阵
data_array = np.array([[1, -1, 2],
                       [2, 0, 3],
                       [0, 1, 4]])
 
# 使用StandardScaler标准化数据
scaler = preprocessing.StandardScaler()
standardized_data = scaler.fit_transform(data_array)
 
# 使用MinMaxScaler归一化数据
scaler = preprocessing.MinMaxScaler()
normalized_data = scaler.fit_transform(data_array)
 
# 使用Imputer填充缺失值
imputer = preprocessing.Imputer(missing_values=0, strategy='mean', axis=0)
imputed_data = imputer.fit_transform(data_array)

这段代码展示了如何使用sklearn.preprocessing模块中的StandardScaler和MinMaxScaler进行标准化和归一化处理，以及如何使用Imputer来填充数据中的缺失值。在实际应用中，你需要根据数据集的特点选择合适的标准化或归一化方法。

[Python] 如何使用scikit-learn的preprocessing和impute模块进行数据预处理（数据无量纲化，缺失值填充，对分类型特征编码与哑变量，对连续型特征进行二值化与分段）

评论已关闭

推荐阅读