基于Python的多元线性回归及其应用
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# 读取数据
dataset = pd.read_csv('50_Startups.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, 4].values
# 划分数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
# 特征缩放
from sklearn.preprocessing import StandardScaler
sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)
# 使用LinearRegression进行训练
regressor = LinearRegression()
regressor.fit(X_train, y_train)
# 预测测试集结果
y_pred = regressor.predict(X_test)
# 评估模型性能
print(f'Mean Squared Error: {mean_squared_error(y_test, y_pred)}')
# 输出模型参数
print('Model intercept:', regressor.intercept_)
print('Model coefficients:', regressor.coef_)
这段代码首先导入必要的Python库,并加载数据集。接着,使用train_test_split
函数划分数据集。然后,使用StandardScaler
对训练集进行特征缩放。接下来,创建一个LinearRegression
对象,并用训练数据集拟合模型。最后,使用测试集来预测并评估模型性能,打印出均方误差和模型参数。这个过程是进行多元线性回归分析的标准流程。
评论已关闭