AI机器学习实战 | 使用 Python 和 scikit-learn 库进行情感分析
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import Perceptron
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd
# 加载情感分析数据集
df = pd.read_csv('data/sentiment_analysis.csv', sep=';')
# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df['Text'], df['Sentiment'], test_size=0.25, random_state=0)
# 创建情感分类器
classifier = make_pipeline(TfidfVectorizer(), Perceptron(n_iter=100))
# 训练模型
classifier.fit(X_train, y_train)
# 预测测试集
y_pred = classifier.predict(X_test)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy*100:.2f}%")
这段代码首先导入了必要的sklearn库,并加载了情感分析的数据集。然后使用train_test_split
函数将数据集分割为训练集和测试集。接着,使用TfidfVectorizer
进行特征提取和Perceptron
进行线性模型训练,并通过make_pipeline
将它们组合成一个pipeline。最后,对模型进行训练,对测试集进行预测,并评估模型性能。
评论已关闭