基于机器学习的公司投资决策的多项式线性回归模型_基于机器学习的投标可行性分析模型研究-CSDN博客

本文链接：https://blog.csdn.net/Cpythonjavamacos/article/details/144379270

在这篇博客中，我们将通过一个线性回归模型，使用Python和Scikit-learn库来预测创业公司的利润。我们将使用一个包含50家创业公司数据的CSV文件，来预测它们的利润，并可视化实际与预测结果的对比。

1. 数据集介绍(取自网络)

我们使用的datastes.csv数据集包含了50家创业公司的不同属性。具体来说，每一行代表一家公司的数据，包含以下列：

R&D Spend: 研发支出
Administration: 行政支出
Marketing Spend: 市场营销支出
State: 公司所在的州（纽约、加利福尼亚、佛罗里达）
Profit: 利润（我们需要预测的目标变量）

数据集部分示例：

R&D Spend	Administration	Marketing Spend	State	Profit
165349.2	136897.8	471784.1	New York	192261.83
162597.7	151377.59	443898.53	California	191792.06
153441.51	101145.55	407934.54	Florida	191050.39
144372.41	118671.85	383199.62	New York	182901.99
142107.34	91391.77	366168.42	Florida	166187.94
131876.9	99814.71	362861.36	New York	156991.12

2. 数据预处理

首先，我们需要导入数据并进行一些预处理。在数据集中，State列是分类变量，需要进行热编码处理，以便将其转换为适合机器学习模型的数值格式。
这里与简单线性回归模型不同的是：

不需要进行特征处理
需要对地区进行热编码

import numpy as np
import pandas as pd
import matplotlib
matplotlib.use('TkAgg')
import matplotlib.pyplot as plt
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

# 读取数据集
datasets = pd.read_csv('./datasets.csv')

# 特征与标签分离
X = datasets.iloc[:,:-1].values
Y = datasets.iloc[:,-1].values

# 热编码处理州列（State）
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [3])], remainder='passthrough')
X = np.array(ct.fit_transform(X))

在这段代码中，我们使用了ColumnTransformer和OneHotEncoder将State列进行热编码。热编码的作用是将分类变量转换为二进制变量，从而使其适应机器学习算法。

3. 拆分数据集

接下来，我们将数据集分为训练集和测试集。训练集用于训练模型，测试集用于评估模型的性能。

# 拆分数据集
x_train, x_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=1)

在这个例子中，我们使用了80%的数据进行训练，20%的数据用于测试模型。random_state=1确保每次拆分都一致。如果你的数据集不够多，可以不进行这一步。

4. 训练线性回归模型

我们使用线性回归算法来建立预测模型。线性回归试图找到输入特征与目标变量（利润）之间的线性关系。

# 创建线性回归模型
lr = LinearRegression()

# 训练模型
lr.fit(x_train, y_train)

5. 预测与可视化结果

训练完成后，我们可以使用模型进行预测。接着，我们将预测结果与实际的测试数据进行比较，并通过图表显示出来。

# 进行预测
y_pred = lr.predict(x_test)

# 设置打印精度
np.set_printoptions(precision=2)

# 绘制图表
plt.plot(y_test, color='red', label='test')
plt.plot(y_pred, color='blue', label='predict')
plt.legend()
plt.show()