机器学习之分类算法

如果目标值为类别，则属于分类问题，使用分类算法

1、sklearn转换器和预估器（估计器）

转换器 —特征工程的父类

1）实例化（实例化的是一个转换器类（Transformer））

2）调用fit_transform（对于文档建立分类词频矩阵，不能同时调用）

fit_transform(X) 方法是由 fit() 方法和 transform() 方法封装而成

比如，在标准化的时候，标准化的公式：x’ = (x - mean) / std

fit()方法干的事情就是计算传进去的数据中每一列的标准差和平均值

transform()方法干的事情是将标准差和平均值代入公式( x-mean ) / std，进行最终的转换

关于fit()、transform()、fit_transform()，想要了解更多，可以看一下源码实现！

预估器（estimator）

在sklearn中，所有机器学习的一些算法都被封装到估计器这个父类当中，是一类实现了算法的API

1）实例化一个estimator

2）estimator.fit(x_train, y_train) 将训练集的特征值和目标值传进去、进行计算，相当于在做机器学习的训练，当fit()方法调用完，意味着这个模型已经生成了（训练完毕）。

3）模型评估

方法一：直接比对真实值和预测值

y_predict = estimator.predict(x_test) 把测试集的特征值数据传进去生成相应的目标值预测结果

print(‘直接比对真实值和预测值：\n’, y_test == y_ test_ predict ) —打印True或False的ndarray数组

if np.array_equal(y_test_predict, y_test):

print(“模型预测完全成功”)

方法二：计算准确率

accuracy = estimator.score(x_test, y_test) 将测试集的特征值和目标值传进去计算出accuracy（准确率）

用于分类的估计器

sklearn.neighbors k-近邻算法

sklearn.naive_bayes 贝叶斯

sklearn.linear_model.LogisticRegression 逻辑回归

sklearn.tree 决策树与随机森林

用于回归的估计器

sklearn.linear_model.LinearRegression 线性回归

sklearn.linear_model.Ridge 岭回归

3）用于无监督学习的估计器

sklearn.cluster.KMeans 聚类

2、第一个算法— KNN算法（也叫K-近邻算法）（属于分类算法）

“通过你的邻居判断你的类别”

K—K的取值是一个自然数 N—nearest 最近的 N—neighbor 邻居，机器学习中的一个经典算法

KNN算法最早是在1968年由Cover和Hart提出的一种分类算法

核心思想：根据你的“邻居”来推断你的类别

定义：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

假如我在红色圈圈那个地方，但是我不知道我所在哪个区域（这是一个分类问题），只知道五个人到我的距离和他们所在的区域，那么离我最近的那个人所在的区域很可能就是我所在的区域，这就是KNN算法的思路。

在判断我所在的位置的时候，只选择了一个离我最近的那个人，即K=1，容易受到异常值的影响。K取一个合适的数值，可以有效避免异常值。

如何确定谁是邻居？

计算距离

计算距离的方法：欧氏距离、曼哈顿距离、明可夫斯基距离（是欧氏距离和曼哈顿距离的一个推广），最常用的是欧氏距离。

比如：有两个样本a和b

a的特征值为(a1, a2, a3)，b的特征值为(b1, b2, b3)

那么这两个样本之间的欧氏距离为：

那么这两个样本之间的曼哈顿距离为：

|a1 - b1| + |a2 - b2| + |a3 - b3|

示例：利用KNN算法来进行电影类型分析（预测？电影是什么类型）

当k=1时，？电影离He’s not…电影最近，预测为爱情片

当k=2时，？电影离He’s not…和Beautiful…电影最近，预测为爱情片

——

当k=6时，离？电影最近的 6个电影当中， 3个为爱情片，3个为动作片，无法确定类型

如果在电影列表当中新增一部类型为动作片的电影，当k=7时，离？电影最近的7个电影当中，3个为爱情片，4个为动作片，导致被错分为动作片。

KNN算法存在的问题：

k值取得过小，容易受到异常值的影响

k值取得过大，容易受到样本不均衡的影响

如何在sklearn中使用KNN算法？

API：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm=‘auto’)

Classfier—分类器

n_neighbors：int，可选（默认为5），即K值，一般取奇数

algorithm：{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，按默认auto即可

当我们调用这个API时，默认使用的距离计算方法为欧氏距离，我们进入这个API，p=2默认使用欧氏距离来进行KNN计算寻找最近距离。

示例：鸢尾花种类预测

总体思路：

1）获取数据

2）数据集划分

3）特征工程

标准化

4）KNN预估器流程

5）模型评估

代码：

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler 
from sklearn.neighbors import KNeighborsClassifier 
def knn_iris(): ''' 用KNN算法对鸢尾花进行分类 :return: ''' # 1.获取鸢尾花数据集 iris = load_iris() # 2.数据集划分，test_size是划分测试集数据大小，random_state：选择不同的随机数种子，分到的样本不同，准确率也就不同 x_train, x_test,  y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=22) # 3.进行特征工程：标准化 transfer = StandardScaler() # 调用fit_transform()，fit_transform()封装了fit()和transform() # fit()用于计算，相当于对训练集每个特征求了一个平均值和标准差（见标准化公式），然后进行transform()标准化 x_train_new = transfer.fit_transform(x_train) # 用tranform()对测试集做标准化 # 如果调用fit_transform()相当于又做了一次计算，求测试集的平均值和标准差 # 要求测试集和训练集做一样的处理，所以要用训练集特征中的平均值和标准差来对测试集的特征数据做标准化 x_test_new = transfer.transform(x_test) # 4.实例化一个KNN算法预估器，K值不同，准确率也就可能不同 estimator = KNeighborsClassifier(n_neighbors=3) # 对预估器进行模型训练 estimator.fit(x_train_new, y_train) # 5.模型评估 # 方法一：直接比对真实值和预测值 # 传入测试数据的特征值，得到预测的目标值 y_test_predict = estimator.predict(x_test_new) print('预测的目标值：\n', y_test_predict) print('真实的目标值：\n', y_test) print('直接比对真实值和预测值：\n', y_test == y_test_predict) # 方法二：计算准确率 score = estimator.score(x_test_new, y_test) print('准确率为：\n', score) return None if __name__ == '__main__': # 用KNN算法对鸢尾花进行分类 knn_iris()

结果：

KNN算法总结：

优点：简单，易于理解，易于实现，无需训练

缺点：懒惰算法，对测试样本分类时的计算量大，内存开销大

必须指定K值，K值选择不当则分类精度不能保证

使用场景：小数据场景，几千~几万样本，具体场景具体业务去测试

3、模型选择与调优

交差验证（cross validation,简称CV）

定义：将拿到的训练数据，分为训练和验证集。以下图为例：将数据分成4份，其中一份作为验证集。然后经过四次（组）的测试，每次都更换不同的验证集。即得到4组模型的结果，取平均值作为最终结果。又称4折交叉验证。

训练集：训练集+验证集

测试集：测试集

交叉验证的目的：为了让从训练得到模型结果更加准确

超参数搜索—网格搜索（Grid Search）

目的：对K值进行选择，选择最合适的K值

定义：通常情况下，有很多参数时需要手动指定的（如k-近邻算法中的K值），这种叫超参数。但是手动过程繁杂，所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。

API：sklearn.model_selection.GridSearchCV(estimator, param_grid=None, cv=None, n_jobs=1)

GridSearchCV——网格搜索和交叉验证

estimator：估计器对象，比如对KNN算法加上网格搜索交叉验证功能，就把实例化后的KNN算法预估器传进来

param_grid：将想要试的超参数以字典的形式传进来，比如K的取值为[1, 3, 5]，则param_grid = {“n_neighbors”:[1, 3, 5]}

cv：指定几折交叉验证，即如果要校验哪个K值好，那么每检验一个K值要进行几次交叉验证，使得出来的结果更准确，一般设置十折交叉验证。

n_jobs：代表为用几个CPU来跑这个模型，默认为1，如果为-1代表CPU满负荷运行，（不建议设为-1，伤电脑）

返回值：sklearn.model_selection._search.GridSearchCV

这个API的返回值也相当于是继承自预估器的一个类，所以使用时和预估器的使用是一样的

GridSearchCV.fit()：输入训练数据

GridSearchCV.score()：计算准确率

GridSearchCV.fit()训练之后，可以查看结果分析：

GridSearchCV类中包含的字段（field），直接调用，不需要括号

最佳参数：best_params_

最佳结果：best_score_

最佳估计器：best_estimator_

交叉验证结果：cv_results_

示例1：给上述鸢尾花种类预测案例增加K值调优

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import StandardScaler 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_selection import GridSearchCV def knn_iris_gscv(): ''' 用KNN算法对鸢尾花进行分类，添加网格搜索和交叉验证 :return: ''' # 1.获取鸢尾花数据集 iris = load_iris() # 2.数据集划分 x_train, x_test,  y_train, y_test = train_test_split(iris.data, iris.target, random_state=22) # 3.进行特征工程：标准化 transfer = StandardScaler() x_train_new = transfer.fit_transform(x_train) x_test_new = transfer.transform(x_test) # 4.实例化一个KNN算法预估器，没有传入K值(即n_neighbors这个参数) estimator = KNeighborsClassifier() # 加入网格搜索和交叉验证， 用于选择最合适的K值，使得训练所得的模型用来测试时，准确率更高 # 参数准备，手动设置一个多K值列表的字典 param_dict = {'n_neighbors':[1, 3, 5, 7, 9, 11]} estimator = GridSearchCV(estimator, param_grid=param_dict, cv=10) estimator.fit(x_train_new, y_train) # 5.模型评估 # 方法一：直接比对真实值和预测值 y_test_predict = estimator.predict(x_test_new) print('预测的目标值：\n', y_test_predict) print('直接比对真实值和预测值：\n', y_test == y_test_predict) # 方法二：计算准确率，求得是测试集在训练集中的结果 score = estimator.score(x_test_new, y_test) print('准确率为：\n', score) # 最佳参数：best_params_ print("最佳参数：\n", estimator.best_params_) # 最佳结果：best_score_，交叉验证是对训练集进行划分 # 一部分用于训练，一部分用于验证，最佳结果求得是训练部分在验证部分的结果 print("最佳结果：\n", estimator.best_score_) # 最佳估计器：best_estimator_ print("最佳估计器：\n", estimator.best_estimator_) return None if __name__ == '__main__': knn_iris_gscv()

结果：

示例2：预测facebook签到位置（Kaggle上的一个比赛）

先略，晚点补上！！！

4、第二个算法— 朴素贝叶斯算法（属于分类算法）

概率基础

案例：已知小明时产品经理，体重超重，是否会被女神喜欢？二分类问题

1、P(喜欢) = 4/7

2、P(程序员，匀称) = 1/7 联合概率

3、P(程序员|喜欢) = 2/4 = 1/2 条件概率

4、P(程序员，超重|喜欢)= 1/4 既符合联合概率，也符合条件概率

利用贝叶斯公式来计算小明被喜欢的概率：

P(喜欢|产品经理，超重) =

分子：P(产品经理，超重|喜欢) * P(喜欢)

分母：P(产品经理，超重) = ？，按正常逻辑来说，这里的分母为0，因为不存在既是产品经理，体重又超重的样本，但是利用朴素贝叶斯算法，为什么称朴素？因为朴素贝叶斯算法假设特征与特征之间是相互独立的，即P(产品经理，超重) = P(产品经理) * P(超重)，因此可以计算出小明被女神喜欢的概率。

小明被女神喜欢的概率为 7/12

联合概率、条件概率与相互独立

联合概率：包含多个条件，且所有条件同时成立的概率

记作：P(A, B)

条件概率：就是事件A在另外一个事件B已经发生条件下的发生概率

记作：P(A|B)

相互独立：如果P(A, B) = P(A)P(B)，则称事件A与事件相互独立

朴素贝叶斯公式：

（注：W为给定文档的特征值(频数统计，预测文档提供)，C为文档类别）

朴素贝叶斯，之所以朴素，就在于假设了特征与特征之间是相互独立的

朴素贝叶斯算法原理：

朴素+贝叶斯

应用场景：

文本分类

朴素贝叶斯应用在文本分类中的公式为：

其中C为不同文本类别

公式分为三个部分：

P©：每个文档类别的概率（某文档类别数/总文档数量）

P(W|C)：给定文本类别下特征（被预测文档中出现的词）的概率

计算方法：P(F1|C) = Ni / N

Ni为该F1词在C类别所有文档中出现的次数

N为所属类别C下的文档所有词出现的次数和

P(F1, F2, …)：预测文档中每个词的概率

示例：预测测试集属于哪个文本分类

利用朴素贝叶斯在文本分类中的公式来计算：

P(China类 | Chinese, Chinese, Chinese, Tokyo, Japan) =

分子： P(Chinese, Chinese, Chinese, Tokyo, Japan | China类) * P(China类)

= P(Chinese | China类)^3 * P(Tokyo| China类) * P(Japan | China类) * P(China类)

= 5/8^3 * 0 * 0 * 3/4 （没有引入拉普拉斯平滑系数）

= (5 + 1)/(8 + 6)^3 * (0 + 1) / (8 + 6) * (0 + 1) / (8 + 6) * 3/4 (引入拉普拉斯平滑系数，都需要引入)

≈ 0.06

注意P(Chinese | China类)的计算方法！！！

P(Chinese | China类) ≠ 1 而＝5/8，在China类里面出现了8个词，有5个词为Chinese。P(Tokyo | China类) = 0/8，样本量太少，在China类中没有出现Tokyo这个词，这样会导致整个结果为0，而要测试集的文本中出现了3次Chinese，结果极可能为China类，概率为0显然不符合我们的预期。

遇到概率值为0的情况怎么办？

引入拉普拉斯平滑系数，，目的：防止计算出的分类概率为0。α为指定的系数一般为1，m为训练文档中统计出的特征词个数（即训练集有多少种特征词，不是特征词出现的次数和）。

分母： P(Chinese, Chinese, Chinese, Tokyo, Japan)

= P(Chinese) * P(Chinese) * P(Chinese) * P(Tokyo) * P(Japan)

分母和下面的非China类的分母相同，不需要求

P(非China类 | Chinese, Chinese, Chinese, Tokyo, Japan) =

分子：P(Chinese, Chinese, Chinese, Tokyo, Japan | 非China类) * P(非China类)

同上面分子的求法

分母：P(Chinese, Chinese, Chinese, Tokyo, Japan)

求出分子之后，比较一下，即可知道被测试的文本属于哪个文本分类

如何在Sklearn中使用朴素贝叶斯算法？

API：sklearn.naive_bayes.MultinomialNB(alpha=1.0)

naive：天真的（朴素） bayes：贝叶斯 MultinomialNB：朴素贝叶斯的一个方法

alpha：拉普拉斯平滑系数，默认为1.0

sklearn中的机器学习流程基本上都是一样的，即实例化一个预估器，然后调用fit()进行训练。

示例：20类新闻分类

1）获取数据，数据集为sklearn中自带的新闻数据集

2）划分数据集

3）特征工程：文本特征抽取

4）朴素贝叶斯预估器流程，训练好了之后有了模型

5）模型评估

代码：

from sklearn.datasets import fetch_20newsgroups 
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.naive_bayes import MultinomialNB def nb_news(): ''' 用朴素贝叶斯算法对新闻进行分类 :return: ''' # 1）获取数据集 news = fetch_20newsgroups(data_home="D:\PythonWorkSpace\机器学习\scikit_learn_data", subset='all') # 2）数据集划分 x_train, x_test, y_train, y_test = train_test_split(news.data, news.target) # 3）特征工程：文本特征抽取—tf-idf transfer = TfidfVectorizer() x_train_new = transfer.fit_transform(x_train) x_test_new = transfer.transform(x_test) # 4）朴素贝叶斯算法预估器流程 estimator = MultinomialNB(alpha=1.0) estimator.fit(x_train_new, y_train) # 5）模型评估 # 方法一：直接比对真实值和预测值 y_test_predict = estimator.predict(x_test_new) print('预测的目标值：\n', y_test_predict) print('直接比对真实值和预测值：\n', y_test == y_test_predict) # 方法二：计算准确率，求得是测试集在训练集中的结果 score = estimator.score(x_test_new, y_test) print('准确率为：\n', score) if __name__ == '__main__': nb_news()

结果：fetch_20newsgroups()，下载数据集

总结：

优点：发源于古典数学原理，有稳定的分类效率

对缺失数据不太敏感，常用于文本分类

分类准确率高，速度快

缺点：由于假定特征与特征之间相互独立，所以如果特征和特征之间有关联的话，效果就不会太好。

5、决策树（属于分类算法）

最早的决策树就是利用if-else结构分割数据的一种分类学习方法

理解：

如果是公务员还要看收入，如果收入高则看长相，如果长相好还要看年龄，如果年龄不合适（即使是公务员、收入高、长相好）直接就不见，因此，女孩最看重的是年龄。

决策树分类原理详解：

已知一个人的四个特征，预测是否贷款给这个人，根据什么条件来判断给不给某个人贷款更合适？

先看是否有房子，再看是否有工作，—看了两个特征，可以决定是否贷款给这个人。

先看年龄，再看信贷情况，再看是否有工作—看了三个特征，不高效

如何找到一个数学方法让计算机自动地进行判断应该先看哪个特征后、看哪个特征，从而很快速的得出预测结果（即如何找到一个更高效的决策顺序）？

要使用到信息论的基础知识：信息熵(shang) ，信息增益

信息论中信息的定义：消除随机不定性的东西（称“香农定义”）

信息的衡量 — 信息熵（消除不定性的东西有多少，即得到的信息有多少）

信息熵的定义：H的专业术语，单位为比特

信息熵公式：

信息熵公式理解：总共有n个样本，要想计算n个样本的信息熵的话，就从第一个算到第n个，每一个样本都有一个可能性概率P(xi)，用概率乘以一个对数log b P(xi)，以b为底（b值可以自己定，一般取2为底）

假设现在来了一个人（年龄、工作、房子、信贷情况未知），即没有掌握这个人的信息

贷款情况：15个人里面有6个否，9个是。

求总的信息熵：H(总) = -(6/15 * log 2 (6/15) + 9/15 * log 2 (9/15)) ≈ 0.971 （结果即为总的不确定性）

当知道这个人的年龄（青年人），不确定性就会减少，如果能求出当知道某个特征之后不确定性减少的程度，再比较其他不确定性减少的程度，减少程度最多的就可以优先作为决策构建决策树。

信息增益的定义：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差。即（已知某个特征，不确定性减少的程度，减少的程度最多的最先关注）——信息增益是决策树的划分依据之一。

信息增益公式：g(D,A) = H(D) - H(D|A)

信息增益公式理解：总的信息熵减去已知某个特征的条件下的信息熵，即为信息增益。

条件熵公式：

g(D,年龄) = H(D) - H(D | 年龄)

H(D | 青年) = -(2/5 * log 2 (2/5) + 3/5 * log 2 (3/5))

H(D | 中年) = -(2/5 * log 2 (2/5) + 3/5 * log 2 (3/5))

H(D | 老年) = -(1/5 * log 2 (2/5) + 4/5 * log 2 (4/5))

H(D | 年龄) = 1/3 H(青年) + 1/3 H(D | 中年) + 1/3 H(D | 老年)

所以g(D, 年龄) = 0.313

我们以A1、A2、A3、A4代表年龄、有工作、有自己的房子和贷款情况、最终计算的结果g(D | A1) = 0.313、g(D | A2) = 0.324、g(D | A3) = 0.420、g(D | A4)= 0.363，所以我们选择A3作为划分的第一个特征，这样我们就可以一棵树慢慢建立。

如何在sklearn中使用？

决策树API：sklearn.tree.DecisionTreeClassifier(criterion=‘gini’, max_depth=None, random_state=None)

criterion：默认是"gini"系统，也可以选择信息增益的熵“entropy”

max_depth：树的深度大小

random_state：随机数种子

示例1：鸢尾花示例

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.tree import DecisionTreeClassifier def decision_iris(): """ 用决策树对鸢尾花进行分类 :return: """ # 1）获取数据集 iris = load_iris() # 2）数据集划分 x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22) # 3）使用决策树预估器进行分类 estimator = DecisionTreeClassifier(criterion='entropy') estimator.fit(x_train, y_train) # 4）模型评估 # 方法一：直接比对真实值和预测值 y_test_predict = estimator.predict(x_test) print('预测的目标值：\n', y_test_predict) print('直接比对真实值和预测值：\n', y_test == y_test_predict) # 方法二：计算准确率，求得是测试集在训练集中的结果 score = estimator.score(x_test, y_test) print('准确率为：\n', score) if __name__ == '__main__': decision_iris()

结果：

总结：比对之前的用KNN算法来判断鸢尾花种类的结果

发现准确率下降了3个百分点，因为KNN算法在小数据场景，准确率比较高

决策树可视化：

保存树的结构到dot文件：

API：sklearn.tree.export_graphviz(estimator, out_file=‘tree.dot’, feature_names=[’’, ‘’]) 该函数能导出DOT格式

estimator：传入预估器

out_file：导出树的文件名

feature_names：特征名

在上面的代码中，添加如下代码即可：

from sklearn.tree import export_graphviz 
# 可视化决策树 
export_graphviz(estimator, out_file='iris_tree.dot')

导出的是文本文件，如下：

digraph Tree { 
node [shape=box] ; 
0 [label="X[2] <= 2.45\nentropy = 1.584\nsamples = 112\nvalue = [39, 37, 36]"] ; 
1 [label="entropy = 0.0\nsamples = 39\nvalue = [39, 0, 0]"] ; 
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ; 
2 [label="X[3] <= 1.75\nentropy = 1.0\nsamples = 73\nvalue = [0, 37, 36]"] ; 
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ; 
3 [label="X[2] <= 5.05\nentropy = 0.391\nsamples = 39\nvalue = [0, 36, 3]"] ; 
2 -> 3 ; 
4 [label="X[3] <= 1.65\nentropy = 0.183\nsamples = 36\nvalue = [0, 35, 1]"] ; 
3 -> 4 ; 
5 [label="entropy = 0.0\nsamples = 34\nvalue = [0, 34, 0]"] ; 
4 -> 5 ; 
6 [label="X[2] <= 4.75\nentropy = 1.0\nsamples = 2\nvalue = [0, 1, 1]"] ; 
4 -> 6 ; 
7 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 0, 1]"] ; 
6 -> 7 ; 
8 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ; 
6 -> 8 ; 
9 [label="X[0] <= 6.05\nentropy = 0.918\nsamples = 3\nvalue = [0, 1, 2]"] ; 
3 -> 9 ; 
10 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ; 
9 -> 10 ; 
11 [label="entropy = 0.0\nsamples = 2\nvalue = [0, 0, 2]"] ; 
9 -> 11 ; 
12 [label="X[2] <= 4.85\nentropy = 0.191\nsamples = 34\nvalue = [0, 1, 33]"] ; 
2 -> 12 ; 
13 [label="entropy = 0.0\nsamples = 1\nvalue = [0, 1, 0]"] ; 
12 -> 13 ; 
14 [label="entropy = 0.0\nsamples = 33\nvalue = [0, 0, 33]"] ; 
12 -> 14 ; 
}

要想可视化看到树，打开下列网站： http://webgraphviz.com/（如果无法Generate Gragh请使用科学上网工具）

将上面导出的.dot文件内容复制到网站文本框，点击Generate Gragh即可生成可视化决策树，如下：

不明白X[2]，X[3]含义是什么，因为没有传入feature_names，设置feature_names参数即可

export_graphviz(estimator, out_file='iris_tree.dot', feature_names='iris.feature_names')

决策树总结：

优点：可以可视化——可解释能力强

缺点：如果max_depth不设置，并且数据量的特征很多，那么树就会分常长，容易产生过拟合

改进：减枝cart算法（决策树API当中已经实现，随机森林参数调优有相关介绍）

随机森林

示例2：泰坦尼克号乘客生存预测

数据： http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

可直接下载附件：

titanic.csv

数据集中的特征名(feature_names)：

|:----|:----|:----|:----|:----|:----|:----|:----|:----|:----|

数据集中的目标：是否能存活下来（1代表存活，0代表死亡）

|survived |

|:----|

选取可能影响目标值的特征：pclass（1、2、3对应乘客所在值1、2、3对应乘客所在舱位————头等舱、二等舱、平民舱，社会经济阶层的代表社会经济阶层的代表），age（年龄，存在缺失值，有缺失值）、sex（性别）

流程分析：

1）获取数据

2）数据处理

缺失值处理

特征值转换为字典类型

3）划分数据集

4）特征工程：字典特征抽取

5）决策树预估器流程

6）模型评估

代码（Jupyter notebookj）：

import pandas as pd 
# 1、获取数据 
path = 'titanic.csv' 
titanic = pd.read_csv(path) # 筛选特征值和目标值 
x = titanic[['pclass', 'sex', 'age']] 
y = titanic['survived'] # 2、数据处理 
# 1）缺失值处理,缺失处填入平均值 
x['age'].fillna(x['age'].mean(), inplace=True) # 2）特征值转换为字典 
x = x.to_dict(orient='records')

部分截图

from sklearn.model_selection import train_test_split 
# 3、数据集划分 
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=22) 
# 4、特征工程：字典特征抽取 
from sklearn.feature_extraction import DictVectorizer 
transfer = DictVectorizer() 
x_train_new = transfer.fit_transform(x_train) 
x_test_new = transfer.transform(x_test)

x_train_new为sparse矩阵，查看特征名，pclass有三个，sex有两个，age有一个

from sklearn.tree import DecisionTreeClassifier, export_graphviz 
# 5、使用决策树预估器 
estimator = DecisionTreeClassifier(criterion='entropy') 
estimator.fit(x_train_new, y_train) 
# 6、模型评估 
# 方法一：直接比对真实值和预测值 
y_test_predict = estimator.predict(x_test_new) 
print('预测的目标值：\n', y_test_predict) 
print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
# 方法二：计算准确率，求得是测试集在训练集中的结果 
score = estimator.score(x_test_new, y_test) 
print('准确率为：\n', score) 
# 可视化决策树 
export_graphviz(estimator, out_file='titanic_tree.dot', feature_names=transfer.get_feature_names())

结果：

将生成的titanic_tree.dot文件内容复制到 http://webgraphviz.com/，即可生成决策树

会发现决策树太冗余，那么可以通过设置max_depth来决定决策树的分枝数量。

estimator = DecisionTreeClassifier(criterion='entropy', max_depth=5)

结果：

准确率提高了1个百分点，而且决策冗余也去掉了。

6、随机森林（属于分类算法）——集成学习方法之一

随机：

两个随机：

训练集随机—N个样本中随机有放回的抽样N个

采用bootstrap方法——随机有放回抽样

在[1,2,3,4,5]中抽取一个数，第一次可能抽到2，然后放回2，第二次可能还会抽到二，比如生成了一个新的树的训练集[2,2,3,1,5]

特征随机—从M个特征中随机抽取m个特征

要求：M 远大于m（可以起到降维作用）

森林：包含多个决策树的分类器

如何在sklearn中使用随机森林？

API：sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion=‘gini’, max_depth=None, bootstrap=True, random_state=None, min_samples_split=2)

随机森林分类器

n_estimators：integer，optional，默认为10，森林里的树木数量，可选值[120, 200, 300, 500, 800, 1200]

criterion：string，可选，默认为gini系数，分割特征的测量方法，也可以选择为entropy（即信息增益）

max_depth：integer或None，可选，默认为无，设置每棵决策树的最大深度，可选值[5, 8, 15, 25, 30]

max_features=‘auto’：每个决策树的最大特征数量，即如何生成m

如果为’auto’，则对M（即全部特征）开平方根得到m，即max_features = sqrt(n_features)

如果为’sqrt’，则对M（即全部特征）开平方根得到m，即max_features = sqrt(n_features)，和auto相同

如果为’log2’，max_features = log2(n_features)

如果为None，那么max_features = n_features

bootstrap：boolean，optional，默认为true，是否在构建树时使用随机有放回抽样方法\

因为有些参数可以设置，所以可以网格搜索和交叉验证进行调参，提高准确率

示例：在上面jupyter notebook代码中使用随机森林方法对泰坦尼克号乘客生存进行预测

代码：

from sklearn.ensemble import RandomForestClassifier 
from sklearn.model_selection import GridSearchCV 
# 实例化一个随机森林预估器 
estimator = RandomForestClassifier() 
# 模型选择与调优，加入网格搜索和交叉验证 
# 参数准备，随机森林预估器要调优的参数n_estimators，max_depth 
param_dict = {'n_estimators':[120, 200, 300, 500, 800], 'max_depth':  [5, 8, 15, 25, 30]} 
estimator = GridSearchCV(estimator, param_grid=param_dict, cv=3) 
estimator.fit(x_train_new, y_train) 
# 模型评估 
# 方法一：直接比对真实值和预测值 
y_test_predict = estimator.predict(x_test_new) 
print('预测的目标值：\n', y_test_predict) 
print('直接比对真实值和预测值：\n', y_test == y_test_predict) 
# 方法二：计算准确率，求得是测试集在训练集中的结果 
score = estimator.score(x_test_new, y_test) 
print('准确率为：\n', score) 
# 最佳参数：best_params_ 
print("最佳参数：\n", estimator.best_params_) 
# 最佳结果：best_score_，交叉验证是对训练集进行划分 
# 一部分用于训练，一部分用于验证，最佳结果求得是训练部分在验证部分的结果 
print("最佳结果：\n", estimator.best_score_) 
# 最佳估计器：best_estimator_ 
print("最佳估计器：\n", estimator.best_estimator_) 
# 交叉验证结果：cv_results_ 
print("交叉验证结果：\n", estimator.cv_results_)

结果（部分截图）：

总结：

在四种分类算法中，具有很好的准确率

适合运行在大数据集上，特别是在处理高维特征的样本，因为随机森林预估器默认max_features为auto，即全部特征的开平方根，相当于降维了

学习大纲：

查看全文
如若内容造成侵权/违法违规/事实不符，请联系编程学习网邮箱：809451989@qq.com进行投诉反馈，一经查实，立即删除！

如何为游戏插上人工智能的翅膀？
导读：AI技术已经成为提升游戏整体体验的利器，如何让中小游戏企业也能获得这个利器？2018年的电影《头号玩家》满足了很多玩家对游戏的完美想象。电影中的游戏用到了很多AI黑科技，让人们每天沉浸在精彩的虚拟世界中不能自拔。现实生活中的游戏虽然没有那么炫酷和沉浸，但AI技…...
2024/4/26 7:00:04
hw小技巧
小弟也第一次参加hw，经过5天hw，确实也学到了许多的东西，但就本次分享而言，我分享一些我认为在hw里面值得注意的东西以及一些小技巧一.信息收集信息收集这个多西当然都是老生常谈了，你收集的东西越多，能打的方向也就越多，当然,hw给你打的资源的格式一般为单位名称，系统…...
2024/3/15 10:54:07
八.SpringCloud源码剖析-Eureka Server初始化流程
系列文章目录一.SpringCloud源码剖析-Eureka核心API 二.SpringCloud源码剖析-Eureka Client 初始化过程三.SpringCloud源码剖析-Eureka服务注册四.SpringCloud源码剖析-Eureka服务发现五.SpringCloud源码剖析-Eureka Client服务续约六.SpringCloud源码剖析-Eureka Client取…...
2024/4/22 14:40:14
div水平垂直居中的六种方法
div水平垂直居中的六种方法在平时，我们经常会碰到让一个div框针对某个模块上下左右都居中（水平垂直居中），其实针对这种情况，我们有多种方法实现。方法一:绝对定位方法：不确定当前div的宽度和高度，采用 transform: translate(-50%,-50%); 当前div的父级添加相对定位（pos…...
2024/4/5 9:45:11
关于搜索建议词的分析以及相应的优化方案
1. 背景不管是全文搜索引擎，还是垂直搜索系统中，当用户在搜索🔍输入框中输入几个字的时候，会自动下来一些词去自动补全用户可能要搜的词语，这部分的功能，我们称作搜索建议器的功能（英文叫做"suggest"）。本文将介绍下目前主流的搜索建议器的做法，并且给出了…...
2024/4/22 7:36:49
AOP使用
@Aspect @Component public class ServiceLogAspect {public static final Logger log =LoggerFactory.getLogger(ServiceLogAspect.class);/*** AOP 通知：* 1. 前置通知：在方法调用之前进行执行* 2. 后置通知：在方法正常调用之后执行* 3. 环绕通知：在方法调用前后进行通…...
2024/4/23 14:37:03
九月事务总结
自从疫情之后，在家其实啥也没学，在农村也就觉得自己的生活也就这样了，想着大学上完找个人嫁了就行了，但是在家玩游戏总是有一种罪恶感，总是觉得自己少了点什么东西，好像是没有灵魂的躯壳，我家里学习的环境其实特别不好，根本没地方学习，妈妈老是叫我帮她忙，作饭，扫地…...
2024/4/19 13:21:03
1. Java及JVM简介
文章目录Java及JVM简介1. Java-跨平台的语言2. JVM-跨语言的平台3. 字节码4. 多语言混合编程5. Java发展的重大事件6. 虚拟机与Java虚拟机6.1 虚拟机6.2 Java虚拟机6.3 JVM的位置☆ Java及JVM简介如果我们把Java核心类库的 API 比做数学公式的话，那么Java虚拟机的知识就好比公…...
2024/4/27 23:12:39
Seata解析-TC处理全局事务和分支事务原理详解之分支状态报告请求和全局事务报告请求
本文基于seata 1.3.0版本本文接文章《Seata解析-TC处理全局事务和分支事务原理详解之全局事务开启和分支事务注册》继续介绍TC对请求的处理。本文将介绍分支状态报告请求和全局事务报告请求。文章目录一、分支状态报告请求二、全局事务报告请求1、提交全局事务2、回滚全局事务…...
2024/4/23 18:08:26
整合thymeleaf+spring-security
整合thymeleaf+spring-security 学习记录 thymeleaf+spring-security整合`thymeleaf+spring-security` 学习记录动态登陆状态跟据权限动态显示:我的`SecurityConfig` :报错:我的 `UserController`登陆页面(`login.html`)相关源码(`HttpSecurity.java`)的注释: <!--在pom.xml…...
2024/4/22 7:25:09
过滤器，监听器，拦截器
最近被这几个概念搞的很混，刚好今天有时间就缕一缕。下面都是我参考过的博客：参考-1-springBoot(6)—过滤器，监听器，拦截器参考-2-springboot 整合 ServletRequestListener监听器参考-3-过滤器，拦截器，监听器的配置与说明以下个人总结，纯属个人笔记，有问题请指出过…...
2024/4/26 5:28:23
Javaweb基础学习总结(1) —— 一些需要掌握的基本概念
1.基本概念 1.1 前言 web开发web：即网页，所以web开发就是网页开发 web(网页)资源分为两种静态web/网页HTML+CSS+JavaScript(伪动态) 提供给所有人看，数据、内容始终不会发生变化，比如某些官网动态web/网页提供给所有人看，数据、内容始终会发生变化，每个人在不同事件和地点…...
2024/4/24 5:34:07
编程语言这么多，偏偏C语言成了大学的必修课！就因为二级吗？
“我不是学计算机的，为啥要学C语言？”如果把学C语言的精力用来学学其它与专业相关度更高的东西，是不是会更好呢？既然如此，干嘛还学C语言呢？大学里除了要拿到“毕业证”和“学位证”以外，还要过“四级”和“二级”，否则可能会被扣发两证，或找工作受阻，难以“落户”等。…...
2024/4/24 10:22:28
进击的小程序：品牌自营GMV同比增长210%，这些行业增速最快……
今年已过大半，回顾2020，日活达4亿的小程序商业表现如何？又释放了哪些关键能力？ 2020腾讯全球数字生态大会微信专场上，微信团队首次盘点了今年以来，小程序的商业化表现和关键能力，并带来几个重要信号：小程序正加速完善自身商业化闭环的能力，小程序生态也将进入到一个开…...
2024/4/24 5:36:07
骑手困在系统里，网友困在回应里，而王兴正在刷饭否
文 | 陈浩然来源 | 螳螂财经（ID:TanglangFin）9月8日下午，一篇《外卖骑手，困在系统里》的文章刷屏。美团小哥告诉记者：“平台算法引导逆行”、“按直线距离规划送餐时间，完不成就罚款”，引爆了全网的愤怒。但你永远叫不醒一个装睡的人，更何况铁憨憨饿了么先醒了。9日凌晨…...
2024/4/26 4:30:07
微型计算机基础理论——计算机中的数制及其应用
微型计算机基础概论一、前言二、微型计算机系统计算机的发展历程1.电子管计算机时代（1946~1956年）2.晶体管计算机时代（1957~1964年）3.中小规模集成电路计算机时代（1965~1970年）4.大、超大规模集成电路计算机时代（1971年至今）计算机系统组成硬件系统主机系统微处理器（…...
2024/4/21 6:29:01
Parity & Friends Meetup ｜Crust 如何玩转 Substrate
Crust 实现了去中心化存储的激励层协议，适配包括 IPFS 在内的多种存储层协议，并对应用层提供支持。同时 Crust 的架构也有能力对去中心化计算层提供支持，构建分布式云生态。Crust Network 团队于 8 月 27 日在 **Parity 主办的「Parity & Friends Meetup 」上做客，围绕…...
2024/4/4 13:58:31
python中定时任务使用
python中定时任务使用文章目录python中定时任务使用一、简介二、知识点2.1 文档官网地址2.2 安装2.3 组合2.3.1 作业2.3.2 作业存储2.3.4 调度器2.2.5 执行器2.3.6 触发器2.3.6 监听器2.4 核心函数2.5 开发步骤三、示例3.1 常规示例3.2 任务操作及监听器示例一、简介 python中…...
2024/3/15 10:53:50
Nmap快速信息收集及探测
文章目录1.主机探测1.1 主机探测原理1.2 主机探测实例（sn就完事了）2.端口扫描2.1 端口扫描原理2.2 端口扫描实例2.2.1探测某IP地址，Tcp/Udp端口是否开放2.2.2 快速扫描开放端口3.快速信息收集3.1收集版本号及端口号3.2收集网关路由3.3探测防火墙状态3.4使用他人IP进行扫描4.…...
2024/4/15 16:30:47
GAN·生成对抗网络——札记2-读《生成式对抗网络 GAN 的研究进展与展望》
Generative Adversarial Networks——生成对抗网络（GAN）的基本思想源自：博弈论的二人零和博弈（即：游戏双方的利益之和为零，一方所得正是一方所失。类似矛和盾的相辅相成，周伯通的左右手互博，假钞罪犯和辩钞警察魔道相抗）；其由两部分组成：判别器 (Discriminator)：功…...
2024/4/26 1:28:27

机器学习之分类算法

相关文章

最新文章