机器学习相关概念及其相关算法概述
一.相关概念
1.有监督和无监督学习
- 监督学习(有监督学习)是对有标签数据训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习算法。
- 无监督学习(非监督式学习)是对没有标签的数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习算法。
2.分类和回归
- 分类是预测样本属于哪个类别。
- 回归是预测样本目标字段的数值。
3.数据集和特征
- 数据集是预测系统的原材料,用于训练机器学习模型的历史数据。
- 特征是描述数据集中每个样本的属性,有时候也被称为“字段。
4.特征工程
- 特征工程是创建预测模型之前的过程,在这个过程中我们将对数据的特征进行分析、清理和结构化。
5.过拟合与欠拟合
欠拟合
当机器学习算法无法捕获数据的潜在趋势时,可以看成当模型或算法无法很好地拟合数
据时,会发生欠拟合。
过拟合
当数据中存在大量噪声并被机器学习算法捕获时,可以看成当模型或算法对训练数据拟
合得“太好”时,会发生过拟合。
二.线性模型
- 概念
- 线性模型并不是指某一种算法,而是一类算法的统称。线性模型虽然已经存在了很长时间,但如今仍然是使用最多的算法之一。
优缺点
- 该类算法性能表现优越,即便是在超大型数据集中,训练速度也非常快
- 原理易于理解
线性模型的基本公式
- 线性模型包括线性回归、套索回归、岭回归、逻辑回归和线性支持向量机等。
- 线性模型的基本公式如下:
- eg:
- 假设某个数据集中的样本都只有1个特征,则线性模型可以表示为:ŷ = w·x+b
- 如:最后训练出来的特征权重 w=-2,偏差 b= 3,则模型为: ŷ = -2x+3
三.决策树算法和随机森林算法
决策树算法
决策树算法的特征
通过对样本特征进行一系列“是”或“否”的判断,进而做出决策。
例如:家里长辈家孩子要过生日了,送什么礼物呢?
决策树的优势与不足
优势
- 可以清晰直观的将其工作过程可视化,可理解性强。
- 在训练的过程中对每个特征的处理都是相互独立的,各个特征之间不会相互干扰。
不足
- 容易出现过拟合问题,max_depth可以解决一定的过拟合问题, 但取值过低又可能造成模型的准确率降低。
随机森林算法
随机森林与决策树模型的差异
随机森林的优势与不足
优势
- 几乎具有决策树所有的优势,且跟决策树相比,更不容易出现过拟合。
- 随机森林支持并行处理。
不足
- 可视化方面,随机森林不及决策树简单直接。
- 对于样本特征非常稀疏的数据来说,随机森林表现往往不如线性模型。
- 占用内存较大,训练速度较慢。
支持向量机
基本原理
支持向量机是一种常见的机器学习算法,用于分类和回归问题。它基于一种将数据映射到高维空间的方法,然后通过寻找最适合分离不同类别的超平面来完成分类。该算法的核心思想是找到能够最大程度地将不同类别数据间隔开的超平面,并在这个超平面上选取一些支持向量来进行分类。在实际应用中,支持向量机在数据维度高、数据量大的情况下表现出色。
- 数据集,可以分为线性可分和线性不可分数据集。
支持向量机的优势与不足
- 优势
- 神经网络走红之前,支持向量机风靡一时,通过gamma参数和c参数的调节,甚至可以生成比较复杂的模型处理复杂的图像问题。
- 不足
- 性能上,数据集规模大时,比较消耗内存,训练时间长。
- 建模过程不如决策树清晰易懂。
- 对数据预处理要求较高。
分类模型的评价标准
混淆矩阵
混淆矩阵是用来总结一个分类器结果的矩阵。对于最常见的二元分类来说,它的混淆矩阵是2乘2的,如下:
TP:预测正确的正例数
FN:预测错误的正例数
FP:预测错误的负例数
TN:预测正确的负例数
常用评价标准的概念
准确率(Precision)
表示模型预测正确的正例样本TP占所有预测为正例样本(TP+FP)的比例,公式为:
召回率(Recall)
也被称为查全率,是在所有实际为正例的样本(TP+FN)中,被正确预测为正例的样本比例,公式为:
f1分数(F1 Score)
平衡f分数,将准确率和召回率这两个分值合并为一个分值,合并过程中,认为召回率和准确率同等重要,公式为:
ROC和AUC
真正类率TPR: TP/(TP+FN),代表分类器预测的正类中实际正实例占所有正实例的比例。Sensitivit
负正类率FPR: FP/(FP+TN),代表分类器预测的正类中实际负实例占所有负实例的比例。1-Specificity
真负类率TNR: TN/(FP+TN),代表分类器预测的负类中实际负实例占所有负实例的比例,TNR=1-FPR。
ROC 指的是受试者工作特征缺陷,反应敏感性与特异性关系的曲线。
横轴FPR:负正类率特异度,划分实例中所有负例占所有负例的比例,FPR越大,预测正类中实际负类越多
纵轴TPR:真正类率灵敏度,TPR越大,预测正类中实际正类越多
AUC 指的是曲线ROC下方的面积,用来表示预测准确率,AUC越高,曲线下方面积越大,说明准确率越高,曲线约接近左上角。
小记总结
什么是监督学习
- 通过让机器学习大量带有标签的样本,训练一个可以根据输入得到相应输出的模型。
什么是无监督学习
- 无监督学习是一种机器学习的训练方式,在没有标签的数据里可以发现潜在的一些结构的一种训练方式。
什么是分类
- 是一种监督学习,输出变量为有限个离散变量的预测问题为分类问题。
什么是回归
- 是一种监督学习,输出变量为连续数值型的预测问题为回归问题。
决策树算法的优缺点
- 优势,清晰直观的进行工作可视化,解释性好;对数据预处理相对不严格,缺点,容易过拟合
什么是线性可分问题
- 可以用一个线性函数把两类样本分开的问题
- 什么是线性不可分问题
- 不可以用一个线性函数把两类样本分开的问题
在进行模型训练之前,对原始数据通常要进行哪些预处理,其常见方法有哪些?
- 缺失值的处理,通常可以采用删除有缺失特征的样本(仅限于少量缺失的情况);还可以采用临近样本的均值填充。
- 非字符型特征的处理,通常采用独热编码(one hot)方式,将字符型特征转换为数值型。
- 离群值和异常值处理,对于显著距离整体样本中心的样本进行删除处理。
对于分类问题,有哪些常用指标可以用来评估模型的性能,写出其计算公式?
准确率 = TP/(TP+FP);召回率 = TP/(TP+FN);
F1 = 2 准确率 召回率/(准确率+召回率)
其中TP:预测正确的正例数,FN:预测错误的正例数,FP:预测错误的负例数,TN:预测正确的负例数
对于回归问题,有哪些常用指标可以用来评估模型的性能,写出其计算公式?
RMSE 均方根误差 ;
MAPE 平均百分比误差 。
- 分类实验中,正样本和负样本的比率差异特别大时,可以采用什么方法尽量提高模型性能?
- 可以从数量大的类别中随机挑选同数量少的类别相近的样本,然后进行训练。
- 可以随机重复从类别少的样本中重复抽取样本,直至总数和类别多的样本相近为止。
什么是过拟合?
- 训练数据上能够获得较好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少
什么是欠拟合?
- 对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。