马上西瓜书期末考试,为了不挂科,需要有针对复习,内容来自专业各个学霸及老师的重点划分。
推荐:【一起啃西瓜书】机器学习总览
试卷题型卷面共100分,含5种题型,考试时间120分钟。
判断题,8道,每题2分,共16分;填空题,7道,每题2分,共14分;简答题,5道,每题4分,共20分;演算题,2道,每题10分,共20分;编程题,2道,一道编程填空题(10分),一道编程题(20分),共30分。 第一章:绪论 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能,从而在计算机上从数据(经验)中产生“模型”,用于对新的情况给出判断(利用此模型预测未来的一种方法)。
分为三类:监督学习、无监督学习、强化学习。
一般过程 数据获取特征工程模型选择模型训练模型评估超参数条件预测更详细:
机器学习过程中,通过确定两方面的参数来找到泛化性能最好的函数:
函数参数,也就是我们通常所说的w和b,这类参数可以通过各种最优化算法自动求得;模型参数,比如多项式回归中的多项式次数,规则化参数入等(即超参数),一般在模型训练之前通过手工指定(当然也可以采用网格法等算法进行寻优)。确定模型超参数的过程称为模型选择(从Algorithm选择Models)。
机器学习的一般过程:
确定模型的一组超参数,用训练集训练该模型,找到使损失函数最小的最优函数,在验证集上对最优函数的性能进行度量,重复1、2、3步,直到搜索完指定的超参数组合,选择在验证集上误差最小的模型,并合并训练集和验证集作为整体训练模型,找到最优函数,在测试集上对最优函数的泛化性能进行度量。 任务 分类:离散值回归:连续值聚类:无标记信息有无标记信息
监督学习:分类、回归无监督学习:聚类半监督学习:两者结合 数据用于模型拟合的数据样本
验证集在模型训练过程中单独留出来的样本集,它可以用于调整模型的超参数和用于对模型的初步评估。通常用来在模型迭代训练时,用以验证当前模型的泛化能力,但不能作为调参,选择特征等算法相关的选择的依据。
监督学习定义:
输入数据是由输入特征值和目标值所组成。函数的输出可以是一个连续的值(称为回归), 或是输出是有限个离散值(称作分类)。用已知某种或某些特征的样本作为训练集,以建立一个数学模型,再用已建立的模型来预测未知的样本的方法.是从标签化训练集数据集中推断出模型的机器学习任务.
无监督学习定义:
输入数据是由输入特征值组成,没有目标值输入数据没有被标记,也没有确定的结果。样本数据类别未知;需要根据样本间的相似性对样本集进行类别划分在算法构建过程中不考虑标签值,只通过特征信息去归纳一些新的规律出来.
半监督学习定义:训练集同时包含有标记样本数据和未标记样本数据。
用少量有标注的样本和大量未标注的样本进行训练分类
第二章:模型评估与选择 欠拟合与过拟合拟合:就是说这个曲线能不能很好的描述某些样本,并且有较强的泛化能力.
过拟合(训练集误差小,测试集误差大) 学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质(不考虑数据噪声),导致泛化性能下降欠拟合(训练集误差大) 对训练样本的一般性质尚未学好如何判断区分二者?
过拟合:模型过于复杂,导致训练误差低,测试误差高欠拟合:模型简单,训练测试误差均高解决:
过拟合
增加训练样本数量正则化L1.L2降维集成学习方法减少模型复杂度丢弃法Dropout欠拟合:
添加新特性增加模型复杂度减小正则化系数决策树:拓展分支 神经网络:增加训练轮数
现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择。
我们假设测试集是从样本真实分布中独立采样获得,将测试集上的“测试误差”作为泛化误差的近似,所以测试集要和训练集中的样本尽量互斥。
留出法:
直接将数据集划分为两个互斥集合训练/测试集划分要尽可能保持数据分布的一致性一般若干次随机划分、重复实验取平均值训练/测试样本比例通常为2:1~4:1交叉验证法:
将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的一个子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10. 自助法:
以自助采样法为基础,对数据集D有放回采样m次得到训练集D’ , D\D’用做测试集。
实际模型与预期模型都使用m个训练样本
约有1/3的样本没在训练集中出现
从初始数据集中产生多个不同的训练集,对集成学习有很大的好处
自助法在数据集较小、难以有效划分训练/测试集时很有用;由于改变了数据集分布可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。
性能度量性能度量是衡量模型泛化能力的评价标准,反映了任务需求;使用不同的性能度量往往会导致不同的评判结果
回归任务最常用的性能度量是“均方误差”:
对于分类任务,错误率和精度是最常用的两种性能度量:
错误率:分错样本占样本总数的比率精度(正确率):分对样本占样本总数的比率 查准率&查全率信息检索、Web搜索等场景中经常需要衡量正例被预测出来的比率或者预测出来的正例中正确的比率,此时查准率和查全率比错误率和精度更适合。
统计真实标记和预测结果的组合可以得到“混淆矩阵”:
查准率:在预测结果中,预测正例对了所占所有预测正例中的比例(竖着来)
查全率:在真实情况中,预测正例对了所占所有真实情况中的比例(横着来)
在预测癌症患者时,优先考虑查全率,因为如果有一个人漏判了便很严重,所以我们更看重:真实患有癌症的情况下,模型预测正确的概率。
基于混淆矩阵,解释什么是TPR(True Positive Rate)真正利率,FPR(False Positive Rate)假正例率,查准率(P),查全率(R)?
TPR和R相等,都是真实正例被预测正确的比例,即:TPR=R=TP/TP+FNFPR:真实反例被预测为正例的比率,即:FPR=FP/FP+TNP:预测为正例的实例中,真正正例的比例,即:P=TP/TP+FP在测试集上对最优函数的泛化性能进行度量.
交叉验证为什么用交叉验证法?
交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合还可以从有限的数据中获取尽可能多的有效信息 第三章:线性模型 线性回归&分类 线性回归:试图学得一个线性模型以尽可能准确的预测实值输出标记分类:即最常见的是二分类,在线性回归得出预测值之后,增加了一个“单位越界函数”回归和分类的区别:
本质都是一致的,就是模型的拟合(匹配),但是分类问题的y值(label)更离散化一些.而且同一个y值可能对应一大批的x,这些x是具有范围的。所以分类问题