机器学习考试常用简答和论述总结

机器学习考试总结，简答题

1.监督学习和非监督学习是什么监督学习，是其训练集的数据是提前分好类，带有标签的数据，进行学习到模型以及参数，当用测试集进行测试时，给出D测={Xi}=>{yi} 非监督学习，需要将一系列没有标签的训练数据，输入到算法中，需要根据样本之间的相似性对样本集进行分类或者分析。 2.什么是机器学习，解决问题的思路是什么，关键步骤是哪一步机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身性能的学科。过程或者思路：获取数据，数据预处理，特征提取，特征选择，推理预测识别其中数据预处理，特征提取，特征选择部分称为特征表达，是关键性步骤 3.学习过程中的过拟合和欠拟合是什么，产生的原因偏差是描述模型的期望预测与真实结果之间的偏离程度偏差大说明模型拟合能力差，此时欠拟合方差是描述数据扰动造成的模型性能的变化，即模型在不同数据集上的稳定程度方差大，说明模型稳定性差，训练集上拟合优秀，测试集上拟合差，则方差大，此时过拟合欠拟合，模型参数学习的过少，模型不能很好地拟合数据过拟合：把一些不必要的特征过度计算了 4.机器学习中怎么划分数据集的，评估方法有哪几种，分别解释评估方法就是如何划分数据集，应该要求测试集与训练集之间互斥，用测试集来预测评估模型方法：留出法：就是将整个数据集按照某种比例进行划分成训练集和测试集，要注意分层对数据采样，多次重复划分，测试集最好保持在20-30%的数据量上交叉验证法：将全部数据集 S分成 k个不相交的子集，每次从分好的子集中里面，拿出一个作为测试集，其它k-1个作为训练集，根据训练集训练出模型，放到测试集上，得出结果。计算k次求得的结果的平均值，作为该模型的真实结果。留一法：是交叉验证法的一种，每次只留下一个样本做测试集，其它样本做训练集，如果有k个样本，则需要训练k次，测试k次。适合小样本数据。自助法：基于自助采样、亦称“有放回采样”、“可重复采样”，训练集与原样本集同规模数据分布有所改变 5.什么是最大似然学习已知某个参数的值在这个样本中出现的概率最大，把这个参数作为估计的真实值。最大似然估计是已经知道了结果，然后寻找使该结果出现可能性最大的条件，以此作为估计值。 6.求解最大似然估计值的一般步骤 1.写出似然函数，2.对似然函数取对数，并整理3.求导，令导数为零，得到似然方程4，解似然方程，得到的参数即为所求。 7.什么是最大后验概率在给定观测数据和先验信念的情况下，选择最有可能的值（结合自己理解） 8.朴素贝叶斯分类器的优缺点若条件独立性假设成立，则朴素贝叶斯分类器是最佳分类器朴素贝叶斯模型发源于古典数学理论，有稳定的分类效率对缺失数据不敏感，算法简单，常用于文本分类，分类准确度高，速度快但需要先知道先验概率，因此在某些时候由于假设的先验模型的原因导致预测的效果不佳 9.分类器分为哪几种模型，分别介绍分成判别式模型和生成式模型。生成式模型：由数据学习联合概率分布P(X,Y),然后由P(Y|X)=P(X,Y)/P(X)，求出概率分布P(Y|X)作为预测的模型，该方法表示了给定输入X与输出Y之间的生成关系判别式模型：由数据直接学习决策函数y=f(x)或者条件概率分布P(Y|X)作为预测模型，判别方法关心的是对于给定输入X应预测出什么样的输出Y 判别式模型方便很多，因为生成式模型要学习一个X，Y的联合分布往往需要很多数据，而判别式模型需要的数据则相对少，因为判别式模型更关注输入特征的差异性。不过生成式既然使用了

云奕文章网

机器学习考试常用简答和论述总结

相关推荐：