导航菜单
首页 >  5g考试简答题  > 机器学习考试常用简答和论述总结

机器学习考试常用简答和论述总结

机器学习考试总结,简答题

1.监督学习和非监督学习是什么 监督学习,是其训练集的数据是提前分好类,带有标签的数据,进行学习到模型以及参数,当用测试集进行测试时,给出D测={Xi}=>{yi} 非监督学习,需要将一系列没有标签的训练数据,输入到算法中,需要根据样本之间的相似性对样本集进行分类或者分析。 2.什么是机器学习,解决问题的思路是什么,关键步骤是哪一步 机器学习是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身性能的学科。 过程或者思路: 获取数据,数据预处理,特征提取,特征选择,推理预测识别 其中数据预处理,特征提取,特征选择部分称为特征表达,是关键性步骤 3.学习过程中的过拟合和欠拟合是什么,产生的原因 偏差是描述模型的期望预测与真实结果之间的偏离程度 偏差大说明模型拟合能力差,此时欠拟合 方差是描述数据扰动造成的模型性能的变化,即模型在不同数据集上的稳定程度 方差大,说明模型稳定性差,训练集上拟合优秀,测试集上拟合差,则方差大,此时过拟合 欠拟合,模型参数学习的过少,模型不能很好地拟合数据 过拟合:把一些不必要的特征过度计算了 4.机器学习中怎么划分数据集的,评估方法有哪几种,分别解释 评估方法就是如何划分数据集,应该要求测试集与训练集之间互斥,用测试集来预测评估模型 方法: 留出法:就是将整个数据集 按照某种比例进行划分成训练集和测试集,要注意分层对数据采样,多次重复划分,测试集最好保持在20-30%的数据量上 交叉验证法:将全部数据集 S分成 k个不相交的子集,每次从分好的子集中里面,拿出一个作为测试集,其它k-1个作为训练集,根据训练集训练出模型,放到测试集上,得出结果。 计算k次求得的结果的平均值,作为该模型的真实结果。 留一法:是交叉验证法的一种,每次只留下一个样本做测试集,其它样本做训练集,如果有k个样本,则需要训练k次,测试k次。适合小样本数据。 自助法:基于自助采样、亦称“有放回采样”、“可重复采样”,训练集与原样本集同规模 数据分布有所改变 5.什么是最大似然学习 已知某个参数的值在这个样本中出现的概率最大,把这个参数作为估计的真实值。 最大似然估计是已经知道了结果,然后寻找使该结果出现可能性最大的条件,以此作为估计值。 6.求解最大似然估计值的一般步骤 1.写出似然函数,2.对似然函数取对数,并整理3.求导,令导数为零,得到似然方程4,解似然方程,得到的参数即为所求。 7.什么是最大后验概率 在给定观测数据和先验信念的情况下,选择最有可能的值(结合自己理解) 8.朴素贝叶斯分类器的优缺点 若条件独立性假设成立,则朴素贝叶斯分类器是最佳分类器 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率 对缺失数据不敏感,算法简单,常用于文本分类,分类准确度高,速度快 但需要先知道先验概率,因此在某些时候由于假设的先验模型的原因导致预测的效果不佳 9.分类器分为哪几种模型,分别介绍 分成判别式模型和生成式模型。 生成式模型:由数据学习联合概率分布P(X,Y),然后由P(Y|X)=P(X,Y)/P(X),求出概率分布P(Y|X)作为预测的模型,该方法表示了给定输入X与输出Y之间的生成关系 判别式模型:由数据直接学习决策函数y=f(x)或者条件概率分布P(Y|X)作为预测模型,判别方法关心的是对于给定输入X应预测出什么样的输出Y 判别式模型方便很多,因为生成式模型要学习一个X,Y的联合分布往往需要很多数据,而判别式模型需要的数据则相对少,因为判别式模型更关注输入特征的差异性。不过生成式既然使用了

相关推荐: