2021研一（上学期工作总结）

一确定方向

确定了以多标签主动学习为当前阶段的研究方向。

二了解方向的一些基本概念多类别问题：表示超过2个类别的分类问题，比如：一个人是男和女就是是个二分类问题，多分类问题是在二分类的问题基础上面增加类别，比如一个水果，是梨、苹果还是橙子。此类问题是建立在一个样本只属于一个类别的假设基础上的。多标签问题：这类问题的目的是给每一个样本添加一系列的目标标签。和多分类问题的重要区别就是：每一个标签并非是互斥的。比如一个话题，它可以是政治、金融、教育的，可以是政治、金融的、也可以是教育的、当然也可以不属于上述任何一个内容的。多输出回归问题：可以看出是一个样本的多个回归问题，为一个样本的多个属性预测目标值，比如预测一个位置的温度、湿度等。多任务问题：我的理解是多分类问题的多标签版本。比如上述多标签问题的例子：一个话题，它可以是政治、金融、教育的，三个子问题是三个二分类：这个话题是或不是政治、是或不是金融、是或不是教育的。多任务分类就是把子问题扩展为多分类问题。比如：一个学生，数学分为ABC三个等级、语文分为ABC三个等级、英语分为ABC三个等级，要预测一个学生的语数英是AAA、AAB、BAC等级别就是一个多任务分类问题。这里的数学、语文、英语就是label、ABC就是class监督学习：通过已有的一部分输入数据与输出数据之间的对应关系，生成一个函数，将输入映射到合适的输出，例如分类。非监督学习：直接对输入数据集进行建模，例如聚类。半监督学习：综合利用有类标的数据和没有类标的数据，来生成合适的分类函数主动学习：当我们获取样本困难，需要领域内专家进行人工标注，且训练规模庞大，时间花费较多，需要使用较少的训练样本获取性能较好的分类器时采用。主动学习是通过一定的算法获取最有用的未标记样本，并交由专家进行标记，优化分类模型，在训练集中已标注数据上学习得到的知识作为先验信息，利用该先验知识对测试分布中未标注数据包含的信息进行判断，选择对模型训练最有力的数据集进行标注，已达到减少分类模型训练过程所需标注代价的目的。

在这里插入图片描述

三目前进展（已完成） python学习：基本会使用python代码，会调用python中的包，会实现基本机器学习的各种模型。了解多标签问题的一般处理思路：多标签数据学习方法主要分为两种，一种问题转换法，包括转换为二分类、转换为标签排序、转换为多分类。另一种是算法适应法，包括Lazy learning(如ML-KNN)、Decision tree(如ML-DT)、Kernel learning(如Rank-svm)、Neural network(如BP-MLL)、information-theoretic(如CML)、Spectral analysis(如MLLS)机器学习：对监督学习中的回归（输出值连续），进行了其中线性回归，岭回归的学习与代码实现，对分类问题（输出值离散）其中的knn（k近邻），决策树，随机森林进行了学习与代码实现。对半监督学习中的svm进行了学习。主动学习：学习了ML-KNN（ML-KNN则是在KNN的基础上进行了改进, 并不是简单的“少数服从多数”, 而是通过贝叶斯准则和大后验概率计算得到新标签.），BP-MLL等经典多标签适应算法。论文阅读：阅读了7，8篇关于机器学习各类方法的论文（未精读），重点学习了本实验室的论文：页岩气储层预测的多标签主动学习算法,但鉴于数学功底和代码的熟练程度未能实现MAMO算法，只大致理解了MAMO的实现流程。既

第一，利用基于密度峰值的快速聚类算法第二，利用无参数概率密度估计的方法，选择高斯核函数和窗口宽度，利用概率密度函数得到样本的统计概率，从而得到每个样本的代表性第三，从样本属性和样本标签两个角度考虑，加入丰富性约束。为了保证选择的训练样本尽可能的丰富，定义样本之间的属性差异性阈值，从而避免选择相似的样本；为了保证选择的样本所具有的标签足够丰富，利用第一步中softmax预测的标签值，获得每次查询过程的样本丰富性，并定义标签丰富性阈值。当同时满足属性差异性和标签丰富性约束时，该样本才会被查询并加入训练集。第四，最后利用基于实例差异的多标签学习算法，对剩余样本的标签集进行预测，从而得到所有样本的标签。

下载并做了经典数据集yahoo上Arts，Business 在ML-knn算法的AveragePrecision，Coverage，RankingLoss评价指标。重点学习了论文：基于多标签学习的旋转机械分级复合故障诊断，本论文核心算法HML-KNN算法本质是对ML-KNN的改进，主要包括三点：

1.分级处理，将原本并行的分类模型进行分级处理, 将第一级分类器得到的估计标签作为新特征放入第二级分类器中, 充分挖掘标签相关性 2.特征转化，将第一级的标签信息转化为标签特征. 放入第二级的标签特征并不是原始标签, 而是该样本序列的分位数, 将标签“-1”转化为下四分位数, 标签“1”转化上四分位数. 处理后的标签特征是绝对个性化的, 避免了原始标签造成的过拟合或欠拟合等问题 3.信息阶次升级，: HML-KNN算法是种考虑了全局标签信息的高阶算法, 第二级的标签与第一级的个标签都有联系. 多标签学习的内核思想就是挖掘标签间的关联性, 提升结果的可解释性. 高阶算法相比阶算法, 用到了

云奕文章网

2021研一（上学期工作总结）

相关推荐：