导航菜单
首页 >  研究生年度总结汇报怎么写啊  > 2021研一(上学期工作总结)

2021研一(上学期工作总结)

一 确定方向

 确定了以多标签主动学习为当前阶段的研究方向。

二 了解方向的一些基本概念 多类别问题:表示超过2个类别的分类问题,比如:一个人是男和女就是是个二分类问题,多分类问题是在二分类的问题基础上面增加类别,比如一个水果,是梨、苹果还是橙子。此类问题是建立在一个样本只属于一个类别的假设基础上的。多标签问题:这类问题的目的是给每一个样本添加一系列的目标标签。和多分类问题的重要区别就是:每一个标签并非是互斥的。比如一个话题,它可以是政治、金融、教育的,可以是政治、金融的、也可以是教育的、当然也可以不属于上述任何一个内容的。多输出回归问题:可以看出是一个样本的多个回归问题,为一个样本的多个属性预测目标值,比如预测一个位置的温度、湿度等。多任务问题:我的理解是多分类问题的多标签版本。比如上述多标签问题的例子:一个话题,它可以是政治、金融、教育的,三个子问题是三个二分类:这个话题是或不是政治、是或不是金融、是或不是教育的。多任务分类就是把子问题扩展为多分类问题。比如:一个学生,数学分为ABC三个等级、语文分为ABC三个等级、英语分为ABC三个等级,要预测一个学生的语数英是AAA、AAB、BAC等级别就是一个多任务分类问题。这里的数学、语文、英语就是label、ABC就是class监督学习:通过已有的一部分输入数据与输出数据之间的对应关系,生成一个函数,将输入映射到合适的输出,例如分类。非监督学习:直接对输入数据集进行建模,例如聚类。半监督学习:综合利用有类标的数据和没有类标的数据,来生成合适的分类函数主动学习:当我们获取样本困难,需要领域内专家进行人工标注,且训练规模庞大,时间花费较多,需要使用较少的训练样本获取性能较好的分类器时采用。主动学习是通过一定的算法获取最有用的未标记样本,并交由专家进行标记,优化分类模型,在训练集中已标注数据上学习得到的知识作为先验信息,利用该先验知识对测试分布中未标注数据包含的信息进行判断,选择对模型训练最有力的数据集进行标注,已达到减少分类模型训练过程所需标注代价的目的。

在这里插入图片描述

三 目前进展(已完成) python学习:基本会使用python代码,会调用python中的包,会实现基本机器学习的各种模型。了解多标签问题的一般处理思路:多标签数据学习方法主要分为两种,一种问题转换法,包括转换为二分类、转换为标签排序、转换为多分类。另一种是算法适应法,包括Lazy learning(如ML-KNN)、Decision tree(如ML-DT)、Kernel learning(如Rank-svm)、Neural network(如BP-MLL)、information-theoretic(如CML)、Spectral analysis(如MLLS)机器学习 :对监督学习中的回归(输出值连续),进行了其中线性回归,岭回归的学习与代码实现,对分类问题(输出值离散)其中的knn(k近邻),决策树,随机森林进行了学习与代码实现。对半监督学习中的svm进行了学习。主动学习:学习了ML-KNN(ML-KNN则是在KNN的基础上进行了改进, 并不是简单的“少数服从多数”, 而是通过贝叶斯准则和 大后验概率计算得到新标签.),BP-MLL等经典多标签适应算法。论文阅读:阅读了7,8篇关于机器学习各类方法的论文(未精读),重点学习了本实验室的论文:页岩气储层预测的多标签主动学习算法,但鉴于数学功底和代码的熟练程度未能实现MAMO算法,只大致理解了MAMO的实现流程。既

第一,利用基于密度峰值的快速聚类算法 第二,利用无参数概率密度估计的方法,选择高斯核函数和窗口宽度,利用概率密度函数得到样本的统计概率,从而得到每个样本的代表性 第三,从样本属性和样本标签两个角度考虑,加入丰富性约束。为了保证选择的训练样本尽可能的丰富,定义样本之间的属性差异性阈值,从而避免选择相似的样本;为了保证选择的样本所具有的标签足够丰富,利用第一步中softmax预测的标签值,获得每次查询过程的样本丰富性,并定义标签丰富性阈值。当同时满足属性差异性和标签丰富性约束时,该样本才会被查询并加入训练集。 第四,最后利用基于实例差异的多标签学习算法,对剩余样本的标签集进行预测,从而得到所有样本的标签。

下载并做了经典数据集yahoo上Arts,Business 在ML-knn算法的AveragePrecision,Coverage,RankingLoss评价指标。重点学习了论文:基于多标签学习的旋转机械分级复合故障诊断,本论文核心算法HML-KNN算法本质是对ML-KNN的改进,主要包括三点:

1.分级处理,将原本并行的分类模型进行分级处理, 将第一 级分类器得到的估计标签作为新特 征放入第二级分类器中, 充分挖掘标签相关性 2.特征转化,将第一 级的标签信息转化为标签特征. 放入第二级的标签特征并不是原始标签, 而是该样本序列的分位数, 将标签“-1”转化为下四分位数, 标签“1”转化上四分位数. 处理后的标签特征是绝对个性化的, 避免了原始标签造成的过拟合或欠拟合等问题 3.信息阶次升级,: HML-KNN算法是 种考虑了全局标签信息的高阶算法, 第二级的标签与第一级的个标签都有联系. 多标签学习的内核思想就是挖掘标签间的关联性, 提升结果的可解释性. 高阶算法相比 阶算法, 用到了

相关推荐: