导航菜单
首页 >  数据挖掘期末考试题  > 2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

2021 数据挖掘与大数据分析复习笔记 电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

狼狈不堪的数据挖掘期末课程复习结束辽 给这门课程画上一个句号吧! 虽然之后主要方向是搞开发了 但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学 也让之后有缘找到的学弟学妹们(如果这个课还在的话)能更好地复习吧~ 分享一下复习笔记

2021.6.23出了成绩来更新一波 最后这门课的成绩是89 简单了解了下 在班里大概算是中等水平吧? 期末考试中的好多题目在笔记里都是有体现的 (有复习需求的)大家可以下载下来 根据自己的理解进行增删 进行学习理解 没有复习需求的也可以看着玩玩hhh

下面的 只是一个概况 没有插图片(图片都在本地 一个个粘过来太麻烦惹!) 如果有兴趣的 可以戳这里下载完整的课程ppt与笔记 在这里插入图片描述

文章目录 题型 第一章 数据挖掘与大数据简介 复习提纲1.基本概念2.数据挖掘主要任务3.【重要!】KDD过程(知识发现过程)最后一道题 的 一个思路4.数据挖掘的挑战 第二章 认识数据与数据预处理 复习提纲1.属性类型2.【重要!选填题】数据的统计描述中心趋势度量 数据的散布 3.【重点 上机实习】(数据的)相似性度量1.标称属性数据 2.二元变量属性数据 3.序数型变量数据 4.数值属性数据 4.【重点!】数据预处理为什么要挖掘? 数据预处理的主要任务: 【重点】数据清理(数据的填充方法重点!) 数据集成 数据归约 数据变换 数据离散化第三章 关联规则挖掘 复习提纲1.定义以及一些概念2.Apriori算法3.FP-growth算法如何构造FP树? 4 支持度、置信度及兴趣因子 第四章 分类/回归 复习提纲 1.基本概念监督学习 VS 无监督学习【重要!】模型分类生成模型 判别模型: 二者的区别 2.决策树(DT)【重要!】决策树的优缺点【重要!】构建决策树的方法【重要!】**属性选择基本准则:**【重要!】信息增益(ID3): 【重要!】信息增益率(C4.5): Gini指数(CART) 3.【重要!】过拟合问题和解决过拟合的解决策略 【重要!】在决策树中如何避免过拟合4.【重要!】KNN【重要!】KNN的优点和缺点基本思想 优缺点 5.朴素贝叶斯6.【重要!】SVM支持向量机【重要!】SVM的优缺点什么是支持向量? 7.人工神经网络8.集成学习9.分类评价指标 10.练习题 第五章 聚类分析和噪声检测 复习提纲1.什么是聚类2.聚类算法分类3.【重要!】KMEANS【*】KMEANS优缺点3.【重要!】DBSCAN缺点4.什么是离群点5.离群点种类6.LOF 离群(异常/孤立)点检测 第六章 大数据分析 复习提纲1.哈希技术【重点】Min哈希(最小哈希)【重点!】会算签名矩阵!【重要】LSH(局部敏感哈希)原因: 哈希的思想: **2.** 数据流挖掘【重点】如何检测概念漂移**3.** 【重点】Hadoop/spark的基本概念!

题型选择题——单选、多选 大题——2道计算题 大部分是简答题 最后一题是综合题决策树的流程 聚类有哪些类型 数据挖掘的任务有哪些~关联规则挖掘分类/预测 与 回归聚类分析孤立点检测第一章 数据挖掘与大数据简介

在这里插入图片描述

复习提纲1.基本概念什么是大数据什么是数据挖掘 2.数据挖掘主要任务 3.KDD过程(数据挖掘是核心) 4.DM的挑战 1.基本概念什么是大数据

无法在 一定时间内用常规软件工具 对其内容进行 抓取、管理、处理 的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力 来适应海量、高增长率和多样化的信息资产

什么是数据挖掘

从大量的数据中挖掘那些 令人感兴趣的、有用的、隐含的、先前未知的、可能有用的 模式或知识。

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联(规则)分析 如挖掘空气质量和气象条件之间的关系

【2】聚类分析 将数据归为不同的类 形成新的类别进行分析

【3】分类 预测 回归 找出描述和区分数据类或者概念的模型 让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据 在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到!

3.【重要!】KDD过程(知识发现过程) 最后一道题 的 一个思路

KDD : 从数据中获取知识

【1】数据清理:消除噪声和删除不一致数据

【2】数据集成:多种数据源可以组合在一起

【3】数据选择:从数据库中提取与分析任务相关的数据

【4】数据变换:把数据变换和统一成适合挖掘的形式

【5】数据挖掘 :核心步骤,使用智能方法提取数据模式

知识发现的核心!

【6】模式评估:根据兴趣度度量,识别代表知识的真正有趣的模式

【7】知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识

注意 数据挖掘 是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章 认识数据与数据预处理 复习提纲1.属性类型 2.数据的统计描述中心性 均值 众数 中位数 中列数 散度 极差 最大 最小 四分位 百分位 方差3.相似性度量标称 d(i, j) = #不同/#总数值 欧式 曼哈顿 数据标准化/归化 最大最小法 Z-Score 其他相似性 余弦 马 相关子数 KL散度4.数据预处理 清理 -> 集成 ->归约 -> 变换 -> 离散化清理:缺值、噪声集成:冗余分析、卡方检验归约:采样 PCA/特征筛选(没太看懂变换:最大最小法 1.属性类型分类型标称型标称型目标变量的结果只在有限目标集中取值,比如真与假(标称型目标变量主要用于分类) 例: ID 号、眼球颜色、邮政编码特殊:二元 序数型 例: 军阶 、 GPA、用 {tall, medium, short}表示的高数值型 数值型目标变量则可以从无限的数值集合中取值,如0.555,666.666等 (数值型目标变量主要用于回归分析)区间 例: 日历、摄氏或华氏温度. 比率 例: 开氏温度、长度、计数**标称属性**的值是一些符号和事物的名称(比如头发的颜色)

标称:意味着“与名称相关”

二元属性 是标称的一种 1代表有 0代表没有

如果是对称的说明无权重(例如男女性别)

如果是非对称的说明有权重(例如检测结果为阴性/阳性)

数值属性:区间、比率

2.【重要!选填题】数据的统计描述

中心趋势度量:均值(中列数)、众数、中位数、 —— (中心性描述)

数据的散布:**极差、四分位数、四分位数极差、五数概括、盒图 **—— (散布描述)

中心趋势度量均值(mean)

均值 = 总和/个数

加权平均:考虑权重的均值

中列数:

数据集的最大和最小值的平均值

中位数(median)

有序数据值的中间值。

大数据 :近似值估计(线性插值方法)

众数:(mode)

在集合中出现最频繁的值。(一个数据集中可能有多个众数)

对于非对称的单峰数据,有以下经验关系:

mean-mode ~ 3 * (mean-median)即为 均值 - 众数 近似等于 3*(均值 - 中间数)

选填可能会考!

数据的散布方差 标准差 极差

max-min

四分位数(quantile) 四分位数极差(距离)

IQR=Q3-Q1

相关推荐: