2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

狼狈不堪的数据挖掘期末课程复习结束辽给这门课程画上一个句号吧！虽然之后主要方向是搞开发了但是万一以后想去搞大数据捏~

这是我总结的这门课程的部分章节内容

为了总结下这门课程所学也让之后有缘找到的学弟学妹们（如果这个课还在的话）能更好地复习吧~ 分享一下复习笔记

2021.6.23出了成绩来更新一波最后这门课的成绩是89 简单了解了下在班里大概算是中等水平吧？期末考试中的好多题目在笔记里都是有体现的（有复习需求的）大家可以下载下来根据自己的理解进行增删进行学习理解没有复习需求的也可以看着玩玩hhh

下面的只是一个概况没有插图片（图片都在本地一个个粘过来太麻烦惹！）如果有兴趣的可以戳这里下载完整的课程ppt与笔记在这里插入图片描述

文章目录题型第一章数据挖掘与大数据简介复习提纲1.基本概念2.数据挖掘主要任务3.【重要！】KDD过程（知识发现过程）最后一道题的一个思路4.数据挖掘的挑战第二章认识数据与数据预处理复习提纲1.属性类型2.【重要！选填题】数据的统计描述中心趋势度量数据的散布 3.【重点上机实习】（数据的）相似性度量1.标称属性数据 2.二元变量属性数据 3.序数型变量数据 4.数值属性数据 4.【重点！】数据预处理为什么要挖掘？数据预处理的主要任务：【重点】数据清理（数据的填充方法重点！）数据集成数据归约数据变换数据离散化第三章关联规则挖掘复习提纲1.定义以及一些概念2.Apriori算法3.FP-growth算法如何构造FP树？ 4 支持度、置信度及兴趣因子第四章分类/回归复习提纲 1.基本概念监督学习 VS 无监督学习【重要！】模型分类生成模型判别模型：二者的区别 2.决策树（DT）【重要！】决策树的优缺点【重要！】构建决策树的方法【重要！】**属性选择基本准则：**【重要！】信息增益（ID3）：【重要！】信息增益率（C4.5）： Gini指数（CART） 3.【重要！】过拟合问题和解决过拟合的解决策略【重要！】在决策树中如何避免过拟合4.【重要！】KNN【重要！】KNN的优点和缺点基本思想优缺点 5.朴素贝叶斯6.【重要！】SVM支持向量机【重要！】SVM的优缺点什么是支持向量？ 7.人工神经网络8.集成学习9.分类评价指标 10.练习题第五章聚类分析和噪声检测复习提纲1.什么是聚类2.聚类算法分类3.【重要！】KMEANS【*】KMEANS优缺点3.【重要！】DBSCAN缺点4.什么是离群点5.离群点种类6.LOF 离群（异常/孤立）点检测第六章大数据分析复习提纲1.哈希技术【重点】Min哈希（最小哈希）【重点！】会算签名矩阵！【重要】LSH（局部敏感哈希）原因：哈希的思想： **2.** 数据流挖掘【重点】如何检测概念漂移**3.** 【重点】Hadoop/spark的基本概念！

题型选择题——单选、多选大题——2道计算题大部分是简答题最后一题是综合题决策树的流程聚类有哪些类型数据挖掘的任务有哪些~关联规则挖掘分类/预测与回归聚类分析孤立点检测第一章数据挖掘与大数据简介

在这里插入图片描述

复习提纲1.基本概念什么是大数据什么是数据挖掘 2.数据挖掘主要任务 3.KDD过程（数据挖掘是核心） 4.DM的挑战 1.基本概念什么是大数据

无法在一定时间内用常规软件工具对其内容进行抓取、管理、处理的数据集合

是要更新处理模式才能具有更强的决策力、洞察发现力、流程优化能力来适应海量、高增长率和多样化的信息资产

什么是数据挖掘

从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的、可能有用的模式或知识。

关键是 “从大量的数据中挖掘令人感兴趣的模式或知识”

2.数据挖掘主要任务

【1】关联（规则）分析如挖掘空气质量和气象条件之间的关系

【2】聚类分析将数据归为不同的类形成新的类别进行分析

【3】分类预测回归找出描述和区分数据类或者概念的模型让该模型可以预测未知的对象类标签

【4】离群点分析分析孤立而原本会被当作噪音丢弃的数据在欺骗检测中通过孤立点分析得到的结论

这些内容之后章节都会讲到！

3.【重要！】KDD过程（知识发现过程）最后一道题的一个思路

KDD ：从数据中获取知识

【1】数据清理：消除噪声和删除不一致数据

【2】数据集成：多种数据源可以组合在一起

【3】数据选择：从数据库中提取与分析任务相关的数据

【4】数据变换：把数据变换和统一成适合挖掘的形式

【5】数据挖掘：核心步骤，使用智能方法提取数据模式

知识发现的核心！

【6】模式评估：根据兴趣度度量，识别代表知识的真正有趣的模式

【7】知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识

注意数据挖掘是核心

4.数据挖掘的挑战

数据容量 Scale of Data — VOLUMN

数据实时性 Data Stream — VELOCITY

数据多样性 Different format of data different sources — VARIETY

数据不确定性 Uncertainty, missing value

第二章认识数据与数据预处理复习提纲1.属性类型 2.数据的统计描述中心性均值众数中位数中列数散度极差最大最小四分位百分位方差3.相似性度量标称 d(i, j) = #不同/#总数值欧式曼哈顿数据标准化/归化最大最小法 Z-Score 其他相似性余弦马相关子数 KL散度4.数据预处理清理 -> 集成 ->归约 -> 变换 -> 离散化清理：缺值、噪声集成：冗余分析、卡方检验归约：采样 PCA/特征筛选（没太看懂变换：最大最小法 1.属性类型分类型标称型标称型目标变量的结果只在有限目标集中取值，比如真与假(标称型目标变量主要用于分类) 例: ID 号、眼球颜色、邮政编码特殊：二元序数型例: 军阶、 GPA、用 {tall, medium, short}表示的高数值型数值型目标变量则可以从无限的数值集合中取值，如0.555，666.666等 (数值型目标变量主要用于回归分析)区间例: 日历、摄氏或华氏温度. 比率例: 开氏温度、长度、计数**标称属性**的值是一些符号和事物的名称（比如头发的颜色）

标称：意味着“与名称相关”

二元属性是标称的一种 1代表有 0代表没有

如果是对称的说明无权重（例如男女性别）

如果是非对称的说明有权重（例如检测结果为阴性/阳性）

数值属性：区间、比率

2.【重要！选填题】数据的统计描述

中心趋势度量：均值（中列数）、众数、中位数、 —— （中心性描述）

数据的散布：**极差、四分位数、四分位数极差、五数概括、盒图 **—— （散布描述）

中心趋势度量均值(mean)

均值 = 总和/个数

加权平均：考虑权重的均值

中列数：

数据集的最大和最小值的平均值

中位数(median)

有序数据值的中间值。

大数据：近似值估计（线性插值方法）

众数：（mode）

在集合中出现最频繁的值。（一个数据集中可能有多个众数）

对于非对称的单峰数据,有以下经验关系：

mean-mode ~ 3 * (mean-median)即为均值 - 众数近似等于 3*(均值 - 中间数)

选填可能会考！

数据的散布方差标准差极差

max-min

四分位数(quantile) 四分位数极差（距离）

IQR=Q3-Q1

云奕文章网

2021 数据挖掘与大数据分析复习笔记电子科技大学《数据挖掘与大数据分析期末》课程期末高分指南

相关推荐：