mob64ca14144dde2023-11-06 21:57:16
文章标签数据挖掘 期末复习题库数据挖掘人工智能大数据数据文章分类数据挖掘人工智能
数据挖掘期末复习题型选择题:单选7 + 多选7(上课认真听课) 每道3分解答 6道 概念性:什么是数据挖掘啊之类的计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 树的东西 kmeans 签名矩阵 回归综合:作为一个数据科学家怎么解决概要和认识数据与数据预处理什么是大数据?Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.大数据是一个流行语,用于描述大量的结构化和非结构化数据,这些数据是如此之大,以至于很难使用传统的数据库和软件技术进行处理。大数据的特征Volume 大数量Varity 多样性Velocity 快速度Veracity 真实性什么是数据挖掘大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。知识发现的流程是什么?核心?(KDD)数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤
知识发现的核心–》数据挖掘数据清理、数据集成、数据选择、数据变换、数据挖掘、 模式评估 和知识表示数据挖掘的四大任务关联分析(关联规则挖掘)聚类分析分类/预测孤立点(离群点)检测数据挖掘与其他学科好像没什么东西学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性常见工具包/期刊、会议。认识数据与数据预处理数据的属性:分类型和数值型分类型标称(特殊:二元)eg:ID号、眼球颜色、邮政编码序数eg:军阶、GPA、用{tall,medium,short}表示的身高数值型区间eg:日历、摄氏或华氏温度比率eg:长度、计数数据的统计特征中心趋势度量均值,众数,中位数,中列数(数据集的最大和最小的平均值)数据的散度极差、四分位数、四分位数极差,五数概括,盒图可视化分位数图(观察单变量数据分布)Name
Gender
Fever
Cough
Test-1
Test-2
Test-3
Test-4
Jack
M
1
N
P
N
N
N
Mary
F
1
N
P
N
P
N
Jim
M
1
P
N
N
N
N
gender对称其余不对称Y和P设置为1,N设置为0Name
Gender
Fever
Cough
Test-1
Test-2
Test-3
Test-4
Jack
M
1
0
1
0
0
0
Mary
F
1
0
1
0
1
0
Jim
M
1
1
0
0
0
0