导航菜单
首页 >  数据挖掘概念与技术期末考试题库  > 数据挖掘 期末复习题库 数据挖掘期末考试题目

数据挖掘 期末复习题库 数据挖掘期末考试题目

数据挖掘 期末复习题库 数据挖掘期末考试题目 转载

mob64ca14144dde2023-11-06 21:57:16

文章标签数据挖掘 期末复习题库数据挖掘人工智能大数据数据文章分类数据挖掘人工智能

数据挖掘期末复习题型选择题:单选7 + 多选7(上课认真听课) 每道3分解答 6道 概念性:什么是数据挖掘啊之类的计算2道-3道(高分必备) 第二章 kk计算 第三章 aprio计算 第四章 树的东西 kmeans 签名矩阵 回归综合:作为一个数据科学家怎么解决概要和认识数据与数据预处理什么是大数据?Big data is a buzzword, or catch-phrase, used to describe a massive volume of both structured and unstructured data that is so large that it’s difficult to process using traditional database and software techniques.大数据是一个流行语,用于描述大量的结构化和非结构化数据,这些数据是如此之大,以至于很难使用传统的数据库和软件技术进行处理。大数据的特征Volume 大数量Varity 多样性Velocity 快速度Veracity 真实性什么是数据挖掘大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 。知识发现的流程是什么?核心?(KDD)

数据挖掘是“数据库知识发现”(Knowledge-Discovery in Databases, KDD)的分析步骤

知识发现的核心–》数据挖掘数据清理、数据集成、数据选择、数据变换、数据挖掘、 模式评估 和知识表示数据挖掘的四大任务关联分析(关联规则挖掘)聚类分析分类/预测孤立点(离群点)检测数据挖掘与其他学科好像没什么东西学科的交叉性:机器学习、数据库、统计学、拓扑学等具有紧密的联系挑战:高维,大数据、数据类型、参数、数据演化性和数据隐私/安全性常见工具包/期刊、会议。认识数据与数据预处理数据的属性:分类型和数值型分类型标称(特殊:二元)eg:ID号、眼球颜色、邮政编码序数eg:军阶、GPA、用{tall,medium,short}表示的身高数值型区间eg:日历、摄氏或华氏温度比率eg:长度、计数数据的统计特征中心趋势度量均值,众数,中位数,中列数(数据集的最大和最小的平均值)数据的散度极差、四分位数、四分位数极差,五数概括,盒图可视化分位数图(观察单变量数据分布)数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘中心趋势:中位数:有序数据值的中间值。均值:总和/个数中列数:数据集的最大和最小值的平均值众数n对于非对称的单峰数据,有以下经验关系: mean-mode ~ 3*(mean-median)散度:方差、极差极差 max-min四分位数(注意其实是三个数哦:Q1,Q2,Q3)四分位数极差 Q3-Q1方差五数概括:[ min,Q1,median,Q3,max]数据的相似性度量标称属性数据 标称变量是二元变量的拓广,它可以取多余两种状态值,如:red,yellow,blue相异性度量方法:m:状态取值匹配的变量数目,p:变量总数数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_02标称型数据:对称和非对称二元属性计算二元变量的相似度首先获取列联表对称的二元变量的相异度计算数据挖掘 期末复习题库 数据挖掘期末考试题目_大数据_03非对称的二元属性一个值比另一个更重要不对称的二元变量属性的相异度计算数据挖掘 期末复习题库 数据挖掘期末考试题目_数据_04对于非对称的相似度,负匹配数目t被忽略Eg:

Name

Gender

Fever

Cough

Test-1

Test-2

Test-3

Test-4

Jack

M

1

N

P

N

N

N

Mary

F

1

N

P

N

P

N

Jim

M

1

P

N

N

N

N

gender对称其余不对称Y和P设置为1,N设置为0

Name

Gender

Fever

Cough

Test-1

Test-2

Test-3

Test-4

Jack

M

1

0

1

0

0

0

Mary

F

1

0

1

0

1

0

Jim

M

1

1

0

0

0

0

数据挖掘 期末复习题库 数据挖掘期末考试题目_大数据_05数值型:欧氏距离使用距离来度量两个数据对象之间的相似性/相异性闵可夫斯基:数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘 期末复习题库_06其中数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_07数据挖掘 期末复习题库 数据挖掘期末考试题目_大数据_08是两个p-维的数据对象(q正整数)q=1,d是曼哈顿距离q=2,d是欧几里德距离数据预处理:数据清理:缺失值 噪声空缺值,噪声数据,删除孤立点,解决不一致性如何处理空缺值 忽略元组人工填写(工作量大,可行性低)使用一个全局变量填充空缺值使用属性的平均值填充空缺值使用与给定元组所属同一类的所有样本的平均值使用最可能的值填充空缺值:使用像Bayesian公式或判定树这样预测的方法噪声数据:一个测量变量中的随机错误或偏差如何处理噪声数据: 分箱聚类回归数据集成:相关性分析 卡方检验集成多个数据库、数据立方体或文件数据集成-冗余数据处理 数值型:相关分析相关系数(皮尔逊相关系数):数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_09n为样本个数,数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘_10数据挖掘 期末复习题库 数据挖掘期末考试题目_数据挖掘 期末复习题库_11属性A和B上的平均值,其他分别为标准差数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_12>0,A和B正相关,值越大相关程度越高数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_12=0:不相关;数据挖掘 期末复习题库 数据挖掘期末考试题目_人工智能_120,A和B同时倾向于大于期望值Cov(A,B)

相关推荐: