数据挖掘期末考题针对复习

选择题

1、下面不属于数据挖掘迭代序列的是( ) A、数据清理 B、数据集成 C、数据删除 D、数据变换

C 解析：数据清理、数据集成、数据变换、数据归约

2、属性(attribute)是一个数据字段，表示数据对象的一个特征。下面不属于典型的属性分类的是( ) A、标称属性(nominal) B、二元属性(binary) C、序数属性(ordinal) D、单值属性(Single-Valued) D 解析：标称，二元，序数，数值，离散和连续

5、标称数据的概念分层生成方法不包括( ) A、由用户在模式级显式地说明属性的部分序。 B、由专家在模式级显式地说明属性的部分序。 C、转换为二进制后自动分层。 D、通过显式数据分组说明分层结构的一部分。

C 解析：由用户或专家在模式级显式地说明属性的部分序。通过显式数据分组说明分层结构的一部分。说明属性集，但不说明它们的偏序，然后系统根据算法自动产生属性的序，构造有意义的概念分层。对只说明部分属性集的情况，则可根据数据库模式中的数据语义定义对属性的捆绑信息，来恢复相关的属性。

判断题

16、数据清理和预处理，一般占数据挖掘全部工作量的 10%以内。( F)

17、二元属性(binary attribute)是一种标称属性，只有两个状态：0 或 1。( T)

18、规范化是将数据按比例缩放，使之落入一个小的特定区间，这个区间必须是[-1.0 , 1.0]。(F )

19、标称、二元和序数属性都是定性的，即只描述对象的特征，不给出实际的大小。(T )

20、高质量的决策必然依赖于高质量的数据，但数据预处理并不属于知识发现过程的重要步骤。(F )

21、WEKA 的全名是怀卡托智能分析环境，由美国的加州大学伯克利分校研制，WEKA 也是美国加州的一种鸟的名字。(F )

22、WEKA 中有 Preprocess、Classify、Cluster 等选项卡，要进行数据的分类是选择 Cluster 选项卡。(F )

23、在挖掘频繁模式时，项集的支持度也称为相对支持度，而出现的频率称作绝对支持度。( T)

24、使用 IF-THEN 规则分类，如果多个规则被触发，则需要一种解决冲突的策略来决定激活哪一个规则。(T )

25、正常点的数量远远超过离群点的数量，离群点的数量在大规模数据集中所占的比例较低，小于 5%甚至 1%。(T )

pta上的：

基于距离的离群点检测方法不能万能的。（T）

情景离群点是局部离群点的推广。（T） p353

高维数据的离群点检测，目前还没有科学有效的方法来进行。（T）

现实世界的数据库，极易受到噪声、缺失值和不一致数据的侵扰。(T )

Z分数规范化，就是小数定标规范化。( F)

K均值算法是一种基于代表对象的技术，K中心点算法是一种基于形心的技术。（F） K-均值算法：一种基于形心的技术，K-中心点：一种基于代表对象的技术 https://blog.csdn.net/u014593570/article/details/77716972

教材P241：从给定训练元组中有放回的均匀抽样，有多种自助方法, 最常用的一种是.618自助法，因为0.618代表黄金分割。（F）

教材P293：聚类方法有很多种，实际使用中只会选择其中的一种，聚类分析不会采用多种方法整合。（F）

教材P293：K均值算法适应性广，即使簇均值没有定义的情况，也可使用。(F)

简答题

1、(1)数据预处理的主要任务是？书上p56 答：数据清理：补充缺失数据、平滑噪声数据、识别或删除离群点，解决不一致

数据集成：集成多个数据库、数据立方或文件

数据变换：规范化、数据离散化、概念分层产生

数据归约：简化数据、但产生同样或相似的结果

(2)数据清理，对缺失值的处理方法是？书上p58 答：忽略元组

人工填写空缺值

使用一个全局常量填充空缺失值

使用属性的中心度量（如均值或中位数）填充缺失值

使用与给定元组属同一类的所有样本的属性均值或中位数

使用最可能的值填充空缺值

2、什么是监督学习？与无监督学习的区别是？什么是训练集与检验集?书上p213 答：在机器学习领域，分类称做监督学习，因为给定了类标号信息，即学习算法是监督的，因为它被告知每个训练元组的类隶属关系。

聚类被称做无监督学习，因为没有提供类标号信息。

训练集由数据元组和与它们相关的类标号组成，检验集由检验元组和与它们相关联的类标号组成。

3、请描述 K 均值(K-Means)算法的核心思想。书上p293 答：随机选择k个对象，每个对象代表一个簇的初始均值或中心

对剩余的每个对象，根据它与簇均值的距离，将他指派到最相似的簇

计算每个簇的新均值

回到步骤2，循环，直到准则函数收敛在这里插入图片描述

4.4、什么是离群点，离群点有哪些类型。书上p352 答：离群点是一个数据对象，它显著不同于其他的数据对象，好像它是被不同的机制产生的一样。

类型：全局离群点：显著的偏离数据集中其余部分的点

情景离群点（条件离群点：关于特定情境下，它显著的偏离其他对象，情景离群点是局部离群点的推广

集体离群点：一个数据对象子集作为整体显著的偏离整个数据集，这个子集形成集体离群点。

老师今年画的重点（背住）

一、属性有哪些？特点？书上p27 属性是一个数据字段，表示数据对象的一个特征。

包括：定性的：描述特征，不给出实际大小和数量：

标称属性其值是一些符号或者事物的名称，每个值代表某种编码或状态。是分类的，不必具有有意义的序。

二元属性(binary attribute) 是一种标称属性，只有两个状态：0或1。对称的(symmetric): 两种状态具有同等价值，携带相同权重。如：性别非对称的(asymmetric): 其状态的结果不是同样重要。如：艾滋病毒的阳性和阴性结果。对重要的结果用1编码，另一个用0编码。

序数属性(ordinal attribute) 其可能的值之间具有有意义的序或者秩评定(ranking)，但是相继值之间的差是未知的。

定量的：可度量的量

数值属性数值属性是定量的，它是可度量的量区间标度属性:使用相等的单位尺度度量。可以为正，0，负。值有序，可以评估值之间的差，不能评估倍数。没有绝对的零点。比率标度(ratio-scaled)属性:具有固定零点的数值属性。值有序，可以评估值之间的差，也可以说一个值是另一个的倍数。

其他类型

离散属性(discrete Attribute)：具有有限或者无限可数个值，可以用或不用整数表示。连续属性(Continuous Attribute)：属性值为实数。如果属性不是离散就是连续的。

二、什么叫数据立方体？什么叫冰山立方体？书上p122 答：

数据立方体是一种多维数据模型,允许以多维对数据建模和观察。数据立方体由方体的格组成，每个方体代表一个group-by，对应给定多维数据的一个不同级别的汇总。

冰山立方体：对于稀疏的数据立方体，我们往往通过指定一个最小支持度阈值（也称冰山条件），来进行部分物化。这种部分物化的方体称之为冰山方体，其只存放其聚集值大于某个最小支持度阈值的立方体单元。

三、简要介绍聚类方法，每种给出一个例子书上p320 划分方法：

概念：给定一个n个对象或元组的数据库，一个划分方法构建数据的k个划分，每个划分表示一个簇，并且k

云奕文章网

数据挖掘期末考题针对复习

相关推荐：