导航菜单
首页 >  数据结构与算法期末考试简答题  > 数据挖掘期末复习简答题(自用)

数据挖掘期末复习简答题(自用)

摘要: 数据挖掘期末复习简答题(自用),包括数据仓库与数据挖掘概述、OLAP和多维数据模型、数据仓库设计、关联分析算法、决策树分类算法、贝叶斯分类算法、神经网络算法、回归分析算法、时间序列分析、聚类算法🍃

万字详解整个数据仓库设计体系

第一章 数据仓库与数据挖掘概述(1)简述数据仓库具有哪些主要的特征

面向主题:数据仓库是按照一定的主题域进行组织,反映用户使用数据仓库进行决策时所关心的重点方面,如客户、产品、销售等。是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。20230603235002

集成性:数据仓库中存储的数据一般是从企业原有的数据库系统中提取出来的,但不是对原有数据的简单拷贝,而是经过了抽取、筛选、清理、转换、综合等工作。

稳定性(非易失性):数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,数据仓库在某个时间段来看是保持不变的。一旦某个数据进入数据仓库以后,一般情况下将被长期保留。20230603235513

随时间而变化即时变的:数据仓库大多关注的是历史数据,其中数据是批量载入的,即定期从操作型应用系统中接收新的数据内容,这使得数据仓库中的数据总是拥有时间维度。系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。20230603235733

(2)简述数据仓库与传统数据库的主要区别

数据仓库与传统数据库的主要区别在于以下几个方面:

数据来源:数据仓库是将来自多个源系统的数据集成到一个统一的数据存储中,以支持更复杂的分析和决策。而传统数据库则是对特定业务应用程序的数据进行管理存储。数据结构:数据仓库通常采用星形、雪花形等复杂的数据模型,以支持多维度查询和分析。而传统数据库通常采用关系型模型(RDBMS),以支持事务处理和数据的增删改查。数据处理:数据仓库通常包括数据抽取、转换和加载等复杂的ETL过程,以保证数据的质量和一致性。而传统数据库则不需要这样的过程。数据使用:数据仓库的目的是为了支持高级别的分析和决策,因此,它通常设计用于读取,分析和查询大量数据的操作。而传统数据库则更侧重于支持交易处理,如数据的增删改查等操作。20230604000419两者相辅相成,各有千秋

总之,数据仓库和传统数据库在数据处理和使用方面有很大的差异,数据仓库更适合于处理大量数据,支持多维度查询和分析,对于辅助决策非常有帮助。而传统数据库则更加适合于数据的增删改查等操作,是支持业务应用程序的关键数据管理工具。

(3)简述数据仓库的体系结构

数据仓库的体系结构一般分为以下三个层次:

数据源层:数据源层包括多个内部和外部的数据源系统,如企业日常的交易系统、客户关系管理系统、供应链管理等系统。这些系统可以通过不同的技术手段进行数据抽取并进行处理,包括数据清洗、转换和集成等操作以确保数据质量。

源数据:此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。

数据存储层:数据存储层是数据仓库的核心,用于保存来自不同数据源的数据,并且结构化为星型或雪花型的维度模型。此外,为了提高数据查询效率,还会使用索引和分区技术等进行优化。

数据仓库:也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。

数据访问层:数据访问层是用户与数据仓库进行交互的接口。数据访问层一般包括多个OLAP和BI工具,可以为用户提供多种查询功能,如标准报表、分析性查询、在线分析等,便于用户进行数据分析和决策。按照数据流入流出的过程,数据仓库架构可分为:源数据、数据仓库、数据应用20230604150052数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。

数据应用:前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。

在实际应用中,数据仓库的架构结构有时还会添加多层数据预处理阶段,比如数据挖掘等,以支持更复杂的数据分析和决策。总之,数据仓库的体系结构设计需要根据企业自身的数据需求和项目实际情况进行优化和调整,以提高数据管理的效率和价值。20230604144030

(4)简述数据挖掘的基本步骤

数据挖掘的基本步骤通常包括以下几个方面:确定问题、特征选择和提取、模型选择和建立、模型评估和优化、结果解释和应用。总之,数据挖掘是一个比较复杂的过程,需要在不同的阶段进行多种技术手段的处理,以得到最终有效的结论和结果。

20230604144502

20230604144611

(5)简述在数据挖掘中为什么要进行数据预处理

原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计算量,提高数据挖掘效率和准确程度。

第二章 OLAP和多维数据模型(1)简述OLAP的定义和特性

OLAP是一种软件技术、它使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的。这些信息是从原始数据转换过来的,按照用户的理解,它反映了企业真实的方方面面。

OLAP的主要特性是快速性、可分析性、多维性和交互性。

多维性:OLAP技术是面向主题的多维数据分析技术。主题涉及业务流程的方方面面,是分析人员、管理人员进行进行决策分析所关心的角度。分析人员、管理人员使用OLAP技术,正是为了从多个角度观察数据,从不同的主题分析数据,最终直观的得到有效的信息。可理解性或可分析性:为OLAP分析设计的数据仓库或数据集市可以处理与应用程序和开发人员相关的任何业务逻辑和统计分析,同时使它对于目标用户而言足够简单。交互性:OLAP帮助用户通过对比性的个性化查看方式,以及对各种数据模型中的历史数据和预计算数据进行分析,将业务信息综合起来。用户可以在分析中定义新的专用计算,并可以以任何希望的方式报告数据。快速性:指OLAP系统应当通过使用各种技术,尽量提高对用户的反应速度。而且无论数据库的规模和复杂性有多大,都能够对查询提供一致的快速响应。合并的业务数据可以沿着所有维度中的层次结构预先进行聚集,从而减少构建OLAP报告所需的运行时间。(2)简述星型模型、雪花模型和事实星座模型各有什么特点

多维数据模型各种类型(星型、雪花、星座、交叉连接)

星型模型:是数据仓库建模中最简单和最常用的一种模型,它由一个事实表和多个维度表组成。事实表包含了需要分析的指标数据,如销售额、利润等;维度表则包含了描述事实表数据的维度,如时间、地点、产品等。星型模型具有简单、易用的特点,适合于简单的数据分析场景。星型模式核心一个大的事实表,周围小的维度,形状如星星20230604143317雪花模型:在星型模型的基础上进行了优化,将多个维度表进一步细化,使其变为多个分层的维度表。这样做可以避免数据冗余和数据不一致问题,但也导致查询复杂度增加,需要

相关推荐: