CDA(Certified Data Analyst),即“CDA数据分析师”,是在数字经济大背景和人工智能时代趋势下,面向全行业的资格认证,旨在提升用户数字技能,助力企业数字化转型,推动行业数字化发展。「CDA人才考核标准」是面向全行业数据相关岗位的一套科学化、专业化、国际化的人才技能准则,CDA考试大纲规定并明确了数据分析师认证考试的具体范围、内容和知识点,考生可按照大纲要求进行相关知识的学习,获取技能,成为专业人才。
二、考试形式与试卷结构考试方式:线下考试,上机答题
考试题型:客观选择题(单选100题+多选20题+内容相关15题+案例分析15题)
考试时间:150分钟
考试成绩:分为A、B、C、D四个层次,A、B、C为通过考试,D为不通过
考试要求:闭卷上机答题,无需携带计算器及其他考试无关用品
三、知识要求针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1.领会:考生能够了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点之间的区别与联系,并能做出正确的阐述、解释和说明。
2.熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不同要求,做出逻辑严密的解释、说明和阐述。此部分为考试的重点部分。
3.应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根据具体要求,给出问题的具体实施流程和策略。
四、考试科目PART 1 数据采集与处理(占比12%)a.数据采集方法(占比2%)
b.市场调研和数据录入市场调研流程(占比1%)样本选取(占比2%)问卷设计及录入(占比2%)
c.数据探索与可视化(占比2%)
d.数据预处理方法(占比3%)
PART 2 数据模型管理(占比3%)a.数据分类(占比1%)
b.关系模型(占比1%)
c.数据仓库体系和ETL(占比1%)
PART 3标签体系与用户画像(占比5%)a.标签体系设计原理(占比3%)
b.标签的加工方式(占比1%)
c.用户画像(占比1%)
PART 4 统计分析(占比25%)a.抽样估计(占比5%)
b.假设检验(占比5%)
c.方差分析(占比5%)
d.一元线性回归分析(占比10%)
PART 5 数据分析模型(占比40%)a.主成分分析法(占比6%)、因子分析法(占比4%)
b.多元回归分析法多元线性回归(占比10%)逻辑回归(占比10%)
c.聚类分析法系统聚类法(占比3%)K-Means聚类法(占比2%)
d.时间序列(占比5%)
PART 6 数字化工作方法(占比15%)a.业务探查与问题定位(占比3%)
b.问题诊断近因分析(占比5%)根本原因分析(占比2%)
c.业务策略优化和指导业务目标设定原则(占比1%)知识库,策略库,流程分析(占比2%)线性和整数规划(占比1%)二次优化(占比1%)
五、科目内容PART 1 数据采集与处理1、数据采集方法【领会】一手数据与二手数据来源渠道优劣势分析使用注意事项【熟知】一手数据采集中的概率抽样与非概率抽样的区别与优缺点【运用】概率抽样方法,包括简单随机抽样、分层抽样、系统抽样、分段抽样 明确每种抽样的优缺点根据给定条件选择最可行的抽样方式计算简单随机抽样所需的样本量2、市场调研和数据录入【熟知】市场调研的基本步骤(提出问题、理论推演、收集材料、构建模型、归因分析)样本选取方式的适应性及优缺点问卷设计原理,问卷题型设置以及每类题型的数据编码及录入3、数据探索与可视化【领会】数据探索的目的与意义常用数据可视化工具软件(EXCEL BI、SPSS、PYTHON等)【熟知】数据探索与数据预处理之间的关系数据探索常用数据描述方法:集中趋势分析、离中趋势分析、数据分布关系、图分析数据探索常用数理统计方法:假设检验、方差检验、相关分析、回归分析、因子分析【应用】能够通过使用数据可视化工具(EXCEL BI、SPSS、PYTHON等)来完成相关数据分析项目的数据探索任务。(说明:考试中不会考核该部分工具和软件的使用方法)。4、数据预处理方法【熟知】数据预处理的基本步骤,包括数据集成(不同数据源的整合)、数据探索、数据变换(标准化)、数据归约(维度归约技术、数值归约技术),这部分内容不涉及计算,只需要根据需求明确可选的处理技术即可。【应用】数据清洗,包括填补遗漏的数据值(根据业务场景使用常数、中位数、众数等方法,不涉及多重查补的方法)、平滑有噪声数据(移动平均)、识别或除去异常值(单变量根据中心标准化值,多变量使用快速聚类),以及解决不一致问题(熟知概念即可),查重(只考核SQL的语句,不涉及其它语言)。PART 2 数据模型管理【领会】数据和信息的概念;数据分类中的主数据、交易数据和元数据概念数据库建模中概念、逻辑、物理模型之间的关系数据库范式的概念、数据仓库和数据集市、ETL过程【熟知】关系模型与维度模型的使用场景PART 3标签体系与用户画像1、标签体系设计原理【领会】区分标签和指标的概念精准营销与量化风控的概念消费者决策进程客户、产品、渠道标签的核心内容【熟知】分层标签和分群标签马斯洛需求层次理论与精准营销的关系2、标签的加工方式【领会】基础、统计、模型标签【熟知】RFM模型3、用户画像【领会】用户旅程分析标准用户分析与偏离度分析【熟知】用户画像技术在营销获客、风险防控中的应用PART 4 统计分析1、抽样估计【领会】随机试验、随机事件、随机变量的概念总体与样本的概念抽样估计的理论基础正态分布及三大分布的函数形式和图像形式抽样的多种组织形式确定必要样本容量的原因大数定律与中心极限定理的意义与应用【熟知】随机事件的概率抽样平均误差的概念与数学性质点估计与区间估计方法的特点与优缺点全体总体与样本总体参数和统计量重复抽样与不重复抽样抽样误差的概念对总体平均数、总体成数和总体方差的区间估计方法必要样本容量的影响因素【应用】随机变量及其概率分布全部可能的样本单位数目的概念及其在不同抽样方法下的确定抽样平均误差在实际数据分析中的计算方法2、假设检验【领会】假设检验的基本概念其基本思想在数据分析中的作用假设检验的基本步骤假设检验与区间估计的联系假设检验中的两类错误【熟知】检验统计量、显著性水平及对应临界值(Critical Value)的基本定义P值的含义及计算如何利用P值进行检验z检验统计量t检验统计量F检验统计量X2检验统计量的函数形式和检验步骤【应用】实现单样本t检验两独立样本t检验的步骤和检验中使用的统计量与原假设两种检验应用的数据分析场景3、方差分析【领会】方差分析的相关概念单因素方差分析的原理统计量构造过程【熟知】单因素方差分析的基本步骤总离差平方和(SST)的含义及计算组间离差平方和(SSA)的含义及计算组内离差平方和(SSE)的含义及计算单因素方差分析的原假设【应用】实现单因素方差分析的步骤对方差分析表的分析以及多重比较表的分析4、一元线性回归分析【领会】相关图的绘制与作用相关表的编制与作用相关系数定义公式的字母含义估计标准误差与相关系数的关系【熟知】相关关系的概念与特点相关关系与函数关系的区别与联系相关关系的种类相关系数的意义以及利用相关系数的具体数值对现象相关等级的划分回归分析的概念回归分析的主要内容和特点建立一元线性回归方程的条件一元线性回归系数的最小二乘估计应用回归分析应注意的问题估计标准误差的意义及计算【应用】运用简捷法公式计算相关系数与回归系数相关分析分析中应注意的问题回归分析与相关分析的区别与联系PART 5 数据分析模型总体要求领会模型基本原理,数值模型操作流程,懂得模型应用场景,能够完成数据建模分析报告。1、主成分分析【领会】主成分分析的计算步骤主成分分析中对变量自身分布和多变量之间关系的假设以及模型设置【熟知】适用于主成分分析的变量度量类型。通过分析结果,选取合适的保留主成分的个数,注意区分两种不同的分析目的(尽量压缩变量、避免共线性情况下保留