a. 数据分析概念、方法论、角色(占比1%)
b. 数据分析师职业道德与行为准则(占比1%)
c. 大数据立法、安全、隐私(占比1%)
u 1、数据分析概念、方法论、角色【领会】
数据分析基本概念(数据分析、数据挖掘、大数据)
数据分析:就是用数据来理性思考和决策的过程;
数据分析目的及其意义
数据分析方法与流程
数据分析的不同角色与职责
数据分析的分类:
数据分析(Data Analysis):是以数据为分析对象,以探索数据内的有用信息为主要途径,以解决业务需求为最终目标;数据挖掘(Data Mining):是一个跨学科的计算机科学分支,它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程;数据化工作:EDIT数字化模型:
E(Exploration)探索:指标体系;业务运行探索:探索关注企业各项业务的运行状态,各项指标是否合规,各项业务的具体数据情况等;
D(Diagnosis)诊断:性质分析法,数量分析法;问题根原因诊断:当业务指标偏离正常值时,采用定性和定量相结合的方式,在中、微观层面定位和分析问题;
I(Instruction)指导:知识库、策略库、流程模板;业务策略指导:在确定获得客群体后,我们就需要考虑如何制定业务策略指导。根据知识库、策略库和流程模板可以便捷的制定优化策略;
T(Tools)工具:数据模型,算法模型,优化模型;智能算法工具:算法架构是EDIT数据化模型的发动机,服务于价值经营,客群运营,全面质量管理,全面风险管理等各个方面;
u 2、数据分析师职业道德与行为准则【领会】
数据分析师职业道德操守
对于我们数据分析师,在价值观(开放、创新、分享)的基础上,同样有更高的职业道德操守与行为准则,需要我们每一位数据分析师都遵守;
职业道德操守:将数据产权、用户利益和机构利益置于个人利益之上,保护数据资产的安全性,遵循数据的真实性、可靠性,禁止技术欺诈、数据造假、非法交易,损害用户和机构利益;
保持和加强自身职业道德操守以及同行的操守,不参与任何违法行为,包括但不限于:偷窃、欺骗、腐败、挪用或贿赂,不使用或滥用他人的产权,包括数据产品和知识产权,不参与诽谤和侮辱,不宽恕或帮助他人参与违法行为;
数据分析师专业行为准则
数据分析师的行为准则,告诉我们应该怎么去做;
行为准则:专业、审慎、高效的完成各项数据分析的业务流程:
全面了解业务背景、痛点、需求,做出分析建议,与团队充分沟通,确定合理的业务指标,获取符合要求的源数据;
保持工具和算法的前沿性、适用性、高效性。根据业务需要,选择合理的工具、平台、系统和算法。
不断迭代并优化业务指标与数据模型;
撰写专业可视化报告,逻辑清晰展示项目成果,并做出具有商业价值的建议。
尊重契约,按时按质完整交付工作成果,并对相关数据、代码、结果进行保密;
履行后期义务与责任,完整交付结果后,对客户须进行后期解答、咨询、维护等服务,对机构义务须进行后期跟进、优化、指导建议等工作;
u 3、大数据立法、安全、隐私【领会】
国外隐私相关法律要求(参阅《国际数据保护规则要览》)
国内大数据立法的历程和展望(参阅《中国大数据法治发展报告》)
欧盟《通用数据保护条例》(General Data Protection Regulation,简称GDPR)中企业
和个人的数据使用权限
有关数据隐私和安全的立法,是一个单独的、严谨的领域,而且内容庞杂。无需背诵法条,而是要掌握数据安全法的立场与原则,然后去分析相关实际问题。
隐私与安全:隐私是一种个人的权利,即我的个人信息不被滥用,不被他人知道的权利;
安全是一种机制,即为了确保隐私权得到保护而设立的一种机制。
首先明确个人权利,然后设置机制去保护权利。
外国的相关法律:
GDPR条例:其核心目标是将个人数据保护深度嵌入组织运营,真正将抽象的保护理论转化为实实在在的行为实践;
企业在收集用户的个人信息之前,必须向用户说明:将收集用户的哪些信息、收集到的信息将如何进行存储、存储的信息会如何使用、企业的联系方式。
用户享有的权利有:一、数据访问权。二、被遗忘权。三、限制处理权。四、数据携带权。
我国的相关法律:《刑法》、《中华人民共和国网络安全法》。
《中华人民共和国网络安全法》:网络运营者收集、使用个人信息必须符合合法、正当、必要原则;
网络运营者收集、使用公民信息的目的明确原则和知情同意原则;
公民个人信息的删除权和更正权制度;
2020年6月28日-30日,《中华人民共和国数据安全法》迎来初次审议。
确立数据分析分类管理以及风险评估,检测预警和应急处置等数据安全管理各项基本制度;
明确开展数据活动的组织、个人的数据安全保护义务,落实数据安全保护责任;
坚持安全与发展并重,锁定支持促进数据安全与发展的措施;
建立保障政务数据安全和推动政务数据开放的制度措施。
PART 2 数据结构(占比15%)a. 表格结构数据特征(占比2%)
b. 表格结构数据获取、引用、查询与计算(占比3%)
c. 表结构数据特征(占比5%)
d. 表结构数据获取、加工与使用(占比5%)
总体要求
理解表格结构与表结构的数据特征、理解表结构与表结构数据获取操作方法、理解表结
构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能
够制作ER 关系图
u 1、表格结构数据特征数据类别:结构化数据和非结构化数据。结构化数据:交易记录、财务数据、产品信息等。非结构化数据:网站图片、视频、社交聊天记录等。
正在上传…重新上传取消
【领会】
表格结构数据概念
表格结构数据层级:对象间的父子级关系:父级→子级:一个父级对象下包含多个不同子级对象;子级→父级:一个子级对象只能属于某一个特定的父级对象;例如:省份与城市,月份与日期。
表格结构数据的数据类型:
正在上传…重新上传取消
表格结构数据处理工具
电子表格、数据库软件等
【熟知】
表格结构数据特征
u 2、表格结构数据获取、引用、查询与计算【领会】
表格结构数据获取方法
从企业后台数据库系统获取:
后台数据库系统获取数据流程
正在上传…重新上传取消
前端操作平台获取数据:前端操作平台 :ERP、CRM等,获取电子表格工具支持的数据文件。
从企业外部渠道获取数据:CSV、TXT、XLSX、ET.
【熟知】
单元格区域的特征
表格结构数据使用方法:
【应用】
表格结构数据的引用方法
单元格值的引用方法:引用同一工作表内单元格值:通过=行号+列号 定位单元格,如=A1;
引用单元格值:通过 =表名!+列号+行号定位单元格,如=Sheet1!A1;
单元格区域值的引用方法:
单元格区域:单元格区域需要由连续的单元格构成,单元格区域需要是一个方形区域;
引用相同工作表内的单元格区域:=左上单元格:右下单元格;如:
引用不同工作表内的单元格区域=表名!左上单元格:右下单元格;
引用多行:=上边行号:下边行号;
引用多列:左边列号:右边列号;
表格结构数据的查询方法
查询方法:a.使用表格工具搜索功能进行查询;b.使用查询函数进行查询;
函数:1.=;2.函数表达式;3.参数;4.操作符;5.返回值。如=sum(A1:A13)返回求和值。
用查询函数进行查找:VLOOPUP;
不同查询函数的基本逻辑相同,都是在某个范围内以某种方式查询与查询条件值相匹配的单元格值。
表格结构数据的计算方法:
直接计算:使用运算符连接单元格或单元格区域进行计算。常用运算符:正在上传…重新上传取消
表格结构数据的常用函数表格结构数据的计算方法-函数计算:使用函数对单元格及单元格区域值进行计算并返回计算结果。
正在上传…重新上传取消
u 3、表结构数据特征表结构数据:以字段或记录作为数据的引用、操作及计算的基本单位的数据。
字段:整列数;字段名不能重名,一个字段只能有一种数据类型。
记录:整行数;
【熟知】
理解主键的意义
物理意义:单字段主键:由一个字段构成的主键;多字段联合主键:由多个字段构成的主键,非空不重复,定位记录行、字段名+主键值定位具体数值;多以xxID、XXNO等名称命名;
业务意义:表的业务记录单位,在一个数据表中的所有非主键字段都要围绕主键展开;
理解维度及度量的意义
维度:业务角度;
度量:业务行为结果;
维度字段:文本型;
度量字段:数值型;
维度表:只包含维度信息的表;
事实表:既包含维度信息又包含度量信息的表。
理解缺失值
根据数据类型以及生成信息重要程度的不同,使用不同方法处理缺失值;
文本型字段:影响不大:可以选择不进行处理,或者也可以用其他没有实际业务含义的文本字符对缺失值进行替换;影响大:与业务人员进行确认后替换,或者与业务人员核实后删除;
数值型字段:综合考虑该数值型字段所代表的度量意义一级针对该数值型字段进行汇总计算的方式来最终决定对缺失值的具体处理方法;
表结构数据特征
以字段或记录作为数据的引用、操作及计算的基本单位的数据;所有字段记录行数相同,方形结构、记录行数相同、不存在空值、处理缺失值。一个表中只有一个主键;确定主键的方法:如果直接对数据库中的数据表进行操作,可以通过SQL语句来确定数据表的主键字段;如果间接在其他数据分析平台使用表结构数据(数据源是数据库中的数据表,使用时将数据源数据导入到其他平台使用),可以找原数据库中数据表的设计者咨询主键信息,或者直接查看数据表设计者留下的设计资料来对主键字段进行确认;
通过对数据表的业务意义进行分析,推测主键字段后再用物理手段确认推测主键字段中的记录值是否能够满足非空、不重复的要求来对主键字段进行确认;
表结构数据与表格结构数据差异
应用表哥结构数据,引用表结构数据。
u 4、表结构数据获取、加工与使用【领会】
表结构数据获取渠道及方法
关系型数据库管理系统:关系型数据库管理系统的主要任务是企业业务数据的存储、检索、访问与共享;
商业智能系统-BI:用于为企业决策者快速提供完整、准确、深入的数据分析结果,帮助企业决策者实现商业洞察;
ETL功能:将数据从数据源端经过抽取(Extract)、清洗转换(Transform)之后加载(Load)到数据仓库;
数据仓库-DW:用来存储分析所需要的不同数据源上的所有相关数据信息;
OLAP:连接信息孤岛、创建多维数据模型;
【熟知】
表结构数据连接逻辑
表结构数据的横向合并:将不同表中的字段信息合并到同一个表中使用;
通过公共字段匹配:拥有相同记录值的字段;
左表与右表:连接命令左侧的表为左表,右侧的表为右表;
连接方向:决定表的主附关系,主要使用左连接\右连接\内连接;
对应关系:决定连接结果行数是对应项乘积的结果;
R图:多表连接的鸟瞰图;多表中记录信息合并到同一个表中进行使用的合并方式称为纵向合并。
字段个数相同;
相同位置字段的数据类型相同;
去重合并与全合并;
表结构数据汇总逻辑
数据透视-对零散数据进行汇总分析;
维度:业务观测角度;
度量:业务行为结果;
汇总计算规则:衡量业务行为结果好坏程度的测量仪;
维度筛选度量,度量被维度筛选;
汇总计算规则:
正在上传…重新上传取消
数据分析的业务意义:数据分析是连接零散数据域人类认知间的桥梁;
ETL 作用、特征
【应用】
应用E-R 图
计算两表连接汇总值
PART 3 数据库应用(占比17%)a. 数据库相关概念(占比1%)
b. DDL 数据定义语言(占比2%)
c. DML 数据操作语言(占比2%)
d. 单表查询(占比3%)
e. 多表查询(占比3%)
f. 子查询(占比3%)
g. 数据库函数(占比3%)
总体要求
理解数据库的基本概念、理解DDL 及DML 语言、能够根据业务需求及数据特征使用
查询语言从数据库中获取准确、完整的数据信息、能够应用数据库函数进行数据处理及计算
u 1、数据库相关概念【领会】
数据库分类
SQL 语言的功能
【熟知】
数据库、数据库管理系统与SQL 之间的关系
数据库概述:关系型数据库管理系统(RDBMS)与结构化查询语言(SQL)
数据库是存储、调用、分析数据的仓库,主要分为关系型数据库与非关系型数据库两类。
关系型数据库是数据应用的主流,关系型数据库以行和列的形式存储数据,这一系列的行和列被称为表,一组表组成了数据库。
当前主流的关系型数据库有Oracle、DB2、Mysql等。
操作关系型数据库时使用的语言叫结构化查询语言,简称SQL结构化查询语言;
MySQL是最流行的关系型数据库管理系统之一;
数据库:数据库是表的集合,带有相关的数据;数据库负责数据收集、数据整合、数据调用等工作;
表:一个表是多个字段的集合;
字段:一个字段是一列数据,由字段名和记录组成;
u 2、DDL 数据定义语言【领会】
数据库基本结构
【熟知】
数据类型
约束条件
数据定义语言DDL是用来对数据库管理系统中的对象进行增删改查操作的SQL语句,一般应用DDL语言对数据库不同对象进行定义操作时,需要提前具备相应数据库管理权限;
内容:1.针对数据库对象的操作语言;2.针对数据表对象的操作语言;
【应用】
创建、选用、删除数据库
定义数据库-操作关系型数据库
创建数据库:create database 数据库名称;
查看创建好的数据库:show create database 数据库名称;
查看所有数据库列表: show databases 数据库名称;
使用数据库: use 数据库名称;
删除数据库:drop database 数据库名称;
创建、修改、删除表
数据库是由多个数据表构成的;
每张数据表存储多个字段;
每个字段由不同的字段名及记录构成,每个字段有自己的数据结构及约束条件;
创建数据表:create table 表名(字段名 字段类型);
如创建员工信息表: create table emp(depid char(3),depname varchar(20));
查看表是否创建成功: show tables;
删除数据表: drop table 表名;
位:位(bit)是电子计算机中最小的数据单位,每一位的状态只能是0或1;
字节:8个二进制位构成1个字节(byte),它是存储空间的基本计量单位;
数据类型:不同的数据类型具有不同的字节长度,字节长度越长能取值的数值区间也就越大。
数据表中的数据类型:
数值类型:1个int整数型数据占用四个字节长度。小数型:Float(),只能为有符号的,四字节;double(),只能为有符号的,8字节;decimal(),只能为有符号的;日期和时间类型:date,datetime,time,year等;字符串类型:char()固定长度字符串;varchar()可变长度字符串;BOLB或TEXT最大长度65537,存储二进制大数据,如图片;约束条件:约束是在表上强制执行的数据检验规则;用来保证创建的表数据完整和正确;
MySQL数据库常用约束条件:
正在上传…重新上传取消
主键约束:保证表中每行记录都不重复。主键列的数据必须唯一,且不允许为空;
主键分为两种类型:单字段主键,多字段联合主键;
非空约束:指的是字段的值不能为空,语法--字段名 字段类型 not null;
唯一性约束:要求该列的值必须是唯一的:
①允许为空,但只能出现一个空值;②一个表中可以有多个字段