wx60de7917a81ce2021-07-05 10:56:39©著作权
文章标签数据治理文章分类数据库
©著作权归作者所有:来自51CTO博客作者wx60de7917a81ce的原创作品,请联系作者获取转载授权,否则将追究法律责任漫谈数据治理之一:计算与存储压力背景概要做数据的同学都能够有体会,当我们做业务时间长了以后,数据表的数量就会变得庞大无比,很多过去的逻辑,如果负责的同学离职了,那么能再看懂它的人就很少了。久而久之,就造成了表一大堆,没人敢动的问题。等到计算或者存储遇到瓶颈了,回过头来再改,会让人痛不欲生。主要痛点只建表,不删表:绝大多数做数据工作的同学,都没有及时清理无用表的习惯。交接过程产生漏洞:由于业务的问题比较繁琐,理解起来有一定难度,因此在离职交接时通常不会交接的很好,埋下了坑。日常研发过程无规范:很多中小公司,数据作为支持部门存在,解决需求就可以,没有长远的规划,时间久了看不懂的东西越来越多。野蛮开发,无序增长:业务高速发展时,大家以需求为第一目标,开发过程没有考虑计算与存储问题,频繁发生数据倾斜、全表扫描等场景,或者是数据存储周期设置不合理。谈一谈基本的治理思路主要就是两点:粗治理和细治理。粗治理:普遍性治理项目,通过自动的扫描可以获得的信息,通常包括如下几种:创建的临时表:以tmp/test开头的表;无访问信息表:例如最近一个月没有访问信息;无下游依赖表:下游没有使用方的表;无更新时间表:表结构长期没有更新信息。将以上四类表抓出来,基本上能处理掉一大批没人管的包。细治理:专项性质的治理方案,主要针对有人负责的项目,通常包括如下几种:运行时间过长的节点;存储空间过大的表。这一类的治理行为通常花费时间很长,但产生的效果会非常明显。能够沉淀下来的方法论数据治理是一个十分消耗时间的过程,也是一次自我革新的历程。除了制定一些可跟踪、可管控、可负责、可施行的方案外,最好能够制定一定的标准,即使这些标准很简单,也能够产生非常好的效果。对数据研发同学,就更要强化自我对于数据的治理意识,如果有可能,在招聘过程、晋升答辩、KPI制定中都加入数据治理相关的要求,对于推广更有帮助。赞收藏评论分享举报