在数据应用过程中,数据采集和数据治理是两大核心抓手。本文继《方法论 + 实践,全面解析数据采集方案》之后,作者王灼洲通过两大挑战、三大原则详细阐述了对于企业数据治理的思考。主要内容如下:

· 数据治理的定义和重要性
· 数据治理面临的两大挑战
· 数据治理的三大原则

一、数据治理的定义和重要性

在讨论数据治理之前,我们需要对于数据治理下一个明确的定义,数据治理到底包括了哪些范畴。从我们的视角来讲,数据治理,是指“组织对数据的可用性、完整性和安全性的整体管理”。

数据的可用性,是指数据本身是可用的、可信的和质量有保证的,不会因为本身的数据质量给后续的数据应用带来问题;

数据的完整性,是指我们收集的数据本身是完整的,能够覆盖各类数据应用的需要,不会因为缺少了对某些数据的采集,而带来了数据资产的流失;

数据的安全性,则是指数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患。

数据治理的核心,就是帮助我们可以更早、更及时、更高效的发现埋点问题和数据问题,确保后续数据应用的正确性和价值传递。 因此,数据治理的重要性,是毋庸置疑的,它是所有数据应用的基础和根基,它的好坏直接影响数据应用过程中的价值体现。同时,数据治理也是一个组织进行数据资产沉淀的基础,直接决定一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分地发挥数据价值。

二、数据治理面临的两大挑战

在进行数据治理的过程中,通常会面临两大类挑战。

第一类挑战,是由于客观的技术问题带来的。

技术方面带来的挑战,其实比较容易理解,业务越复杂,数据应用越多,需要采集的数据源就会越多,需要处理的数据问题也会越多,自然就会有更大的挑战。
具体来说,这些技术细节上的挑战包括:
· 数据传输方面的挑战:比如数据如何通过公网进行可信传输;
· 数据准确性方面的挑战:如何保证数据不重复、不丢失;
· 时间同一性方面的挑战:客户端时间不准确时如何处理;
· 兼容性方面的挑战:不同系统、不同设备之间的兼容性如何处理;
· 性能影响方面的挑战:在数据采集的过程中,如何最大限度地减少对客户端性能和业务的影响;
· 可测试性方面的挑战:如何在数据治理开发过程中方便地进行调试和自测。

除此之外,数据治理,或者说数据治理中的采集部分,还会面临用户隐私与安全方面的挑战,包括如何应对 GDPR 和工信部等法规的要求,如何在组织内部对敏感字段进行审核,如何进行数据在不同行、不同列上的权限控制,以及如何在传输和处理过程中对数据进行加密和解密。

针对第一类挑战,我们建议可以使用统一的数据采集和数据导入工具,比如使用专业的数据采集 SDK,可以将多端数据采集工作进行统一化、专业化和标准化,最大限度地降低在数据采集或者导入的过程中,出现问题的各种可能性。

第二类挑战,是由于人或组织架构的问题带来的。

这些挑战主要体现在:关键角色权责不统一;多个部门之间配合不到位;数据治理各个相关角色缺乏共同语言;不同角色的付出与收益脱节;谁来对数据的质量负责等。

要想彻底解决这些挑战是非常难的,这是一个漫长的过程。不过,我们也可以使用一定的技术手段来缓解这些问题。比如,我们可以使用统一的数据模型,像神策的 Event-User-Item 模型,可以在一定程度上解决各个组织架构和部门缺乏共同语言的问题,同时也能缓解跨部门、跨业务带来的一些挑战。

数据治理横跨多个环节,是一场“持久战”,并不是一蹴而就的事情,它需要我们不断地投入时间和精力,同时也是一个极易出错的过程。因此,在数据治理的各个环节,需要有专业的人员进行咨询、支持、协助和统筹,比如像神策数据的专业分析师等角色,他们是数据治理的专业人员,可以在一定程度上协助客户解决问题。

三、数据治理的原则

结合过去五年累计服务 1500+ 家企业客户的经验,我们总结了数据治理的三大原则:

1.不要先污染后治理,而是应该从源头控制

这个原则比较好理解,就像人生病了去医院一样,一般都是因为已经“生病了”才会选择去医院,这个时候不管采用何种治疗方案,都会对我们的身体有一定的伤害,即使康复了,也有可能留下后遗症。因此,我们平时更应该多看“保健医生”,确保我们尽量不要生病,即便无法完全规避,最起码也可以及时发现异常,通过适当的锻炼增强体质。

一旦数据被污染了,发现、制定方案和清洗均是一个漫长的过程,最终还不一定能达到我们的预期。比如,数据的治理需要伴随 App 发版,但即使我们新版本发出去了,用户也不一定会升级,从而导致部分数据一直被污染。

如果借助数据治理产品,比如神策的 SDG,就可以在数据接入或者数据校验阶段,在产品系统内通过对上报数据的字段设置一定的校验规则,当有数据导入并且校验未通过时,就会在质量看版中进行报警和展示,埋点研发/分析师便可以集中定位/查看/反馈埋点问题。

字段规则如下:
· 设置字段为必要字段,则该字段不能为空值或者不上报;
· 枚举校验,可以设置字段的枚举值内容;
· 正则表达式校验,可以设置字段满足的正则表达式;
· 区间校验,可以针对数值类型字段设置其数值区间;
· 等值校验,可以设置该字段的值为特定值,可以理解为只有一个值的特殊枚举。

因此,对于数据治理,不要先污染后治理,而是应该从源头控制。

2.数据治理的过程要贯穿到整个业务迭代的过程中

在我们刚开始进行数据治理时,通常情况下,由于内部的重视,能够在数据治理方面取得较好的成果。但随着业务的持续迭代,数据应用的需求以及系统本身也在不断发生变化,数据治理也需要随之进行不断地更新与调整。在这个阶段,由于对数据治理的重视程度下降、组织架构以及人员变更、流程不稳定、不全面等因素,数据治理的结果一般很难保持在一个较高的基线,反而会越来越差,直至无法满足最终的数据应用需求。

以在线推荐系统为例,如果用于给机器学习训练的 Item 数据流、曝光和点击事件导入有延迟、故障,会直接影响在线服务,比如出现刷不出新条⽬推荐系统 fail 的情况。

数据治理相关的产品,一般都会提供支持自主设置规则的监控能力,比如连续 3 ⼩时每个 Item 数据流上报量⼩于 100 条,当上报量在设置的时间范围内不满足预期时,会自动上报到报警平台并展示。

因此,数据治理的过程要贯穿到整个业务迭代的过程中,业务发生了变更,组织架构发生了变更,数据治理方案和流程也应该随着进行变更。

3.以产品化、组件化的思路来解决,不能只依赖于人工

神策数据提供了标准的数据采集 SDK,将匿名 ID 生成、基础属性采集、数据打包压缩加密、本地缓存、网络传输、时间校准、远程控制等通用功能,都进行了产品化与标准化处理。除此之外,还可以将数据治理过程中通用需求和通用治理方案,以产品化的方式进行沉淀。 数据治理,我把它理解为“纪检委”的角色,不能只依靠发现问题之后去处理,更应有前瞻意识,时刻保持监督与检查;因为没有完美的方案满足业务发展过程中遇到的所有问题,所以我们唯一能做的是根据业务发展和产品迭代状况,及时调整数据治理的规则。

作者介绍

王灼洲先生是《Android 全埋点解决方案》《iOS 全埋点解决方案》作者,神策数据治理研发部负责人。有 10+ 年 Android & iOS 相关开发经验,是国内第一批从事 Android 研发工作,开发和维护国内第一个商用的开源 Android & iOS 数据埋点 SDK。

王灼洲先生曾就职于北京天宇朗通通信设备股份有限公司,担任 Android 系统工程师。毕业于北京理工大学,软件工程专业。

关于神策数据

神策数据是专业的大数据分析和营销科技服务提供商。公司围绕用户级大数据分析和管理需求,推出神策分析、神策用户画像、神策智能运营、神策智能推荐、神策客景等产品。

此外,还提供大数据相关咨询和完整解决方案。神策数据积累了中国银联、小米、中邮消费金融、海通证券、广发证券、东方证券、中原银行、百信银行、中青旅、四川航空、VIPKID、东方明珠、华润、有赞、百姓网、货拉拉、闪送、驴妈妈、Keep、36 氪、拉勾、VUE、春雨医生、聚美优品、边锋游戏、捞月狗、纷享销客等 1500 余家付费企业用户的服务和客户成功经验,为客户全面提供指标梳理、数据模型搭建等专业的咨询、实施和技术支持服务。希望更深入了解神策数据或有数据驱动相关问题咨询,请咨询4006509827,由专业的咨询顾问为您解答。