本文根据 APUS 大数据负责人朱辉在神策 2018 数据驱动大会现场,发表题为《移动应用出海的大数据建设挑战》的演讲整理所得。

APUS 是智能手机上的用户系统。第一款产品 APUS Launcher 于 2014 年 7 月 2 日上线,截止 2017 年,APUS 系统及产品集群全球总用户数突破 12 亿,成为全球高速发展的互联网公司。

大数据的价值不仅是提供海量存储计算的支撑服务,而是解决实际问题、实现可量化的价值。APUS 大数据负责人朱辉在大会公布了 APUS 用户系统从 2014 - 2017 年的“全球用户增长曲线”,并介绍了在 2016 年引进“神策分析”启动了大数据业务。

同时,通过详细解读出海企业在建设大数据平台普遍存在的困难与挑战,通过技术创新实现了全球数据混合云的架构方案、以及介绍了大数据平台从脚本工具化、系统化到平台化、产品化的演进的整个过程,剖析了 APUS 从 0-1 建设大数据平台的实操方法论,此外,还通过构建全球用户画像、“海外互联网指数”、反欺诈引擎、推荐&广告等产品解读如何真正实现大数据的价值。

下面将主要介绍以下内容:

海外构建大数据业务冷启动问题

数据平台演进的四个重要阶段

用数据说话,构建数据驱动文化

创造可量化的价值,大数据的长征才刚开始

移动互联网大环境的变革,新的机遇和挑战

一、海外构建大数据业务冷启动问题

(1)数据中心建设

我们的用户分布在 200 多个国家和地区,为了保证用户联网的质量,必须采用成熟的公有云进行接入,但是海量数据的存储和计算公有云的投入成本巨大,所以我们选择了在全球自建数据中心,然后打通谷歌、亚马逊、微软等公有云,借助公有云的网络和自建私有云的存储和算力联合搭建大数据平台使成本可以节省 80% 以上。

(2)埋点采集数据

数据源是大数据成功的关键,构建数据壁垒需要考虑下面两点:第一,完善的协议文档培训、易用的采集 SDK 以及至上而下的推动至关重要。完成易用的采集 SDK 的权重占 40%,公司从上到下推动各个部门进行标准化数据采集 SDK 接入的权重占 60%;第二,研发数据质量监控系统、埋点元数据统一管理系统,提高业务方使用数据 SDK 的进行埋点联调测试的效能,为了避免后期使用打点的混乱。

二、数据平台演进的四个重要阶段

(1)脚本工具化

平台初期人手有限,很多数据工作都是用 Shell、Pyhon、PHP 等都是脚本完成的。脚本繁杂且不成体系,维护工作就变得特别重,整个团队效率非常低,数据经常出现问题。当时常说的一句话是:“我们不是正在补数据,就是在补数据的路上。”

(2)独立系统化

我们决定用系统化的解决方案代替脚本处理,采用高性能分布式日志采集系统,每日实时采集数据超过 10 亿条。我们研发了可扩展的日志消费系统,日均转移数据近 50 T;我们根据自身业务定制了 DAG 调度系统,日均提交 spark 任务 10 万次以上;我们果断拥抱开源的力量,引入阿里 datax 解决异构数据传输问题,引入 xxl-job 解决分片任务调度问题,引入携程 apollo 分布式配置系统解决配置统一化问题等。

(3)统一平台化

系统独立、分散、数据流转的环节多,可靠性无法保证。例如一款新产品接入神策系统,需要集成日志、清洗 ETL、配置各种数据源的调度任务、创建神策 project、验证数据等多个部门协作的环节,这极大的降低了团队的工作效率。我们需要各个环节打通,平台统一化,通过一个表单就可以自动化构建所有流程,无需登录各种后台以及服务器。经过平台化建设,我们数据接入的周期从 6 小时缩短到 10 分钟,相对的人力成本也降低了 70%。

举个例子:我们将创建神策 project、清理以及回溯数据的脚本,包装成统一的接口 API 服务,集成到工作流平台中统一管理。这样极大的方便了在 web 后台数据的统一维护,无需登录服务器操作。

(4)TO B 产品化

针对游戏行业我们研发了 BI 平台,支持多维度监控跟踪,360 度无死角监控分析用户生命周期的用户行为,超过 50 张报表和图表,帮助游戏开发者快速建立自己的数据分析系统。

该平台每天处理超过亿条日志,整套系统建立自 Hadoop、spark 生态系统之上,全部采用开源系统解决方案,采用 kafka+Flink 框架进行实时 ETL 流数据计算。综合分析涵盖了游戏分析中所需要的一些涉及活跃、注册、付费、在线等重要指标的基本报表,帮助使用者从整体角度来了解在选择时间段内的数据分布以及数据走势。绘制新增设备、新增账户、转化率三个指标的累积数据和趋势图,帮助追踪新玩家的数据,了解推广的力度。目前该平台正在内网 beta 测试,不久会开放给大家。

三、用数据说话,构建数据驱动文化

采用传统的 MR 统计、汇总结果到 DB 然后研发页面呈现的方式进行 BI 研发有三个弊端:(1)链路长、稳定性差、数据回溯维护周期长;(2)投入研发成本较高,多工种协作效率低,如仓库 ETL 工程师、后端工程师、前端工程师等;(3)因为维度、指标的不确定性,需求迭代慢,而且还会产生额外的算力浪费。

为了解决以上问题我们构建了 OLAP 数据仓库,并辅助一些相关措施,数据的稳定性从 7 日提高到 60 日,支持的报表以及数据服务也有了突破性的进展。这是我们团队目前取得的一些成绩。

四、创造可量化的价值,大数据的长征才刚开始

大数据到底能给公司带来多少收入?有没有可量化的评估指标?数据部门作为一个支撑部门,对于服务的及时性、满意度等都是支持部门的考核指标,然而这个考核指标形成不了价值闭环。那么大数据平台的目标是什么?是提供很多的数据检索的工具吗?或者是提供业务支撑的存储、计算服务吗?不同的企业针对大数据有不同的定位,我们的目标是利用大数据解决实际问题,扫除障碍、提升工作效率、附加增值收益、看得见的可量化的收入提升。

1.海外互联网指数

我们年初推出了全球互联网移动应用的一站式查询平台——“海外互联网指数”。据了解,该榜单涉及国家之多、展现数据之全、覆盖类别之广,在国内互联网行业无出左右。依托 APUS 全球 12 亿的海量用户资源以及创新的大数据 BI 技术,“海外互联网指数”可以实现对全球 20 个国家和地区、近 2000 款安卓 APP 数据活性的即时监测,对全球互联网企业及广告行业的实时信息查询极具参考价值。

“海外互联网指数”的强大之处在于可以以月度为单位、实时查询不同类别安卓 APP 的排名,客观反映某款移动应用的活性和受欢迎程度。截至目前,“海外互联网指数”查询平台覆盖了工具和游戏两个大类,以工具类别为例,又分成旅游和本地出行、社交约会、餐饮美食、家居装修、艺术和设计等 49 个细分领域。对于每一款单独的 APP,平台都支持从国家、分类、活性以及日人均打开次数等不同维度进行检索,并清楚地标识出该应用的排名和升降趋势。

值得一提的是,“海外互联网指数”在覆盖美国、英国、俄罗斯、日本、韩国等发达国家市场的同时,更将触角延伸到了包括印度、印度尼西亚、巴西、泰国、尼日利亚等在内的新兴国家,支持全球 20 个国家和地区的数据查询。通过“海外互联网指数”查询,互联网企业可以更直观地触摸到全球用户的移动互联网使用习惯,并对自身的经营和决策进行及时修正。举例而言,您可以了解哪些应用在印度更受欢迎,印度用户更痴迷哪些游戏类型——是益智棋牌、动作冒险还是体育竞技,以及他们在每一款 APP 上的平均使用时长等信息。

2.反欺诈引擎

APUS 在过去 4 年的发展历程中,在全球 200 多个国家和地区收获 10 亿用户的同时,深刻体会到黑产的危害。今年我们推出基于云端 spark 平台研发的反欺诈引擎,该引擎主要运用两种技术,第一种是规则引擎,另外一个则是无监督学习。

规则引擎根据设备地理信息、传感器信息、cpu 内存信息、存储信息、异常 APP 信息等设置相应的作弊权重,通过 200 多种规则进行作弊设备判别。无监督学习引擎主要运用分布式频繁项集、kmeans、dbscan 聚类算法等实现设备分群,比如在今天注册的用户中,假设有用户机型一致、ip 一致,有相似的行为、相似的特征,虽然无法判断单个设备是否作弊,但是该用户群可能存在作弊行为。APUS 的反欺诈引擎已累计检出几千万台问题设备,这些黑库资产可以共享给出海企业,给出海企业保驾护航。

3. 广告、推荐

在推荐和广告方面深入探索,建立了百万特征仓库、插件式算法框架和效果评估系统,使得新闻、视频、主题壁纸、生活服务等点击率获得 50% 的提升,整体广告转换率比随机投放提升 300% 左右。

4. APUS 相机

APUS 相机、抠图等产品需要进行 AI 支持,我们研发了人脸特征点检测技术,达到 68 个特征点,耗时不到 2 秒;同时研发了人体、头发轮廓分割模型,基于深度学习框架 caffe 训练,在移动端采用 ncnn 部署。 图像方向支撑了抠图、美颜、趣味贴纸、滤镜抠图等功能。当然,离行业的标准还差很远,我们也在尝试用 Tensorflow Lite 等技术进行端测方向的算法迁移。

5. 用户画像

用户画像的构建是 APUS 大数据业务最重要的工作,我们为全球用户做精准画像发现许多有趣的内容。比如零点时分,很多韩国人依旧在看漫画和小说;日本人是全球起床最早的国家之一,在早上 6 点多已经起床;我们发现全球网民使用手机的时间是 5 小时,而爱尔兰人的使时间居然超过 8 小时。美国人广告点击率最高,最关心朝鲜的国家是日本。用户画像已经使用在方方面面,例如内容、新闻推荐,广告算法模型,产品人群分析等等。举个例子:在广告推荐方向,使用画像和推荐算法能够比随机投放的转换率提升 3-4 倍。

五、移动互联网大环境的变革,新的机遇和挑战

谷歌、Facebook 等大厂已经形成数据壁垒;欧盟 GDPR 法规的颁布使得大数据合规和安全的工作又上了一个新台阶;发展中国家的流量红利也逐步从系统、工具层向新型内容、游戏、电商、金融等领域转移;大的环境在变化,新型营销需要更精准的人群画像和算法才能更好的利用流量,所以构建健康有效的大数据业务尤为紧迫,但是未来的挑战会越来越大,终端上的机器学习有着比云端更好的优势,需要进行算法模型的迁移,而且 TensorFlow.js 、TensorFlow Lite 等也会逐步成熟。多国家、多语言以及数据稀疏的问题让 NLP 更加复杂,全球化数据中心公有云和私有云之间的数据采集、交换也充满了挑战,作为中国互联网出海的先行者,APUS 希望与更多出海企业携手输出中国的先进生产力,通过先进的技术和创新的产品,为中国影响力在海外的传播贡献应尽的力量。

更多干货和案例,可以关注“神策数据”和“用户行为洞察研究院”公众号了解~