在分别介绍完系统架构和数据流之后,本节我们将针对具体的业务分析与模型进行相应的介绍。

我们在着手准备推荐业务之前,首先需要对其现有业务有一定的理解。以短视频推荐案例为例,我们通过神策分析对这个短视频产品的业务数据做了一些简单的分析,用于指导我们后续的策略研发。

这些分析指标包括活跃用户量、视频量、视频平均播放次数、视频平均观看时长等。从这个分析中,我们得到了一个初步的结论,对比每日众多的活跃用户量,相当比例的视频的播放次数非常有限,为长尾冷门视频。

因此,在进行个性化推荐时,我们会尝试激活其中的高质量视频,同时也会挖掘热门视频,吸引用户观看产生更多的行为,以便后续业务迭代升级。与此同时,在这个分析过程中,我们也确定了此次个性化推荐的评价体系,也是日后迭代优化的目标,即从视频平均观看时长、用户留存、视频播放 CTR(Click ˛rough Rate,点击通过率) 这几个指标来衡量。

其次,我们进一步来分析数据的特点,以便协助进行模型的选择。对这个短视频推荐案例来说,它的用户行为数据量级足够大, 每天会产生巨量的播放、点击行为;可推荐视频总量相比用户行为数据要小一个量级,并且已有一套自己的视频分类体系。

基于上面的数据特点,我们决定以用户行为推荐为主,基于内容的推荐为辅。选择在深宽模型模式上采用HMF模型来生成候选集合,再通过主题模型对推荐结果进行多样性优化(打散),最终辅以部分人工策略召回来构成我们的召回候选集合。

下面,我们对这三类模型做一个简单的介绍。

1.HMF 混合矩阵分解,即使用隐式反馈来做矩阵分解。 隐式反馈多为用户正常使用产品所产生的行为,并非为了表达兴趣、态度,例如点击、播放、浏览详情页等。显式反馈则相反,例如评分、赞同/反对。

我们采用隐式反馈,一来数据比显式反馈更加稠密,二来隐式反馈更代表用户的真实想法,三来它更容易激活一些小众的 Item,而这恰恰呼应了我们最初定下的优化指标。在该场景下,我们学习一段用户观看视频的序列,预测对下一视频喜欢的概率。

2.深宽模型,主要是相对传统的机器学习模型而言的,如图 1 所示。传统的机器学习模型多为宽模型,即广义线性模型与特征海洋战术的结合。现在较为火热的深度神经网络为深模型。深宽模型即两者的结合,深模型和宽模型以及最终融合的权重放在一个模型训练流程中,不存在分阶段训练,直接对目标函数负责,端到端更加简洁。非常适合高维稀疏特征的推荐场景,发扬了稀疏特征的可解释性加上深度模型的泛化性能,双剑合璧。

图 1 宽模型与深模型(图片来源于网络)

3.主题模型的采用,主要是因为隐式反馈不能解决标题党的问题。

尤其在短视频行业,高亮的标题与“三俗”的图片都会吸引用户点击,对平台的长期价值是有损的。我们采用主题模型一方面可以改善推荐结果中的多样性要求,另一方面也可识别标题党对其降权。

实验与迭代

除了基于数据的情况选择合适的模型以外,实验与迭代对于一个个性化推荐系统也是至关重要的。 秉承数据驱动的理念,我们在每一次策略上线时都会创建一组 A/B 测试,借助我们的实验分流系统,根据行为所持有的实验编号即可在神策分析平台中实时追踪、对比上文提到的几个关键的迭代和优化指标,并一次跟踪实验效果。根据实验的最终效果,最终以逐步开大流量的方式来最终完成线上策略的迭代。

更多数据分析干货和案例,可以关注“神策数据”公众号了解~