手机中的 App 每天为用户提供海量的信息和资讯,而个性化的推荐方式犹如一条准绳,把用户的兴趣点和期待感与平台串联,迅速优化用户体验。

神策智能推荐作为一款基于用户行为分析的全流程智能推荐产品,在提升用户体验、促活促留存、提升核心业务指标、提高 IT 的投入产出比等方面拥有极大的价值意义。本文将从神策智能推荐之深度学习模型的角度出发,分享推荐模型中的奥秘与优势。

目前,几种较为流行的推荐方式,下面为大家介绍一二。

一、人人推荐

就是从人口统计学的角度出发,根据人与人之间的行为相似程度,来为用户做出推荐。在这里举个例子:

小张,女,25 岁,由于在春晚里看到了在众人中独自穿黑色西裤唱歌的吴磊,被特立独行的气质吸引,遂在某电商平台上浏览并搜索了许多与吴磊相关的周边,最终下单购买了吴磊的新版签名写真一本。

小李,女,19 岁,同样在春晚中看到了新生演员吴磊,又觉得和自己年龄相仿,同样在该电商平台下单一本吴磊的最新版签名写真。在逛的同时又想起了说相声的岳云鹏,于是又下单一套小岳岳的最新相声选。

当 25 岁的小赵在平台搜索吴磊相关的周边时,由于小赵的基本信息与小张相似,于是平台就向她推荐了和小张一样的最新版签名写真。

这就是基于人与人之间的推荐方式,首先找到和小张有相似喜好与兴趣的用户群体,接着把这个“兴趣”推给像小张一样的小赵。

但一个很现实的问题在于,在推荐的时候还要剔除掉小赵已有的兴趣产品,如果说小赵本身已经拥有了一本吴磊的新版签名写真,那么她对平台给她推荐的这款产品可能就会嗤之以鼻。另外,用户并不拥有单一的产品兴趣点,当兴趣点与偏好足够多且复杂时,靠相似人群的推荐方式可能就不那么科学和合适。

二、物物推荐

物物推荐,即与上述的“人”的特性无关,只通过“物”与“物”之间的方式传递推荐信息。同样,举个方便理解的例子:

小 A,喜爱看《琅琊榜》,该剧的标签为:剧情,古装,正午阳光。

同时,他又热衷于看美剧《黑色童话》,该剧的标签为:惊悚,现代,美剧。

于是,当《知否知否应是绿肥红瘦》出现的时候,平台就把该剧推荐给了小 A,因为《知否知否应是绿肥红瘦》的标签为:剧情,古装,正午阳光。与他喜欢的《琅琊榜》相似,应该会比较符合小 A 的口味。

这样的推荐方式需要十分了解“物品”的标签,对于标签的产生源与准确性同样存在一些不可避免的问题。引用神策数据架构师房东雨在神策 2018 数据驱动大会现场的发言内容,此类推荐方式存在的缺点如下:

  1. 标签的粒度如果很粗,推荐结果将受影响。
  2. 不同标签的产生者会对标签赋予不同的含义,运营、用户、机器等标签的产生方式都会对推荐结果造成影响。
  3. 因为规则量化不准确,会产生拍脑袋做决定的现象。
  4. 探索性和扩展性受到标签的限制。假如小 A 观看的视频平台中没有“正午阳光”这个标签,那么这样的剧就会被划到其他的类别中。

不管是人人推荐,还是物物推荐,我们都可以将其归类在协同过滤的推荐方式中,协同过滤的推荐方法以兴趣为根据,不需要人工进行标签的检查和更新,尽管面临冷启动困难等问题,但其仍是目前较为有效的推荐方法之一。

三、科学合理的神策智能推荐之深度学习模型

在对目前的推荐体系进行深度研究之后,深度学习召回模型拥有更科学的技术支撑和更合理的推荐方式,其优势性较为突出。 图片来源:谷歌发布的《Deep Neural Networks for YouTube Recommendations 》论文

首先,神策智能推荐的结果分为两个阶段,召回和排序,其实很好理解。

第一,召回,以内容类产品为例。在平台浩如烟海的文章中,为了使用户对平台产生强大的粘性,第一步就要先为平台用户召回一些他可能感兴趣的内容。神策智能推荐一天可为用户推荐的文章量级为 10 万篇,10 万篇文章可能横跨十几个类别,如体育、历史、娱乐、政治、社会等,当我们发现一名用户对“体育”和“历史”类的文章非常感兴趣后,在召回阶段就会将该用户不感兴趣的类别过滤掉。

第二,排序。当我们带领用户进行完召回阶段之后,接着会通过机器学习的方法对每一篇文章进行点击的预估,之后利用更多的特征和更多的数据去完成排序这件事情。

我们可以根据兴趣召回或者根据热门事件召回一些内容,而不同的召回方法并不是有序存在的,需要通过排序的方式对其进行整理。当然,它仍要基于数据的准确采集以及整合。

其次,深度学习召回模型相比协同过滤等其他推荐方式,存在较为明显的优势。

优势 1——更全面的行为表达

神策智能推荐所采用的深度学习方式能够更加全面地表达用户的行为。在传统的协同过滤中,大多依赖于用户的点击行为,对于用户没有点击的部分,几乎不能对其进行一些整合和分析,举一个简单的电商场景实例。

比如,用户小王在情节人前夕在某电商平台中搜索玫瑰花,之后页面弹出许多玫瑰花的信息,但正当小王准备点开第二行第三列的某个品牌的玫瑰花商品详情时,突然接到领导的开会通知,便迅速拿起笔记本去参加会议。

在这个案例中,小王只是进行了搜索,并没有点击任何玫瑰花产品相关的内容,如果运用传统的协同过滤方式,没办法在后续的推荐中对用户没有产生点击行为的产品进行推荐。而深度学习召回模型可以考虑到用户的搜索情况,当小王搜索了玫瑰花之后,就能接收到类似“小王准备购买玫瑰花”的信息。深度学习模型能够更全面地表达用户的相关行为,它用足够大的拓展度的韧性去为推荐市场发挥自己的优势。

优势 2——可添加画像特征

可添加画像特征指的是,深度学习模型可以融合一些与用户相关的年龄、性别、地域等属性特征,把这些额外的标签聚合到模型中去。举一个简单的电商场景实例。

电商平台每天除了给老客户推荐各类产品之外,不能忘记还有一批人群——新注册用户。假设我们知道用户的性别,即使他们从未在平台上发生过相关购买行为,那么也能根据他们的画像标签进行相关产品的推荐,比如为女性推荐化妆品,为男性推荐篮球鞋等,这是传统的物物推荐无法做到的。

优势 3——包含行为顺序

尽管我们做了召回,但并不代表只要最终结果符合用户的相关偏好,我们就可以对其进行推送。举一个视频平台的场景实例。

当用户小 A 在平台看完《知否知否应是绿肥红瘦》的第 15 集后,她更愿意看到平台为她推送第 16 集的内容,而不是第 3 集或第 22 集。

神策智能推荐行为顺序相关的学习能力,在逻辑上与用户保持一致性,它的整体表达能力将比传统的推荐模式更为优秀与合理。

优势 4——组合复杂特征

神经网络可以进行更复杂的特征组合,挖掘更深层次的关联关系,当试图寻找用户的特性以及其相关行为背后的蛛丝马迹时,神策智能推荐的数学化的语言和思路将是优选,这是协同过滤无法完成的任务与无法达到的高度。

第三,根据客户的需求方向,神策智能推荐根据数据算法可提供 3 种优质的排序模型。

在上述 3 种排序模型当中,后两种为深度学习模型,但这并非意味着越复杂的模型对客户的使用价值就越大。神策智能推荐根据客户的方案与需求,以及机器配置和技术能力,围绕对方数据采集、建模、分析、反馈的闭环流程,紧贴客户业务实践,完成排序模型的搭建与使用。

在数据方面,神策智能推荐基于神策分析大、全、细、时四个维度采集数据,保证用户数据的全端采集,以及标签体系和用户画像的建立,依托神策分析强大的数据采集与分析功能,从根源上保证数据的准确性与时效性。

在算法方面,神策智能推荐拥有丰富的算法建模经验,同时可实时进行数据反馈,并根据算法结果对模型进行有效迭代。并且,强大的多指标分析能力将会从底层开始助力企业核心业务指标的提升。

在安全层面,神策智能推荐系统提供私有化部署方案,科学智能的部署方式保证各项用户行为数据的安全可信,同时,神策智能推荐遵守互联网大数据中安全的安全规则,为用户数据安全提供保障。

在行业发展层面,神策智能推荐系统秉承神策数据一贯的开放性,将开源的“白盒”概念放在人人可近观讨论的桌面之上,相比传统的数据黑盒,开放包容的空杯心态将持续推动推荐系统的优化迭代以及行业的迅速发展。

四、深度学习召回模型下的“冷启动不冷”

在推荐的相关事项当中,冷启动一直是一个逃不开的话题,冷启动之所以难启,中心问题大多集中在新用户并没有任何行为使用痕迹。通常的解决方式比如依靠人口统计学信息,对相关属性的用户进行不同类别的推荐,或是在新用户的初始页面放入各类兴趣按钮,供用户选择。

除此之外,神策智能推荐的冷启动围绕“新用户”和“新内容”两方面,进行解决。

在内容层面,以新闻资讯为例,可利用自然语言处理技术去做个性化规划,针对资讯类的文本内容完成个性化推荐。

在用户层面,在客户拥有外部数据的情况下,比如用户申请注册时填写的相关信息等,神策智能推荐可将这类信息做深度的整合与关联,挖掘内部相关性,与最终推荐结果进行关联。例如,当外部数据显示该用户手机中装有多款旅行 App 时,那在进行推荐结果的计算与分析时,可能就会向游记、攻略等内容靠拢。

而当没有外部数据的情况时,根据客户本身的需求,神策智能推荐可提供个性化的推荐方案,客户的需求包括但不限于用户类别、用户层级、用户属性占比等。综合考虑平台用户的多样性与大众性,助力企业平台的全景战略规划。

尽管深度学习召回模型的算法模式优势显著,但若想让深度学习充分发挥其该有的万丈光芒,还需在基础数据上做足功夫。

首先,充分保证数据的准确性。神策分析为神策智能推荐提供扎实的数据采集与分析能力,立足全局的全埋点为数据的深挖与分析提供良好的保障。“重分析,轻采集”是许多从业者的通病,以偏概全地执着于某种埋点方式,以及杂乱无序的采集方式,都注定会将后期的演进与发展变成虚无缥缈的空中楼阁,即使拥有强有力的技术团队,也无法将深度学习模型的精髓落地于业务实践。

其次,业务需求与深度学习模型的契合对接。深度学习模型与业务需求的完美结合,直接关系到推荐业务对用户实际意义的价值大小,业务需求和数据模型搭建的无缝转译,是数据驱动业务结果的关键环节,更是基于客户的业务客观条件、设备处理能力、资源投入的现实考虑。

最后,良好的技术能力是系统性整合的支撑。常见的推荐模型与分析思路在形式上和初始理念上都拥有极大的共通性,评价在这些共性模式状态下展开的线条是否流畅,很大程度关乎技术人员的实力及问题处理水平,模型是否能表达用户的实际价值,以及是否能真正驱动业务。

更多干货和案例,可以关注“神策数据”和“用户行为洞察研究院”公众号了解~