大数据文摘投稿作品
作者:郭一
整理:董黎明
本文整理自2019阿里云峰会·上海开发者大会开源大数据专场中小红书实时推荐团队负责人郭一先生现场分享。小红书作为生活分享类社区,目前有8500万用户,年同比增长为300%,大约每天有30亿条笔记在发现首页进行展示。推荐是小红书非常核心且重要的场景之一,本文主要分享在推荐业务场景中小红书的实时计算应用。
实时计算在推荐业务中的场景
线上推荐流程
小红书线上推荐的流程主要可以分为三步。第一步,从小红书用户每天上传的的笔记池中选出候选集,即通过各种策略从近千万条的笔记中选出上千个侯选集进行初排。第二步,在模型排序阶段给每个笔记打分,根据小红书用户的点赞和收藏行为给平台带来的价值设计了一套权重的评估体系,通过预估用户的点击率,评估点击之后的点赞、收藏和评论等的概率进行打分。第三步,在将笔记展示给用户之前,选择分数高的笔记,通过各种策略进行多样性调整。
在此模型中最核心的点击率、点赞数、收藏、评论等都是通过机器学习模型训练对用户各项行为的预估并给出相应分数。
推荐系统架构
在小红书线上推荐过程的背后是一套完整的从线上到线下的推荐系统,下图展示了小红书推荐系统架构,红色表示实时操作,灰色则是离线操作。通过算法推荐之后,用户和笔记进行交互,产生用户的曝光、点赞和点击的信息,这些信息被收集形成用户笔记画像,也会成为模型训练的训练样本,产生分析报表。训练样本最终生成预测模型,投入线上进行算法推荐,如此就形成了一个闭环,其中分析报表则由算法工程师或策略工程师进行分析,调整推荐策略,最后再投入到线上推荐中。
离线批处理
离线批处理流程如下图所示,之前的处理流程是在客户端产生用户交互和打点&#