1.overview
pintersert推荐第一部分–pinsage kdd18
这是pinterest推荐系统的第二部分。这也是pinsage中随机游走的原型。
一个基于随机游走的召回方案,这里的图不是协同过滤中的物品-用户交互图,而是pin和board之间的关联图。pin是指图片,board可理解为收藏夹,详细背景见pinsage。该论文解决的几个问题:
- 大规模:单机可放下,易并行,易扩展
- 实时更新:没有预计算,随机游走时early stop,且运行时间与图规模无关。
问题:给定一个查询q,找出相关的item。这里的查询q是一个pair set,每个pair包括一个pin和一个权重。最终返回的是基于这一组pin的相关的查询结果。
2. graph puring
这部分名字高级,但实际是一个数据清洗。且位于random walk之后,但实践中逻辑应该是先洗数据。
首先是用LDA topic model 进行了聚类。之后利用聚类结果,对高度节点一些错分的borad进行剪枝。