- 博客(7)
- 收藏
- 关注
原创 【推荐系统】特征工程
特征的本质是对某个行为过程相关信息的抽象表达,特征工程的基本原则是抽取出来的一组特征能够保留推荐环境及用户行为过程中的所有有用信息。在构建推荐系统时,我们不妨将自己代入用户的角色,思考我在那个推荐环境下为什么会选择某一部电影/商品,我有哪些考量的因素?特征工程的目的也就是尽可能全面地还原用户做决策时的动机,并用恰当的数据特征对其进行描述。
2025-03-20 15:56:38
468
原创 【推荐系统】GBDT+LR
召回模型将候选物品的数量从百万级降低到几千,计算速度快,但是结果粗糙。在排序模型中,我们可以引入更多的信息,包括用户和物品的属性特征,上下文特征等,模型更加精细,计算结果更加精确。
2025-03-11 14:45:10
1216
原创 【推荐系统】YouTube DNN
youtube作为世界上最大的视频内容平台,在视频推荐任务上面临着三个主要问题:数据量大(如何获得更精准的推荐算法和更高效的推荐服务);新鲜度(如何平衡用户对新鲜物品的需求和新鲜物品推荐不准确的问题);噪声大(平台很难获得用户的显式反馈信息,只能对包含噪声的隐式反馈信息进行建模),这篇文章针对这三个问题都提出了很好的解决方案。【两阶段架构】:youtube DNN分为采用经典的两阶段模型,包括候选集生成模型(召回模型)和排序模型。
2025-02-26 14:39:00
1866
原创 【推荐系统】Item2vec
在推荐系统中,大量的特征都是类别型特征,为了赋予类别特征可计算属性,需要先对类别特征进行数值化。常用的数值化方法有one-hot编码和embedding。one-hot编码仅能做到将特征数值化,但是各个特征之间是正交的,不具有内联关系。假设一个推荐系统中存在四件物品:鞋子、帽子、鼠标、键盘,对它们进行one-hot编码后,鞋子[1,0,0,0],帽子[0,1,0,0],鼠标[0,0,1,0],键盘[0,0,0,1],它们的one-hot向量是相互独立的,失去了原本的语义关系。
2025-02-24 20:07:09
633
原创 【推荐系统】FM召回
在推荐系统中,数据的稀疏性是一个无法避免的问题。在实际场景中,类别特征可以通过独热编码转换为数值特征,但是其中大部分元素均为0,只有少数非零值。若样本的类别数量较多,也会导致独热编码维度急剧上升。此外,某些特征经过相互关联后,具有更强的表达能力,例如“学生”+“文具”,“女人”+“化妆品”,组合特征相比于单个特征,与label的相关性大大提高。针对此类稀疏数据下的特征组合问题,FM是一个高效的解决方案。
2025-02-17 22:32:09
1440
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人