协同过滤相似度计算

博客探讨了在用户量大的情况下,优化杰卡德相似度计算的方法,通过统计共同出现次数降低计算复杂度。同时介绍了基于内容推荐算法的余弦相似度计算,以及如何利用MapReduce加速计算过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

   (1)传统的杰卡德相似度计算公式如下,

 其中A,B可以为不同用户的购物品类,

        当用户量特别大的时候,导致计算复杂度比较高,因为直接进行了笛卡尔积运算,这时候可能没有办法进行运算。优化方法如下:

     扫描整个品类,统计用户A和B共同出现的次数num_A_B,统计用户A和B出现的总次数num_A,num_B,A和B的并集为num_A+num_B-num_A_B

 

即:可以用两个用户物品长度的倒数相乘,再乘以相同物品的个数。程序执行的时候,可以循环品类,对应每一个品类,每个的参数为用户物品的倒数,两个用户的乘积即为在该品类下的值,扫描整个品类,把相应的值相加即为近似的,可以比较不同用户之间的相似度。

  (2)使用基于内容推荐算法的思想:得到用户A的向量表示(出现某种物品,则在相应的位置为1,否则为0),得到用户B的向量表示,使用余弦相似度计算公式计算。

 

这两种方式都可以使用map-reduce思想进行运算,加速计算过程

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值