c2c产品搜索的点击预测

背景:

《Click Prediction for Product Search on C2C web sites 》上海交大的计算机系的论文。论文说数据来自 “a real popular c2c web site”,看论文图片,应该是ebay.com的图片。ebay在上海有研究所吗? 论文上图片是搜索“nokia e63”,有兴趣可以点击来看看。很奇怪的是,论文为什么不直接点明是ebay的数据研究。


 开始介绍c2c交易量巨大,因此预测商品的点击可能性对用户体验非常重要。

商品的点击可能性分数可以用在哪些地方?用于排序;浏览-点击-购买=转化率。


利用CTR可以非常方便的技术有历史行为的商品,然后不利用新的商品,因为新的商品当然没有历史行为可以计算。对应新的商品,很自然的想法是用卖家的历史、好评率、商品价格、得到因素来预测相应的点击可能性。

实际上,研究点击可能性更加透彻的是广告搜索(Sponsored Search;Sponseored Search Auction)。研究用途应该是用来改善排序,过滤,位置放置,广告出价。


基本方法:

罗列影响点击的因素,组织为特征,然后应用点击或者不点击(购买或者不购买)作为训练的目标。0-1目标特别适合用logit回归的方法。


特征

搜索特征:
第一组特征就比较难以得到。对应每个query都需要或者特征。
Item特征:
其实也就是商品的特征。包括价格,类目CTR,明确的匹配信息。在这里商品本身应该还有很多特征没有收集,例如商品价格在整个类目价格区间,当然最好是产品的价格区间。
买家特征:
买家特征?这个太泛。
卖家特征:
卖家的历史是非常多的。历史效率;好评、差评;商品数量;卖家级别都是非常重要的信息。

实验数据

这里只用了一周的数据。每个数据都标记了 点击或者无点击。
过滤了点击数量太多的商品。过滤 robot‘s click; spam data 。一个用户的action 少于5个也被去除。
用到了130865个点击,9504443个非点击的页面,供235007个页面。

特征组合训练尝试

用四组特征分别训练,或者所有特征一起训练。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值