背景:
《Click Prediction for Product Search on C2C web sites 》上海交大的计算机系的论文。论文说数据来自 “a real popular c2c web site”,看论文图片,应该是ebay.com的图片。ebay在上海有研究所吗? 论文上图片是搜索“nokia e63”,有兴趣可以点击来看看。很奇怪的是,论文为什么不直接点明是ebay的数据研究。
开始介绍c2c交易量巨大,因此预测商品的点击可能性对用户体验非常重要。
商品的点击可能性分数可以用在哪些地方?用于排序;浏览-点击-购买=转化率。
利用CTR可以非常方便的技术有历史行为的商品,然后不利用新的商品,因为新的商品当然没有历史行为可以计算。对应新的商品,很自然的想法是用卖家的历史、好评率、商品价格、得到因素来预测相应的点击可能性。
实际上,研究点击可能性更加透彻的是广告搜索(Sponsored Search;Sponseored Search Auction)。研究用途应该是用来改善排序,过滤,位置放置,广告出价。
基本方法:
罗列影响点击的因素,组织为特征,然后应用点击或者不点击(购买或者不购买)作为训练的目标。0-1目标特别适合用logit回归的方法。
特征
搜索特征:
第一组特征就比较难以得到。对应每个query都需要或者特征。
Item特征:
其实也就是商品的特征。包括价格,类目CTR,明确的匹配信息。在这里商品本身应该还有很多特征没有收集,例如商品价格在整个类目价格区间,当然最好是产品的价格区间。
买家特征:
买家特征?这个太泛。
卖家特征:
卖家的历史是非常多的。历史效率;好评、差评;商品数量;卖家级别都是非常重要的信息。
实验数据
这里只用了一周的数据。每个数据都标记了 点击或者无点击。
过滤了点击数量太多的商品。过滤 robot‘s click; spam data 。一个用户的action 少于5个也被去除。
用到了130865个点击,9504443个非点击的页面,供235007个页面。
特征组合训练尝试
用四组特征分别训练,或者所有特征一起训练。