
推荐系统入门到精通
jim_cainiaoxiaolang
我热爱大数据开发,希望大家多交流
展开
-
关于spark中的"pyspark.resultiterable.ResultIterable" to a list
今天是5月10号。接到这个project已经一个星期了。今天终于把代码调通顺了。在这次调代码的过程中,遇到了一个问题卡了两天。Code:def nearestNeighbors(item_id,items_and_sims,n): ''' Sort the predictions list by similarity and sele原创 2016-05-10 23:35:20 · 4772 阅读 · 0 评论 -
从网易云看音乐推荐系统
z对于音乐推荐来说,网易云音乐无疑是国内最为出色的音乐APP,很多人惊喜地发现使用网易云音乐听的歌曲基本上都是自己喜欢的歌曲,这是在其他音乐APP身上不能得到的体验。根据使用网易云音乐的经验和推荐算法的一些知识,尝试分析网易云音乐的音乐推荐。当然具体的云音乐推荐系统肯定是复杂而又精细的,也肯定是不会透露出来的,只是希望能从这样的分析中,找到冰山一角。网易云音乐的个性化推荐是转载 2016-10-11 18:48:33 · 2260 阅读 · 0 评论 -
分类算法落地到哪里 ?
首先,我们正式描述算法应用通常分为表述问题和解决过程两个阶段, 表述问题即需要运用数据挖掘能够理解和处理的语言来阐述业务问题, 最重要的是能够用正确且符合实际的方式把业务问题转化成数据挖掘问题, 这往往决定了后续工作是否能有效的展开, 尝试解决一个不符合实际的业务问题往往会使得数据挖掘的工作陷入数据的海洋中, 既费时费力又得不到想要的结果; 而解决过程, 顾名思义就是将表述清楚的问题通过数据挖转载 2016-07-03 12:01:10 · 616 阅读 · 0 评论 -
spark分布式平台下python环境的搭建
其实这个环境我已经搞了两个礼拜了。两周前,我接到这个project,完成一个python写的基于spark分布式平台的音乐推荐系统。我以前听过python,这一次无意间看到了一句话“life is short,you need python”。我下定决心一定要好好地学习python。首先本次project由于需要python的开发环境必须要他的版本>2.7.3,而我使用的是centos原创 2016-05-11 00:03:07 · 6464 阅读 · 3 评论 -
机器学习主要算法总结
实际上在面试过程中,懂这些算法的基本思想和大概流程是远远不够的,那些面试官往往问的都是一些公司内部业务中的课题,往往要求你不仅要懂得这些算法的理论过程,而且要非常熟悉怎样使用它,什么场合用它,算法的优缺点,以及调参经验等等。说白了,就是既要会点理论,也要会点应用,既要有点深度,也要有点广度,否则运气不好的话很容易就被刷掉,因为每个面试官爱好不同。 朴素贝叶斯: 有以下几个地方需转载 2016-06-30 08:50:32 · 972 阅读 · 0 评论 -
探索推荐引擎内部的秘密,第 2 部分: 深入推荐引擎相关算法 – 协同过滤
赵 晨婷, 软件工程师, IBM马 春娥, 软件工程师, IBM简介: 本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者 高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了转载 2016-05-22 11:02:08 · 390 阅读 · 0 评论 -
hadoop2.6.0版本集群环境搭建
一、环境说明1、机器:一台物理机 和一台虚拟机2、linux版本:[spark@S1PA11 ~]$ cat /etc/issueRed Hat Enterprise Linux Server release 5.4 (Tikanga)3、JDK: [spark@S1PA11 ~]$ java -versionjava version "1.6.0_27"Java(TM转载 2016-05-22 10:45:36 · 320 阅读 · 0 评论 -
基于MapReduce的ItemBase推荐算法的共现矩阵实现
一、概述 这2个月为公司数据挖掘系统做一些根据用户标签情况对用户的相似度进行评估,其中涉及一些推荐算法知识,在这段时间研究了一遍《推荐算法实践》和《Mahout in action》,在这里主要是根据这两本书的一些思想和自己的一些理解对分布式基于ItemBase的推荐算法进行实现。其中分两部分,第一部分是根据共现矩阵的方式来简单的推算出用户的推荐项,第二部分则是通过传统的相似度矩阵的方法来实践转载 2016-05-22 10:40:39 · 1347 阅读 · 1 评论 -
KDD Cup2011
KDD Cup2011 : 雅虎音乐提供的测试数据概况 by 陈运文 Yahoo! Music - Dataset• 262,810,175 Ratings: (Training: 252,800,275 Validation: 4,003,960 Test: 6,005,940)• Users: 1,000,990 Items: 624,961转载 2016-05-22 10:39:14 · 449 阅读 · 0 评论 -
同现矩阵*评分矩阵=推荐结果
唯一需要明确的是:这是一个基于物品的协同过滤的例子,要明确地以物品的相似角度描述。例子:用户3对所有物品的评分, 有评分说明用户3喜欢这东西用户ID物品ID1用户评分310123102031030原创 2016-05-22 10:38:17 · 1368 阅读 · 0 评论 -
[推荐算法]ItemCF,基于物品的协同过滤算法
ItemCF:ItemCollaborationFilter,基于物品的协同过滤算法核心思想:给用户推荐那些和他们之前喜欢的物品相似的物品。比如,用户A之前买过《数据挖掘导论》,该算法会根据此行为给你推荐《机器学习》,但是ItemCF算法并不利用物品的内容属性计算物品之间的相似度,它主要通过分析用户的行为记录计算物品之间的相似度。==>该算法认为,物品A和物品B具有很大的相似度转载 2016-05-22 10:36:20 · 926 阅读 · 0 评论 -
KDD Cup 2011:音乐推荐
KDD Cup 2011:音乐推荐发表于261 天前 ⁄ 技术, 科研 ⁄ 评论数 4 ⁄ 被围观 3970 次+Yahoo!实验室的数据挖掘盛塞KDD Cup 2011马上就要开始了,今年的主题是‘Learn the rhythm, predict the musical scores’,也就是音乐推荐的意思,根据用户的兴趣喜好等,推荐相关的音乐。大赛数据集即将发转载 2016-05-22 10:27:48 · 715 阅读 · 0 评论 -
推荐系统算法总结
最近看推荐系统方面的东西也有段日子了,有书,博客,唯独没有看论文。总感觉论文对于工业界来说用处真的不如学校做课题、论文那么大,只要知道某个算法好不好用以及怎么用就可以了,也不必知道太多的细节和数学推导。但根据一个好的算法,产品部门可以设计出很多很酷的产品,让用户倍感web应用的人性化。在看书,看大牛们的博客时,学习到了很多算法和思路。现在总结一下:1、Item based collec转载 2016-05-22 10:23:54 · 502 阅读 · 0 评论 -
网易云音乐推荐系统学习(1)
首先,推荐算法有三种常用的基本套路1、基于内容的推荐(content-based filtering)。 是音乐信息检索的领域,学术上一般content-based是特指音频内容本身的,主要涉及feature extraction,专辑、歌手和歌词等基于text或tags的因素,通常用来与content相结合来提高检索效率的。2、基于协同过滤推荐(collaboration filteri原创 2016-10-11 18:57:53 · 5558 阅读 · 0 评论