- 博客(16)
- 资源 (3)
- 收藏
- 关注
原创 Lightgbm基本原理
仅供参考:背景:XGBoost一个瓶颈是针对每个特征,它需要对每一个可能的分裂点扫描全部的样本来进行计算基尼系数,这是非常的耗时的。Lightgbm的主要特点:1.Lightfbm使用直方图算法在牺牲一定精度的条件下换取计算速度的提升和内存消耗的降低。使用了如下的两种方法:Gradient-based One-Side Sampling(GOSS):首先根据样本梯度进行排序,选择...
2019-08-16 00:23:20
1439
原创 spark wordcount
text_file = sc.textFile("hdfs://...")counts = text_file.flatMap(lambda x: x.split(" ")) \ .map(lambda x: (x, 1)) \ .reduceByKey(lambda a, b: a + b)counts.saveAsTextFile("hd
2017-10-12 22:59:14
407
原创 操作系统
进程与线程进程概念:一个具有一定独立功能的程序对某个数据集合上的一次动态执行过程和资源分配过程。进程与程序的区别与联系进程是动态的,程序是静态的。进程是暂时的,程序是永久的。进程和程序的组成不同:程序主要包含代码和数据,进程除了包含代码和数据以外,还有进程表进程概念动态性并发性独立性异步性进程的状态与转换运行状态阻塞状态
2017-10-11 16:57:52
333
原创 剑指offer 二叉树与二叉搜索树最佳解汇总 Python
面试题6: 重建二叉树输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。例如输入前序遍历序列{1,2,4,7,3,5,6,8}和中序遍历序列{4,7,2,1,5,3,8,6},则重建二叉树并返回。思路:找出中间节点后,基于递归思想实现。# -*- coding:utf-8 -*-# class TreeNode:#
2017-09-23 13:43:56
1440
原创 剑指offer 链表题最佳解汇总 Python
面试题5: 从尾到头打印链表输入一个链表,从尾到头打印链表每个节点的值。思路:方法一:class Solution: # 返回从尾部到头部的列表值序列,例如[1,2,3] def printListFromTailToHead(self, listNode): l = [] # 直接遍历一遍链表保存结果到list中,再返回倒序
2017-09-22 16:58:50
853
原创 轮廓系数
假设我们已经通过一定算法,将待分类数据进行了聚类。常用的比如使用K-means ,将待分类数据分为了 k 个簇 。对于簇中的每个向量。分别计算它们的轮廓系数。对于其中的一个点 i 来说:计算 a(i) = average(i向量到所有它属于的簇中其它点的距离)计算 b(i) = min (i向量到所有非本身所在簇的点的平均距离)那么 i 向量轮廓系数就为:
2017-09-20 16:41:05
5188
转载 SQL练习 学校场景
Student(S#,Sname,Sage,Ssex) 学生表Course(C#,Cname,T#) 课程表SC(S#,C#,score) 成绩表Teacher(T#,Tname) 教师表问题:1、查询“001”课程比“002”课程成绩高的所有学生的学号;select a.S#from (select s#, score from SC where C
2017-09-19 16:57:26
641
1
原创 假设检验
H0:原假设(希望得到结果的反面)H1:备择假设 (首先确定H1,希望得到的结果)第一类错误:H0正确,却认为H0错误第二类错误:H0不正确,确认为H0正确显著性水平:犯第一类错误的概率是显著性水平,记为α。
2017-09-19 00:17:26
922
原创 机器学习之- 推荐系统
推荐系统数学定义:设C为全体用户集合,设S为全部商品/推荐内容集合,设u是评判把si推荐ci的好坏评判函数,推荐是对于c∈C,找到s∈S,使得u最大,即注意:部分场景下是Top N推荐。通俗地说,推荐系统需要:根据用户的:a)历史行为b)社交关系c)兴趣点d)所处上下文环境e)…去判断用户的当前需求/感兴趣的i
2017-09-18 20:10:56
472
原创 SQL知识点汇总(二)
SQL UNION 子句SQL UNION 子句/运算符用于将两个或者更多的 SELECT 语句的运算结果组合起来。在使用 UNION 的时候,每个 SELECT 语句必须有相同数量的选中列、相同数量的列表达式、相同的数据类型,并且它们出现的次序要一致,不过长度不一定要相同。语法UNION 子句的基本语法如下所示: SELECT column1 [, co
2017-09-18 11:20:56
534
原创 SQL知识点汇总(一)
什么是表?RDBMS 中的数据存储在被称作表的数据库对象中。表是相互关联的数据记录的集合,由一系列的行和列组成。谨记,表是关系型数据库中最常见也是最简单的数据存储形式。下面是一个客户信息表的例子: +----+----------+-----+-----------+----------+ | ID | NAME | AGE | ADDRESS | S
2017-09-17 22:45:14
794
原创 Java面试题
1. Java 中的 HashMap 的工作原理是什么?Java 中的 HashMap 是以键值对(key-value)的形式存储元素的。HashMap 需要一个hash函数,它使用 hashCode()和 equals()方法来向集合/从集合添加和检索元素。当调用 put()方法的时候,HashMap会计算 key 的 hash 值,然后把键值对存储在集合中合适的索引上。如果 key 已
2017-09-17 20:41:26
252
原创 剑指offer SQL训练
查找最晚入职员工的所有信息题目描述查找最晚入职员工的所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16) NOT NULL,`g
2017-09-16 00:17:38
834
原创 LeetCode SQL刷题全解
1. 交换性别Given a table salary, such as the one below, that has m=male and f=female values. Swap all f and m values (i.e., change all f values to m and vice versa) with a single update query and no
2017-09-15 22:57:32
25933
3
原创 详解stacking过程
翻到之前自己写的这篇博客,感觉写的还是不够简洁明了,特地回来改一下,顺便文末附上Kaggle内相关操作的代码,希望能够帮助学习的同学能够瞬间理解stacking这个概念。stacking:stacking是一种分层模型集成框架。以两层为例,第一层由多个基学习器组成,其输入为原始训练集,第二层的模型则是以第一层基学习器的输出作为特征加入训练集进行再训练,从而得到完整的stacking模型。sta...
2017-09-15 11:42:54
86718
51
原创 CART树的剪枝
CART树剪枝预剪枝控制树的深度设定基尼系数(残差)的阈值,即若当前划分特征的基尼系数(残差)小于阈值时不再对当前的特征进行划分设定样本量的阈值,样本量小于阈值不再划分后剪枝总体思路:由完全树T0开始,剪枝部分结点,得到T1,再次剪枝部分结点得到T2。。。知道仅剩树根的树Tk;通过交叉验证,对以上k个树分别评价,选择损失函数最小的数Tα具体过程:损失函数
2017-08-28 17:42:21
732
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人