- 博客(47)
- 资源 (4)
- 收藏
- 关注
原创 机器学习之提升-XgBoost
算法的引入 在平时的算法中,基本分类器可分为强分类器与弱分类器,强弱之分主要是指分类器分类的准确率,在随机森林中,算法是生成很多颗树,将这些树的结果集成,生成一个分类效果较好的分类器,随机森林中,树的建立是相互独立的,如果我们换一个想法,已经有N棵树,那么建N+1棵树时可以受前面N棵树的影响,让分类得到提升?算法概论 提升算法是将弱分类器集成为一个强分类器,这类算...
2018-09-06 12:03:15
375
原创 线性回归之逻辑回归实战
Logit回归 前面说了线性的逻辑回归,对于线性的逻辑回归,因变量与自变量都是连续的,因变量与自变量之间呈线性的关系,当我们用逻辑回归来解决分类问题时,分类的值肯定是离散的,此时如果能将因变量转为连续的值,自变量与转换值之间就可能存呈线性的关系,此时就可以使用线性回归来解决分类的问题。怎样理解这个转换是理解线性回归用于分类的关键点。 我们先来考虑一个二分类问题,对于Y发生的期...
2018-08-15 11:56:10
1504
原创 线性回归从一元线性回归入门
本文是从一元线性回归为为基础来理解线性回归,适合于线性回归的入门,让初学者对于线性回归有直观的理解。本文也是我对于线性回归算法入门学习,分享给大家。线性回归的定义 回归是用于应用于输入变量与输出变量的关系,在输入变量与输出变量之间做一个映射,一般的线性回归公式为 其中θ为权重参数,现在给...
2018-08-07 01:03:59
4914
1
原创 bilibili视频批量下载
看到B站一个机器学习的系列视频,为节约时间,想将视频下载后加速观看,视频太多,一个个下载太费事,研究了一下通过程序得到所有的下载连接,直接放迅雷中批量下载。下载起始页面https://space.bilibili.com/97678687/#/video?tid=0&page=1&keyword=&order=pubdate(我需下载的内容)在URL中可以得到用户ID,这个...
2018-04-27 13:03:13
61888
5
原创 IDEA中配置hadoop开发环境
IDEA中整合hadoop开发环境前言:hadoop程序运行在分布式环境下,运行调试MapReduce只需要对应的hadoop相应的依赖jar包就可以,下面以是在伪分布模式下hadoop程序的开发与调试IDEA环境的配置环境:操作系统:Ubuntu 16hadoop: hadoop-3.0.0-alpha2java: java 1.8IDEA:idea-
2017-12-26 17:54:42
26857
1
翻译 hadoop MultipleInputs 的使用
MultipleInputs 可以处理不同输入格式的数据,For example, we have two files with different formats:(1) First file format:VALUE(2) Second file format:VALUE ADDITIONALIn order to read
2014-03-26 11:44:36
5542
转载 PHP http(file_get_content) GET与POST请求方式
1.GET方式请求[php] view plaincopy $data = array('sParam1'=>'test1','sParam2'=>101,'isAuto'=>1); //定义参数 $data = @http_build_query($data); //把参数转换成URL数据
2014-02-09 18:18:33
16919
转载 HBase性能优化方法总结
本文主要是从HBase应用程序设计与开发的角度,总结几种常用的性能优化方法。有关HBase系统配置级别的优化,这里涉及的不多,这部分可以参考:淘宝Ken Wu同学的博客。1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这
2013-09-17 19:21:58
1142
转载 php 字符串与2进制的转换
FUNCTION bin2text($bin_str) { $text_str = ''; $chars = EXPLODE("\n", CHUNK_SPLIT(STR_REPLACE("\n", '', $bin_str), 8)); $_I = COUNT($chars); FOR($i = 0; $i $_I; $text_str .= CHR(B
2013-09-09 15:38:16
1693
转载 聚类——层次聚类 Hierarchical Clustering
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样本归为一类,计算每两个类之间的距离,也就是样本与样本之间的相似
2013-06-27 14:29:45
1376
转载 聚类——监督学习与无监督学习
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就
2013-06-27 14:28:39
23371
转载 聚类——混合高斯模型 Gaussian Mixture Model
聚类的方法有很多种,k-means要数最简单的一种聚类方法了,其大致思想就是把数据分为多个堆,每个堆就是一类。每个堆都有一个聚类中心(学习的结果就是获得这k个聚类中心),这个中心就是这个类中所有数据的均值,而这个堆中所有的点到该类的聚类中心都小于到其他类的聚类中心(分类的过程就是将未知数据对这k个聚类中心进行比较的过程,离谁近就是谁)。其实k-means算的上最直观、最方便理解的一种聚类方式了,原
2013-06-27 14:19:30
3256
转载 聚类——监督学习与无监督学习
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就
2013-06-27 14:12:57
1161
转载 Hadoop MapReduce中如何处理跨行Block和UnputSplit
Hadoop的初学者经常会疑惑这样两个问题:1.Hadoop的一个Block默认是64M,那么对于一个记录行形式的文本,会不会造成一行记录被分到两个Block当中?2.在把文件从Block中读取出来进行切分时,会不会造成一行记录被分成两个InputSplit,如果被分成两个InputSplit,这样一个InputSplit里面就有一行不完整的数据,那么处理这个InputSplit的Mapper会不
2013-06-26 10:44:22
1294
转载 web中gzip,deflate的压缩与解压
一,对发送请求进行gzip,deflate压缩1:gzip的情况Java代码 Sring url = "http://localhost/save"; PostMethod post = new PostMethod(url); //请求体内容 String body = "sample"; //用gzip方式压缩请求体并赋给reque
2013-01-24 09:22:53
6947
转载 java 实现php的gzinflat功能
php 的gzinflat功能:1<?phpeval(gzinflate(base64_decode('7H35m9rItejPd75v/gfSmRvb10uztpvx2Ak7Er2...bla bla bla.... RGpn/Aw==')));?>java实现
2013-01-24 09:19:41
1130
转载 hive 配置参数说明
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默
2013-01-14 11:53:24
43873
2
原创 java 从stdin中读取数据
import java.io.*;public class read_stdin{ public static void main(String[] args) { DataInputStream in = new DataInputStream(new BufferedInputStream(System.in)); String s;
2012-11-29 14:17:45
13666
转载 Ways to write & read HDFS files
Ways to write & read HDFS files - Output Stream FSDataOutputStream dos = fs.create(new Path("/user/tmp"), true); dos.writeInt(counter); dos.close();- Buffered Writer/Reader
2012-07-10 22:01:10
1124
原创 在命令行中使用curl,给访问的域名指定host
curl --silent -H "Host: www.xxxx.com" "hostname/xxxx/xxxx.htm"这种方式与windows中更改hosts文件,指定域名对应用的具体host的ip是一样的,curl http://ww.xxxx.com/xxxx/xxxx.htm -xhostname:80与上面的方式区别不是很大.
2012-03-27 11:57:44
14106
转载 50名c/c++源代码优秀网站和网页清单
C/C++是最主要的编程语言。这里列出了50名优秀网站和网页清单,这些网站提供c/c++源代码。1、http://snippets.dzone.com/tag/c/ --数以千计的有用的C语言源代码片段2、http://www.hotscripts.com/categ
2011-10-09 19:42:16
884
转载 用pl/sql developer 将文本文件导入Oracle数据库 .
1. 数据已经准备好,存放在txt文本,并且记录行是用回车分隔,列式用逗号分隔2. 打开pl/sql developer,选择Tools -> Text Importer3. 点击内窗口左上按钮(Open Data File),选择数据文本4. 小窍门: 把tx
2011-08-30 18:41:18
1504
原创 hadoop 一个Job多个MAP与REDUCE的执行
在hadoop 中一个Job中可以按顺序运行多个mapper对数据进行前期的处理,再进行reduce,经reduce后的结果可经个经多个按顺序执行的mapper进行后期的处理,这样的Job是不会保存中间结果的,并大大减少了I/O操作。例如:在一个Job中,按顺序执行 MAP1->MAP2->REDUCE->MAP3->MAP4 在这种链式结构中,要将MAP2与REDUCE看成这个MAPREDUCE的核心部分(就像是单个中的MAP与REDUCE),并且partitioning与shuffling在此处才会被应
2011-03-03 18:05:00
25027
原创 php 生成唯一的散列
<br />function create_unique() { <br /> $data = $_SERVER['HTTP_USER_AGENT'] . $_SERVER['REMOTE_ADDR'] <br /> .time() . rand(); <br /> return sha1($data); <br /> <br />}<br />//生成的散列<br />if(isset($_COOKIE["userunique"])&&strlen($_COOKIE["useru
2011-02-14 10:19:00
870
转载 Logs and Monitoring for Apache Servers
Logs and Monitoring for Apache Servers<br />Daniel Lopez<br />Excerpted from Apache Phrasebook, published by Pearson Education, Sams Publishing © 2006Introduction to Logging in Apache<br />In addition to the error logging functionality described in the pre
2011-01-11 18:02:00
932
转载 __asm__ __volatile__内嵌汇编用法简述
<br />__asm__ __volatile__内嵌汇编用法简述 在阅读C/C++原码时经常会遇到内联汇编的情况,下面简要介绍下__asm__ __volatile__内嵌汇编用法。因为我们华清远见教学平台是ARM体系结构的,所以下面的示例都是用ARM汇编。<br /> 带有C/C++表达式的内联汇编格式为:<br /> __asm__ __volatile__("Instruction List" : Output : Input : Clobber/Modify);<br /> 其中每项的概念
2011-01-10 19:01:00
702
转载 curl_setopt (int ch, string option, mixed value)
<br />bool curl_setopt (int ch, string option, mixed value)<br />curl_setopt()函数将为一个CURL会话设置选项。option参数是你想要的设置,value是这个选项给定的值。<br />下列选项的值将被作为长整形使用(在option参数中指定): <br />*CURLOPT_INFILESIZE: 当你上传一个文件到远程站点,这个选项告诉PHP你上传文件的大小。<br />*CURLOPT_VERBOSE: 如果你想CURL报告
2011-01-07 12:19:00
1237
转载 socket网络编程常用的结构及函数小结
<br /> IP地址的作用时标示计算机的网卡地址,每台计算机都有一个IP地址;端口,是指计算机中为了标示在计算机中访问网络的不同程序而设的编号,并不是网卡接线的端口,而是不同程序的逻辑编号,并不是实际存在的;域名,是用来代替IP地址来标示计算机的一种直观名称,例如百度网站的IP地址是202.108.22.43,这个IP地址没有任何逻辑含义,不便记忆,而www.baidu.com是一个便于记忆的名称,用于代替这个IP地址;套接字的本意是插座,在网络中用来描述计算机中不同程序与其他计算机程序的通信方式;
2011-01-06 18:13:00
509
转载 vim使用系列之二
<br />1.移动光标<br />在当前行里面有效的移动光标,注意这些字母都可以配合删除、移动等操作。<br />fx:移动光标到当前行的下一个 x 处。很明显,x 可以是任意一个字母,而且你可以使用 ; 来重复你的上一个 f 命令。<br />tx:和上面的命令类似,但是是移动到 x 的左边一个位置。(这真的很有用)<br />Fx:和 fx 类似,不过是往回找。<br />:jumps 看你过去移动光标的历史<br />% 跳转到配对的括号去<br />[[ 跳转到代码块的开头去(但要求代码块中'{'
2011-01-06 13:49:00
691
原创 使用MySQL内置函数把字符串转换为日期
<br />MySQL内置函数是很重要的一类函数,我们可以通过MySQL内置函数把字符串转换为日期,下面就为您详细介绍该方法,供您参考。<br />在mysql里面利用str_to_date()把字符串转换为日期。<br />MySQL内置函数实例:<br />分隔符一致,年月日要一致select str_to_date('02/25/1998 12:00:34 AM','%m/%d/%y %h:%i:%s %s') as column_name from table_name; str_to_date
2010-12-28 14:58:00
878
转载 Learning Perl(Perl语言入门)学习笔记(1)
<br />第二章 标量数据<br /> <br />1、 一般来说,Perl用标量(Scalar)指称单件事物;<br />2、 Perl中,所有数值的内部格式都相同,一律使用双精度浮点数进行运算;<br />3、 直接量是Perl原程序中数值的表示形式,在非十进制的整数直接量表示中,八进制以0开头,十六进制以0x开头,而二进制以0b开头;<br />4、 操作符**表示幂乘,如2的3次方为2**3;<br />5、 字符串没有长度限制(0—∞);<br />6、 单引号内的字条符串,除了单引号和反斜线外
2010-09-19 11:01:00
712
转载 Mysql实现split函数
<br />一个朋友遇到点问题,想在mysql里把一段用固定符号分隔的字符串,按分隔符分别列出来。就是一个典型的split应用,但是mysql却没有自带这个函数,在网上搜了一把。可以通过自建函数来解决,以下的函数来自互联网。DELIMITER $$CREATEFUNCTION`func_get_split_string_total`(f_string varchar(1000),f_delimiter varchar(5))RETURNSint(11)BEGIN return 1+(lengt
2010-09-06 17:38:00
12866
转载 对Oracle表空间的简单阐述
<br />Oracle表空间之基本概念<br />ORACLE数据库被划分成称作为表空间的逻辑区域——形成ORACLE数据库的逻辑结构。一个ORACLE数据库能够有一个或多个Oracle表空间,而一个表空间则对应着一个或多个物理的数据库文件。表空间是ORACLE数据库恢复的最小单位,容纳着许多数据库实体,如表、视图、索引、聚簇、回退段和临时段等。<br />每个ORACLE数据库均有SYSTEM表空间,这是数据库创建时自动创建的。SYSTEM表空间必须总要保持联机,因为其包含着数据库运行所要求的基本信息(
2010-09-03 10:56:00
658
转载 Oracle表空间的入门操作
<br />一、Oracle表空间之建立表空间<br />CREATE TABLESPACE data01<br />DATAFILE '/oracle/oradata/db/DATA01.dbf' SIZE 500M<br />UNIFORM SIZE 128k; #指定区尺寸为128k,如不指定,区尺寸默认为64k<br />二、Oracle表空间之建立UNDO表空间<br />CREATE UNDO TABLESPACE UNDOTBS02<br />DATAFILE '/oracle/oradata
2010-09-03 10:55:00
420
转载 Perl进程处理函数
Perl教程一、进程处理函数二、数学函数三、字符串处理函数四、标量转换函数五、数组和列表函数六、关联数组函数一、Perl进程处理函数1、进程启动函数2、进程终止函数3、进程控制函数4、其它控制函数 1、进程启动函数函数名eval调用语法eval(string)解说将string看作Perl语句执行。正确执行后,系统变量$@为空串,如果有错误,
2010-05-25 20:39:00
1229
原创 Shell命令特殊字符
Shell命令特殊字符: #:注释 &:后台执行 >:把执行结果输入到一个指定的文件中 >>:把执行结果附加到一个以存在的文件后面 .:表示当前目录 ..:表示上一级目录 $? 最后一次执行的命令的返回码 $ Shell进程自己的PID $! Shell进程最近启动的后台进程的PID $# 命令行参数的个数 $0 脚本文件本身的名字 $1 $2 第一个,第二个命令行参数
2010-05-24 11:03:00
631
原创 HTML中链接打开的窗口
_blank : 在一个新的,没有命名的窗口中打开指定文档_self : 在当前窗口中打开文档_parent : 在父窗口中打开文档,当没有父窗口时,_parent与_self是一样的_top : 在当前窗口中打开文档,并且打开的文档占有原窗口,对原有窗口的内容进行覆盖,在没有父窗口时,它的意义与_self一样
2010-03-15 09:51:00
625
转载 SecureCRT背景颜色的永久更改
SecureCRT一款多功能的终端仿真程序,相比window自带的telnet,它是一个多标签的窗口,用起来相对很方便,除此外它还可以保存一些设置不用重复输入。有很多人都想更改SecureCRT的默认设置,比如说背景和字体,但是只能一次会话更改一次,下次重新连接又的重新设置貌似是不可保存设置。默认的背景字体看着总感觉单调,不是很喜欢的,不过看着黑色背景绿色字体
2010-03-10 22:04:00
1692
原创 perl 5中三个预定义的特定子程序
PERL5预定义了三个子程序,分别在特定的时间执行,它们是:BEGIN子程序在程序启动时被调用;END子程序在程序结束时被调用;AUTOLOAD子程序在找不到某个子程序时被调用。你可以自己定义它们,以在特定时间执行所需要的动作。如: BEGIN { print("Hi! Welcome to Perl!/n"); } AUTOLOAD{ print("subroutine $AU
2010-02-21 10:44:00
1083
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人