- 博客(176)
- 资源 (15)
- 收藏
- 关注
原创 机器学习算法笔记系列之深入理解主成分分析PCA-Python实现篇
Author: shizhixin Blog: http://blog.csdn.net/shizhixin Weibo:http://weibo.com/zhixinshi Email: zstarstone@163.com Date: 2016-04-19 Note: 本笔记是机器学习算法笔记系列之深入理解主成分分析PCA的实现篇,有自己写的Python实现版本的P
2016-04-19 16:53:44
5641
原创 机器学习算法笔记系列之深入理解主成分分析PCA-原理篇
机器学习算法笔记系列之深入理解PCA-原理篇(未完待续) 作者:shizhixin 博客:http://blog.csdn.net/shizhixin 微博:http://weibo.com/zhixinshi 日期:2016-04-141 概述2 引言内积与投影导读:大部分人估计都知道PCA是将数据点向新的方差最大的单位向量做投影,但是什么是到向量的投影,它和内积又有什么
2016-04-18 17:37:37
22984
2
原创 关于Markdown编辑器
关于Markdown编辑器最近因为想写文档了,有公式,图片,网上的图,代码等,看了看CSDN有markdown的编辑器 ,但是害怕在线写的时候突然断了,所以有了下载一个好用的markdown编辑器的想法,但是,事实往往出乎我所料,为了这个事折腾了整整一天,用了将近十来个markdown编辑器,泪崩~~~~归入正题,谈谈我所了解的markdown相关的编辑器,由于匆匆一用,难免没有发掘好的方法,欢迎指
2016-04-12 21:54:24
2392
转载 ROC曲线-阈值评价标准
From:http://blog.csdn.net/abcjennifer/article/details/7359370ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计
2016-03-21 17:29:40
1926
原创 中国科学院信息工程研究所招聘研发工程师 /大数据安全分析工程
因工作需要,中国科学院信息工程研究所第四研究室拟招聘以下岗位的科研技术人员。学历要求:2016年应届博士/硕士毕业生,计算机、信息安全等相关专业;岗位要求:研发工程师/助理工程师 1) 熟练掌握Java/C++开发语言,深入理解面向对象编程思想,具备一定项目经验;2) 熟悉J2EE标准,对hibernate、spring、Spring MVC等框架有实际项目的应用经
2016-02-24 20:13:17
2643
1
原创 Wireshark与设备解析字节不一致问题
一、问题对于一个PCAP包,用Wireshark的Conversions统计的包字节数(图1),与设备解析得到的字节数(图2)不一致,设备解析后的字节数比Wireshark的字节数要少,但是包数是相同的。二、 问题的原因不是丢失包而导致的字节问题,因为包数并没有减少,只是字节减少了。具体原因是用Wireshark抓包抓出来的数据会对不满60字节的数据都做了填充,保证满60字节而设备的流量引擎将这些填充数据数据都去掉了,统计的是真实数据的字节数,所以会少了填充的字节数。即Wireshark抓包的字节数
2016-01-16 00:17:58
4295
原创 Scikit-learn的安装过程
Scikit-learn的安装过程首先,安装SK-Learn需要依赖的Python安装包有:Python (>= 2.6), NumPy (>= 1.3), SciPy (>= 0.7), setuptools, Python development headers and a working C++ compiler. 安装过程:1:安装python。下载
2016-01-09 16:50:04
27165
原创 Hadoop 50070端口无法打开的问题
重新装了一下hadoop,还是遇到一些问题。问题1:配置的时候遇到JAVA_HOME not set解决办法:必须在hadoop-env.sh文件中设置JAVA的绝对路径问题2:能正常启动集群,能看8088端口,但是无法查看50070,但是Namenode和datanode已经能JPS查看解决办法:首先排除了防火墙的问题,后来看需要格
2016-01-06 15:57:14
22663
转载 启动hadoop 2.6遇到的datanode启动不了
http://blog.csdn.net/zhangt85/article/details/42078347查看日志如下:2014-12-22 12:08:27,264 INFO org.mortbay.log: Started HttpServer2$SelectChannelConnectorWithSafeStartup@0.0.0.0:500752014-12-22
2015-12-25 13:35:19
4443
原创 ubuntu git 服务器搭建
安装Git及Gitosis$apt-get update$apt-get upgrade$ps -ef | grep ssh$sudo apt-get install openssh-server openssh-client$sudo apt-get install git-core $sudo adduser --system --shell /bin/bash -
2015-08-28 02:35:33
1452
转载 从Hadoop到Spark的架构实践
发表于2015-06-08 10:46|5838次阅读| 来源程序员杂志|3 条评论| 作者阎志涛Hadoop架构移动互联网数据挖掘技术架构摘要:本文则主要介绍TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以Hadoop YARN和Spark为基础来构建移动大数据平台的过程。当下,Spark已经在国内得到了广泛的认可和支持:2014年,Spark
2015-08-11 10:35:06
1212
转载 flume+kafka+storm+mysql架构设计
http://blog.csdn.net/mylittlered/article/details/20810265分类: storm2014-03-09 00:55 6769人阅读 评论(185) 收藏 举报目录(?)[+]序言前段时间学习了storm,最近刚开blog,就把这些资料放上来供大家参考。这个框架用的组件基本都是最新稳定版本,flume
2015-07-29 16:02:43
831
原创 关于虚继承和析构函数的一个奇怪的问题
class A{public : int _a1; int _b; void virtual f(){};};class B:virtual public A{public: int _b; ~B(){}; //line1 void virtual f(){}; //line2 void virtual f2(){}; void virtual f3
2015-07-17 10:33:17
1187
转载 有继承的C++析构函数一定要用virtual
先补下virtual是啥虚函数是指一个类中你希望重载的成员函数,当你用一个基类指针或引用指向一个继承类对象的时候,你调用一个虚函数,实际调用的是继承类的版本。 先贴个代码,再解释#include using namespace std;class Base{public: Base(){cout"Base Construct"endl;}; ~
2015-07-16 17:15:11
1560
转载 大数据技术人员的工具包——开源大数据处理工具list(限时下载)
详细文字介绍版本请看:一共81个,开源大数据处理工具汇总(上)一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等下面是文档简版,收集整理者为Aquester类别名称官网备注查询引擎Phoenixhttp://phoenix.incubator.apache.org/Salesforce公司出品,Apache
2015-07-14 17:26:31
1659
转载 基于大数据分析的安全管理平台技术研究及应用
【引言】这篇文章原载于内刊,现发布于此。内容有所删减。基于大数据分析的安全管理平台技术研究及应用Research and Application of Big Data Analysis Based Security Management PlatformLast Modified By yepeng @ 2014-1-14【内容摘要】本文首先通过介绍大数据的起因,给出
2015-07-14 17:24:25
12103
1
转载 一共81个,开源大数据处理工具汇总(下),包括日志收集系统/集群管理/RPC等
作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebook Scribe贡献者:Facebook
2015-07-14 17:22:58
4579
转载 一共81个,开源大数据处理工具汇总(上)
作者:大数据女神-诺蓝(微信公号:dashujunvshen)。本文是36大数据专稿,转载必须标明来源36大数据。本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache
2015-07-14 17:21:36
4217
转载 强烈推荐!大数据领域的顶级开源工具大集合
随着大数据与预测分析的成熟,开源作为底层技术授权解决方案的最大贡献者的优势越来越明显。 如今,从小型初创企业到行业巨头,各种规模的供应商都在使用开源来处理大数据和运行预测分析。借助开源与云计算技术,新兴公司甚至在很多方面都可以与大厂商抗衡。 以下是一些大数据方面的顶级开源工具,分为四个领域:数据存储、开发平台、开发工具和集成、分析和报告工具。 数据存储:Apache
2015-07-14 17:19:02
2467
转载 开源大数据查询分析引擎现状
引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据库和数据
2015-07-14 16:06:32
805
转载 开源日志系统比较
本博客微信公共账号:hadoop123(微信号为:hadoop-123),分享hadoop技术内幕,hadoop最新技术进展,发布hadoop相关职位和求职信息,hadoop技术交流聚会、讲座以及会议等。二维码如下:1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:
2015-07-14 15:15:36
763
转载 上海联通大数据与机器学习驱动的离网预测模型
发表于2015-07-10 07:16|3049次阅读| 来源《程序员》电子刊|6 条评论| 作者沈可 刘志刚 姚健 袁明轩 曾嘉大数据机器学习特征工程分类器离网预测模型上海联通摘要:大数据的V特性Volume、Variety、Velocity可以使我们更容易捕捉到用户的离网倾向,从而作出相应的维挽措施挽留用户。上海联通部署大数据驱动的离网预测模型,在预测前5万名高离网倾向预付费用
2015-07-14 12:32:16
2294
转载 新手福利:Apache Spark入门攻略
新手福利:Apache Spark入门攻略发表于2015-07-10 18:07|5734次阅读| 来源Dzone|10 条评论| 作者Ashwini Kuntamukkala大数据开源Spark摘要:本文聚焦Apache Spark入门,了解其在大数据领域的地位,覆盖Apache Spark的安装及应用程序的建立,并解释一些常见的行为和操作。【编者按】时至今日,S
2015-07-14 09:23:56
1578
转载 大数据工程人员知识图谱
http://yanbohappy.sinaapp.com/?cat=32大数据工程人员知识图谱3 Replies在企业里面从事大数据相关的工作到底需要掌握哪些知识呢?我认为需要从两个角度来看:一个是技术;一个是业务。技术上主要涉及到概率和数理统计,计算机系统、算法和编程等;而业务的角度呢则是因公司业务的不同而异。对于从事大数据的工程人员来说,需要学会使用数据挖掘方
2015-06-25 13:16:50
3684
转载 机器学习经典书籍小结
转载本博客请注明链接:http://blog.csdn.net/xinzhangyanxiang/article/details/9069045博客第一篇文章[1]是转载的,也算是开始写博客不经意的表露了自己对机器学习的兴趣吧!那篇文章总结了机器学习的一些经典算法的论文与数学基础理论的一些书籍,对于开始学习机器学习的话恐怕太过深入,正好最近在买书,看了很多经典书籍的总结与评论,我再拾人牙慧
2015-05-19 13:07:14
900
转载 对线性回归、逻辑回归、各种回归的概念学习
http://blog.csdn.net/viewcode/article/details/8794401分类: 机器学习&数据分析2013-04-17 16:33 37912人阅读 评论(8) 收藏 举报目录(?)[+]回归问题的条件/前提:1) 收集的数据2) 假设的模型,即一个函数,这个函数里含有未知的参数,通过学习,可以估计出参数
2015-05-19 10:22:54
996
转载 机器学习-学习笔记3.1-局部加权回归
http://blog.csdn.net/silence1214/article/details/7764137局部加权紧接着上面的线性回归中参数求解来继续讲吧。还是以上面的房屋价格的预测,它的中心思想是在对参数进行求解的过程中,每个样本对当前参数值的影响是有不一样的权重的。比如上节中我们的回归方程为(这个地方用矩阵的方法来表示Ɵ表示参数,i表示第i个样本,h为在Ɵ参数下的预测值):
2015-05-13 13:52:49
842
转载 LWR 局部加权线性回归算法
http://blog.csdn.net/tianguokaka/article/details/14227187分类: 统计学习方法2013-11-06 14:44 1649人阅读 评论(3) 收藏 举报看了机器学习的第三课,实现了一下LWR算法。[cpp] view plaincopy#include using n
2015-05-13 13:50:15
2304
转载 新宇教你机器学习之 Linear Regression (Least Square Regression)
http://blog.sina.com.cn/s/blog_a18c98e50101108a.html部分资料和内容摘自斯坦福大学Andrew Ng教授的Machine Learning Online Class。监督学习(supervised learning)通常有下列步骤:Linear Regression (Least Square Regression)"
2015-05-13 13:49:19
2103
转载 OpenSOC初探
2015/4/16 17:39:41 来源:http://blog.chinaunix.net/uid-26275986-id-4964935.htmlCisco在最近的BroCon大会上公布了旗下的OpenSOC项目即将开源的消息,在其GIT站点上也开始放出了部分代码,应该说OpenSOC对于当今大数据分析的“落地”有着重要的意义。一直以来各界都鼓吹大数据的神奇力量,但是却一直无
2015-04-28 16:18:40
2904
转载 当大数据遇到安全分析:思科OpenSOC即将开源
来源:http://www.aqniu.com/neotech/network-security/4546.html作者:zeon 2014年9月17日 来源:安全牛 收藏文章(0) OpenSOC是大数据分析与安全分析技术的结合大数据与安全分析技术的结合是信息安全市场的热点话题,而思科公司的安全大数据分析框架OpenSOC也在
2015-04-28 16:16:01
1103
转载 漫谈:机器学习中距离和相似性度量方法
漫谈:机器学习中距离和相似性度量方法原文:http://www.cnblogs.com/daniel-D/p/3244718.html在机器学习和数据挖掘中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如 K 最近邻(KNN)和 K 均值(K-Means)等等。根据数据特性的不同,可以采用不同的度量方法。
2015-04-24 16:53:04
611
转载 hadoop1.0 和hadoop2.0 任务处理架构比较
来源:http://younglibin.iteye.com/blog/1921385刚刚看到一篇文章对 hadoop1 和 hadoop 2 做了一个解释 图片不错 拿来看看 Hadoop 1.0 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路:首先用户程序 (JobClient) 提交了
2015-04-24 10:11:10
727
转载 大数据架构:flume-ng+Kafka+Storm+HDFS 实时系统组合
个人观点:大数据我们都知道hadoop,但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理,hadoop还是比较适合的,但是对于实时性比较强的,数据量比较大的,我们可以采用Storm,那么Storm和什么技术搭配,才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章:1.一个好的项目架构应该具备什么特点?2.本项目架构是如何保证数据准确性的?3
2015-04-24 09:19:37
1008
原创 中国科学院信息工程研究所 第四研究室实习生/应届生招聘
中国科学院信息工程研究所第四研究室实习生/应届生招聘实习生招聘1、Java/C++语言扎实;2、熟练掌握计算机网络、数据结构与算法、网络编程、多线程编程技术;3、有Hadoop/Storm/Spark等分布式计算系统使用经验者优先;4、有网络信息安全、大数据处理方面经验优先;5、良好的团队合作和沟通能力,做事认真严谨,对解决挑战性问题充满激情;6、诚实,勤奋,快速学习能力;7、大学本科或以上学历,每周至少实习三天以上。 此外,有少量2015届硕士/博士应届生工作机会。简历投递:Ema
2015-03-17 10:02:50
2225
转载 网络安全协议之比较(SSH、 PKI、SET、SSL)
转自:http://blog.chinaunix.net/uid-20663154-id-1585302.html一、SSH介绍 什么是SSH? 传统的网络服务程序,如:ftp、pop和telnet在本质上都是不安全的,因为它们在网络上用明文传送口令和数据,别有用心的人非常容易就可以截获这些口令和数据。而且,这些服务程序的安全验证方式也是有其
2015-01-06 14:53:43
3178
转载 网络安全书籍推荐列表
转自:http://www.cnblogs.com/zer0Black/p/3959886.html看到作者列出的书籍列表,对于信息安全的初学者来说,能很好的选择教材,鉴于只有英文版,我尝试翻译成中文以供参考,初次翻译,翻译的不好请见谅。原文链接:http://dfir.org/?q=node/8/注:对于所有的书籍链接,我都会寻找中文版重新链接,如无中文版,则按原文链
2015-01-06 14:00:19
24503
转载 SSL协议详解
http://www.cnblogs.com/zhuqil/archive/2012/10/06/ssl_detail.html背景介绍 最近在看《密码学与网络安全》相关的书籍,这篇文章主要详细介绍一下著名的网络安全协议SSL。 在开始SSl介绍之前,先给大家介绍几个密码学的概念和相关的知识。 1、密码学的相关概念密码学(cryptography):目的是
2015-01-06 11:36:01
923
转载 The Rise of Encrypted Traffic
The Rise of Encrypted TrafficGreg MayfieldOctober 23, 2014https://www.bluecoat.com/company-blog/2014-10-23/rise-encrypted-trafficBased on proven standards like Secure Sockets Lay
2015-01-06 11:18:21
1019
Wireshark与设备解析字节不一致情况
2016-01-16
阿里安全峰会 PPT合集 下
2015-07-24
阿里安全峰会2015 PPT合集-上
2015-07-24
SQLServer一些资料打包,仅供学习
2011-12-21
关于数组指针和指向数组指针的指针及其new
2011-12-07
简单学生信息管理实例VC+SQL+ADO
2011-04-15
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人