
机器学习
answer3lin
Research direction: cyber security, software engineering, machine learning&deep learning.
Talk is cheap. Show me the code.
展开
-
网络安全数据集
转自:https://xz.aliyun.com/t/1879简介本文主要收录安全相关的数据集,适合初创,中小型企业用于训练和验证自己的机器学习的模型,提高准确率和准确度。由于数据集可能比较多,一开始也不能全部列举出来,所以后续会慢慢补充,慢慢增加。数据集每个数据集都会有简单的介绍,内容类型,是否特征化以及适用范围网络流量 主机行为 文件样本KDD 99KDD C...转载 2018-10-08 12:36:07 · 19828 阅读 · 2 评论 -
Python读取数据None的问题
Python做机器学习的时候,遇到过读取数据nan的问题,不能输入到机器学习模型中。我们都是知道原因是这是一个非数。但是我想知道具体是哪一个数据,此时我测试发现该数输出是None。但是我在数据文本文件中搜索None和nan都无法得到,后来才知道实际在文本中存储的是 null。...原创 2019-02-27 23:05:02 · 3590 阅读 · 0 评论 -
网络抓包工具总结
传输层抓包:最高解析到传输层。ethereal 2006年6月,因为商目标问题,Ethereal更名为Wireshark。原始ethereal 保留。Ethereal (Ethereal:A Network Packet Sniffing Tool)是当前较为流行的一种计算机网络调试和数据包嗅探软件。Ethereal 基本类似于tcpdump,但Ethereal 还具有设计完美的 GUI ...原创 2019-01-21 13:31:11 · 1227 阅读 · 0 评论 -
PCAP流量数据集(网络安全)
MAWI Working Group Traffic ArchiveURL:http://mawi.wide.ad.jp/mawi/CIC datasetCanadian Institute for Cybersecurity datasets are used around the world by universities, private industry and indepen...原创 2019-01-21 13:37:02 · 15621 阅读 · 42 评论 -
机器学习模型中归一化和标准化的应用场景
归一化:把每个特征向量(特别是奇异样本数据)的值都缩放到相同数值范围。如[0,1]或[-1,1]。最常用的归一化形式就是将特征向量调整为L1范数(就是绝对值相加),使特征向量的数值之和为1。L2范数就是欧几里得之和。 这个方法经常用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一数量级(同一量纲),提高不同特征数据的可比性。概率模型(树形模型)不需要归一化,因为它们不关...转载 2018-12-11 22:29:26 · 2146 阅读 · 0 评论 -
机器学习中之规范化,中心化,标准化,归一化,正则化,正规化
一、归一化,标准化和中心化广义的标准化:(1)离差标准化(最大最小值标准化)(2)标准差标准化(3)归一化标准化(4)二值化标准化(5)独热编码标准化归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)标准化数据的标准化(normalization)是将数据按比例缩放(scale),使之落入...转载 2018-12-11 20:25:38 · 15687 阅读 · 0 评论 -
机器学习之性能度量指标
机器学习的模型性能度量指标在机器学习中,衡量,评估和选择一个模型好坏是通过一些常见指标实现的,称之为性能指标(Metrics)。对于一个二分类问题,我们首先给出如下基本指标基于这些指标可以推导出其他指标::True Positive(真正, TP),即模型预测为正的正样本个数(将正类预测为正类数) :False Positive(假正, FP),即模型预测为正的负样本个数(本来是负样...原创 2018-12-06 11:32:52 · 7746 阅读 · 0 评论 -
Spark下FP-Growth
一旦建立了FP树之后就可以不断递归挖掘K频繁项集,对于Hadoop就会产生多次IO操作,严重影响程序运行效率,而Spark这种弹性式内存计算框架可以将中间输出和结果保存在内存中,不需要重复读写HDFS,所以Spark能更好地适用于数据挖掘需要递归的Map-Reduce算法。Spark下FP-Growth 在spark下部署FP-growth算法的主要思路分为五步,涉及三步MR。...转载 2018-11-26 10:56:12 · 383 阅读 · 0 评论 -
评价频繁模式挖掘和关联分析的指标(模型兴趣度度量方法)
强规则不一定是有趣的关联分析和频繁模式挖掘的两大经典算法包括:Apriori算法和FP-growth。其在学习过程中的评价指标主要包括支持度(包括支持度计数)和置信度(也叫可信度)。但其实这两个指标有一定的局限性。示例问题如下:假设一共有10000个事务,其中包括A事件的事务有6000个;包括B事件的事务有7500个;同时包括A事件和B事件的事务有4000个。要求的最小支持度阈值为...翻译 2018-11-25 22:28:03 · 3857 阅读 · 0 评论 -
FP-growth 频繁项集计算方法
自学关联分析的时候,发现树和各种博客上对FP-growth算法的介绍中主要集中在FP-tree的构建上,而对FP-tree的挖掘,稍微有些不清楚,特别是在获取频繁项集的具体做法的介绍有些模糊。《机器学习实战》中对从FP-tree中抽取频繁项集的三个基本步骤介绍如下:(1)从FP-tree中获得条件模式基。(2)利用条件模式基,构建一个条件FP树。(3)迭代重复步骤(1)和步骤(2)...原创 2018-11-25 20:14:19 · 624 阅读 · 0 评论 -
特征选择方法CHI和IG
转载自:https://blog.csdn.net/enter89/article/details/52538121转载 2019-05-17 18:06:04 · 1761 阅读 · 0 评论