- 博客(196)
- 资源 (14)
- 收藏
- 关注
原创 用解析树计算自定义表达式
不久前,我们遇到了这样的需求:项目方需要对各个业务系统进行监控,如果业务系统的分值低于某个预定的分数,则监控系统会自动为相关负责人发送告警信息。需求看起来并不难,我们把资源的状态由高到低分为致命、严重、警告三个级别,整个业务系统的状态受最严重节点的影响,例如:如果业务系统中有一个资源的状态是致命,那么整个业务系统就是致命。然而需求方有很多项目采用了负载均衡或分布式部署,某个节点宕机并不影响整个系统继续运行,这种简的单规则并不能有效判断系统的整体运行状态。在上图中,虽然可用区A挂.
2021-02-18 11:41:51
803
原创 概率统计23——假设检验理论(2)
假设检验实际上是用反证法做出非对即错的判断:先假定原假设是对的,然后将抽样数据代入相应的分布中去验证,观察原假设的数值是落在接受域还是拒绝域,由此做出是接受还是拒绝原假设的判断。值得注意的是,不同于以往严格的数学证明,假设检验是建立在小概率事件原理的基础之上。由于小概率事件也有可能发生,因此并不能百分之百确定原假设一定不成立,也就是说,原假设也有判断错误的时候。两种错误类型假设检验有两...
2020-03-27 16:37:58
3151
原创 概率统计22——假设检验理论(1)
我们可以根据经验或统计量对一些事情做出断言,问题是,如何判断这个断言的合理性?假设检验为我们提供了一种利用样本检验断言是否可靠的方法,能够让我们通过已有的证据验证断言是经过缜密的运算,还是毫无根据的瞎猜。假设检验的背景 某个机器元件的质量标准是功率,功率越大越好,这个元件影响到公司的核心竞争力。技术组在攻克了重重难题后宣称有了重大突破。总经理非常高兴,宣布批量试制。然而改进后的数据却...
2020-03-04 16:50:57
1860
原创 概率统计21——指数分布和无记忆性
指数分布(Exponential distribution)是一种连续型概率分布,可以用来表示独立随机事件发生的时间间隔的概率,比如婴儿出生的时间间隔、旅客进入机场的时间间隔、打进客服中心电话的时间间隔、系统出现bug的时间间隔等等。指数分布的由来 指数分布与泊松分布存在着联系,它实际上可以由泊松分布推导而来。 泊松分布(概率统计15)中已经介绍过泊松分布,除了作为二项...
2020-02-27 23:01:20
33798
2
原创 概率统计20——估计量的评选标准
对总体参数进行估计的方式多种多样,为了评判估计量的优劣,我们需要借助一些评选标准。这些乱七八糟的符号 我觉得参数估计总是人为地设计各种门坎,里面参杂着各种符号,一会儿是X,一会儿是x;一会儿是θ,一会儿是θ(X);还有诸如“总体参数”、“待估计参数”这类名词,究竟是几个意思? 有必要先理清这些符号。 我们用全国18~50岁的男性身高为例,所有18~50岁的男性是总体。在...
2020-02-24 10:42:11
2811
原创 概率统计19——中心极限定理
大数定律告诉我们,如果想要求得一个随机变量的期望,只需要进行多次重复试验,然后取均值就可以了。然而在使用大数定律时仍然需要小心,因为大数定律并没有明确指出到底需要多少次试验才能充分接近我们所期待的极限。无论实验多少次,我们仍然不能否认存在这样的情况:所抛出的骰子全部是同一点数,尽管这种情况发生的概率很小。 用Yn表示一系列独立同分布的随机变量X1, X2, …, Xn之和,既然X...
2020-02-16 17:58:35
14156
2
原创 概率统计18——再看大数定律
在对不了解概率的人解释期望时,我总是敷衍地将期望解释为均值。这种敷衍的说法之所以行得通,正是由于大数定律起了作用。 人们在实践中发现,尽管每个随机变量的取值不同,但当随机变量大量出现时,它们的均值却相对恒定,这个规律就是大数定律。一个公平的骰子 我们有一个公平的骰子,每个点数出现的概率都是1/6,如果只投掷一次,完全无法预测它的点数,但是如果把连续投掷20次看作一次试验...
2020-02-12 18:07:47
2187
原创 概率统计17——点估计和连续性修正
原文 |https://mp.weixin.qq.com/s/NV3ThVwhM5dTIDQAWITSQQ 概率(probabilty)和统计(statistics)是两个相近的概念,其实研究的问题刚好相反。 概率是使用一个已知参数的模型去预测这个模型所产生的结果,并研究结果的相关数字特征,比如期望、方差等。假设现在已知一个射击运动员的得分服从均值为8.2,方差为1.5的正态...
2020-02-10 12:27:47
5043
1
原创 概率统计16——均匀分布、先验与后验
相关阅读:最大似然估计(概率10)重要公式(概率4)概率统计13——二项分布与多项分布贝叶斯决策理论(1)基础知识 | 数据来自于一个不完全清楚的过程……均匀分布 简单来说,均匀分布是指事件的结果是等可能的。掷骰子的结果就是一个典型的均匀分布,每次的结果是6个离散型数据,它们的发生是等可能的,都是1/6。均匀分布也包括连续形态,比如一份外卖的配送时间是10~20分钟...
2020-02-03 16:59:26
8134
原创 概率统计15——泊松分布
很多场合下,我们感兴趣的试验进行了很多次,但其中成功的却发生的相当稀少。例如一个芯片的生厂商想要把生产出的芯片做一番检测后再出售。每个芯片都有一个不能正常工作的微小概率p,在数量为n的一大批芯片中,出现r个故障芯片的概率是多少?相关阅读单变量微积分30——幂级数和泰勒级数概率统计13——二项分布与多项分布二项式的泊松近似 问题似乎很简单,芯片故障的...
2020-01-20 20:14:13
3417
原创 概率统计14——几何分布
我家小朋友年方1岁半,家里每天上午都要出去遛小孩。现在小朋友有两项爱好,在家翻垃圾桶,出门捡烟头。 翻垃圾桶可以有效地限制,捡烟头可是防不胜防。 也许烟头能散发出特殊的能量波动,小区的绿化带和草坪上的大部分烟头都能被小朋友准确地发现,如果他在不规则的前进路线中突然停下了,那肯定是看到了新的烟头。错失奖励概率 在我的严密监视下,小朋友捡烟头的几率已经从原来的“绝不放过...
2020-01-17 16:26:05
7289
原创 双色球的概率和收益
原文 |https://mp.weixin.qq.com/s/gF0aTunuxIFAffATab-v4w 我买双色球已经好多年了,一直相信“只要集齐七个球,就能大富大贵”,但这么多年过去了,愿望依旧没有达成。最近一期的双球又一次白白捐献了2块钱。长期来看,到底是赔钱还赚钱?如果有一天赚钱了,能否抵得过我的投入? 双色球由红球和蓝球两部份组成,红球是由01到33个号码中选...
2020-01-14 17:54:58
7163
4
原创 神奇的伽玛函数
伽玛函数(Gamma函数),也叫欧拉第二积分,是阶乘函数在实数与复数上扩展的一类函数。伽玛函数在分析学、概率论、偏微分方程和组合数学中有重要的应用。 我们通常看到的伽玛函数是这样的: 这到底是个什么东西?有什么用?欧拉又是怎么发现它的? 欧拉大神伽玛函数的起因 发现伽玛函数的起因是数列插值。数列插值问题,通俗地说就是把数列的通项公式从整数定义域扩展到实数。例...
2020-01-09 09:32:09
11152
1
原创 贝叶斯决策理论(1)
数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结果的影响缺乏必要的认知,所以退而求其次,把投掷硬币作为一个随机过程来建模,并用概率理论对其进行分...
2019-12-28 19:25:50
1155
1
原创 概率统计13——二项分布与多项分布
原文 |https://mp.weixin.qq.com/s/bOchsmHTINKKlyabCQKMSg相关阅读最大似然估计(概率10)寻找“最好”(3)函数和泛函的拉格朗日乘数法伯努利分布 如果随机试验仅有两个可能的结果,那么这两个结果可以用0和1表示,此时随机变量X将是一个0/1的变量,其分布是单个二值随机变量的分布,称为伯努利分布。注意伯努利分布关注的是结果只有0和...
2019-12-28 19:21:43
14148
1
原创 线性代数笔记34——左右逆和伪逆
原文 |https://mp.weixin.qq.com/s/PRQQvSfmipxPBeF80aEQ1A 一个矩阵有逆矩阵的前提是该矩阵是一个满秩的方阵。然而很多时候遇到的都是长方矩阵,长方矩阵是否有类似的逆矩阵呢? 先把4个基本子空间的图贴上,A是m×n的矩阵,其中r是矩阵的秩:两侧逆(2-sided inverse) 我们通常说的逆矩阵都是针对满秩方阵而言,此...
2019-12-19 21:59:55
6139
原创 线性代数笔记33——基变换和图像压缩
原文 |https://mp.weixin.qq.com/s/TXbcQoXw2HGkP3tnvKEpMQ 基变换的一个重要应用是压缩,图像、视频、音频和其它一些数据都会因为基变换而得到更高效的压缩存储。线性变换可以脱离坐标系,而描述线性变换的矩阵却要依赖于坐标系,因此选择合适的基会更便于计算。图像的知识灰度图像 由于景物各点的颜色及亮度不同,摄成的黑白照片上或电视...
2019-12-17 17:45:44
1397
1
原创 线性代数笔记32——线性变换及对应矩阵
原文:https://mp.weixin.qq.com/s/qCmstZdzCy1WCfBAkEZEoA 线性变换这个词在线性代数中经常被提及,每个线性变换的背后都有一个矩阵。矩阵的概念比较直观,相比之下,线性变换就显得抽象了。线性变换 抛开矩阵,我们从变换的角度讨论投影。通过T变换,使平面内的一个向量投影到一条直线上: T就像一个函数:给定一个输入向量,经过T的变换...
2019-12-14 13:40:32
6922
原创 线性代数笔记31——奇异值分解
原文 |https://mp.weixin.qq.com/s/HrN8vno4obF_ey0ifCEvQw 奇异值分解(Singular value decomposition)简称SVD,是将矩阵分解为特征值和特征向量的另一种方法。奇异值分解可以将一个比较复杂的矩阵用更小更简单的几个子矩阵相乘来表示,这些小矩阵描述的都是矩阵的重要的特性。奇异值分解在图形降噪、推荐系统中都有很重要的应...
2019-12-10 18:48:06
1891
原创 线性代数笔记30——相似矩阵和诺尔当型
原文 |https://mp.weixin.qq.com/s/TDj3aCEHjaKHATZ7uviQMA长方矩阵与正定矩阵 我们之前一直在讨论方阵,但大量的实际问题应用到了长方矩阵,比如在最小二乘中用到了ATA。 如果A是一个m×n的长方矩阵,那么ATA是一个对称矩阵,当然也是方阵,我们感兴趣的是ATA的正定性。对于ATA来说,我们对它的特征向量和行列式一无所知,需要...
2019-12-03 12:50:31
3620
原创 线性代数笔记29——正定矩阵和最小值
原文链接 |https://mp.weixin.qq.com/s/wX6wmVSqJUTgbmk8Z1r2_w判断正定矩阵 给出一个矩阵: 有4个途径可以判定该矩阵是否是正定矩阵(注意这个矩阵的4个元素中有2个b,这是因为正定矩阵是对称矩阵,如果A的次对角线的元素不相等,A就不是对称的,也就没有必要进一步判定是否是正定的):所有特征值大于0,λ1>0,λ2>...
2019-11-28 19:28:29
4100
1
原创 线性代数28——复矩阵和快速傅立叶变换
原文 |https://mp.weixin.qq.com/s/YzPoPnRb-gEm_EiV9et0TA 实矩阵也可能碰到复特征值,因此无可避免地在矩阵运算中碰到复数。 矩阵当然也有可能包含复数,最重要的复矩阵是傅立叶矩阵,它用于傅立叶变换。一种特殊的傅立叶变换是快速傅立叶变换(fast Fourier transform),简称FFT,在计算机中很常用,特别是涉及到大数...
2019-11-26 17:08:59
2180
原创 闲话复数(2)——欧拉公式
原文链接 |https://mp.weixin.qq.com/s/jdZx1FX3MpG9XzB1rMJfTQ 欧拉公式被誉为“宇宙第一公式”,是大名鼎鼎的莱昂哈德·欧拉提出的。这位老大哥提出了很多著名的公式和定理,我们在RSA原理中遇到的欧拉函数就是他提出来的,还有图论中那个著名的七桥问题,也是欧拉提出的。 相关阅读: 闲话复数(1)复数和复平面 ...
2019-11-25 19:17:43
2155
1
原创 线性代数笔记27——对称矩阵及正定性
原文 |https://mp.weixin.qq.com/s/zdQttJfuubyztiVplScbwA对称矩阵 对称矩阵是最重要的矩阵之一,对于对称矩阵来说,A=AT。矩阵的特殊性也表现在特征值和特征向量上,比如马尔可夫矩阵的有一个值为1的特征值,对称矩阵的特征值又有哪些特性呢? 本文的相关知识: 正交向量和正交矩阵(线性代数20——格拉姆-施密特正...
2019-11-22 19:04:24
6378
原创 闲话复数(1) | 不现实的虚数 i 为什么虚?它长成什么样?
原文 |https://mp.weixin.qq.com/s/y-Nb3S508UZuf_0GtRuNaQ 复数的英文是complex number,直译是复杂的数。最早接触复数大概是在高中时期,只知道复数由实部和虚部组成,虚部用i表示,i2=-1。天啊,无限不循环的无理数勉强可以接受,这个i到底是个什么东西?相比实数而言,这个不现实的虚数为什么虚?它长成什么样?虚数的诞生 ...
2019-11-21 23:08:49
1979
原创 线性代数笔记26——傅立叶级数
法国数学家傅里叶发现,任何周期函数都可以用正弦函数和余弦函数构成的无穷级数来表示(选择正弦函数与余弦函数作为基函数是因为它们是正交的),后世称傅里叶级数为一种特殊的三角级数。构建傅立叶级数的基础 如果有一组n维空间的标准正交基向量q1,q2,…,qn,则n维空间内的任意向量v都可以用这组基的线性组合表示: 正交基向量:q1,q2,…,qn中的向量两两垂直(更多内容参考 线性...
2019-11-19 17:48:12
1901
原创 线性代数笔记25——马尔可夫矩阵
AT的特征值 矩阵A的特征值和AT的特征值是一样的。 求解特征值的方法是det(A-λI) = 0,根据行列式的性质,矩阵的行列式等于矩阵转置的行列式,因此: 因此λ也是AT的特征值。马尔可夫矩阵 矩阵A有2个特点:A中的所有元素都是非负的;A中的每一列之和都等于1。形如A的矩阵称为马尔可夫矩阵。马尔可夫矩阵主要应用在概率领域。将一个马尔可夫矩阵进行方幂运算仍然...
2019-11-19 13:38:02
9942
4
原创 线性代数笔记24——微分方程和exp(At)
原文:https://mp.weixin.qq.com/s/COpYKxQDMhqJRuMK2raMKQ 微分方程指含有未知函数及其导数的关系式,解微分方程就是找出未知函数。未知函数是一元函数的,叫常微分方程;未知函数是多元函数的,叫做偏微分方程。常微分方程有时也简称方程。微分方程是一门复杂的学科,对于常微分方程来说,可以使用特征值和特征向量的知识求解。 相关前置知识:...
2019-11-16 00:04:19
7268
原创 数据分析(4)——闲话抽样
中国的人口普查大名鼎鼎,这里的普查是指对总体的研究和调查,普查内容包括人的基本情况、迁移流动状况、人口素质情况,就业、社会保障状况、婚姻生育状况等多项内容。但是中国的人口过于庞大,不可能对每个人都进行调查,这样一来,抽样就显得十分重要。在抽样之前,先来看看数据是如何获取的。获取数据 大多数时候,我们获取数据的方式仅仅是坐在计算机前查看某个数据库或解析某个流式文件,在进行这种行为时,...
2019-11-13 18:30:04
705
原创 数据分析(3)——数据描述
在前面的文章中介绍了平均数和数据的尺度,但仅仅通过它们来描述数据是不够的,还需要通过更多的度量描述数据。测度中心 上一章已经介绍过测度中心(measure of center),测度中心也被称为数据平衡点,能够在某种程度上对数据进行概括。 测度中心虽然是描述数据的一种简便的方法,但它存在有很多局限性。下表是两个篮球运动员在上个月比赛的得分: 得分表中有...
2019-11-12 18:02:24
2113
原创 数据的类型和尺度
数据(data)是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材……在计算机系统中,数据以二进制信息单元0,1的形式表示(百度百科) 后半句看懂了,至于前半句,还是忘记比较好。 简单地说,任何事物的结果都是数据,注意是结果,不是过程,过程是一个动作,是驱动结果的行为。 更简单一点,用任何媒体记录的东西都是数据,比如一本书中的文字,一张光盘中...
2019-11-08 18:49:58
3732
原创 关于平均数
关于平均数 根据国家统计局发布的信息,2019年全国城镇非私营单位在岗职工社会年平均工资提高到了82461元,比2018年名义增长11%,实际增长8.7%。城镇私营单位在岗职工社会平均工资达到了49575元,比2018年上涨8.3%,扣除价格因素后,实际增长6.1%。 这些数据引起了广大网友的质疑,有人说自己拖了社会主义的后腿,自己又“被平均了”;也有土豪表示“没拖后腿,自己不差钱”。...
2019-11-05 16:36:34
891
原创 概率笔记3——几何概型
引例 天上掉钱了!都是红色的毛爷爷!同学们拿着盆跑到操场上接钱,当然谁的盆大谁接到钱的可能性就越大。 钱落下的位置是操场上的随机位置(每个位置等可能),接到钱的概率只与盆的大小相关(与几何度量相关),与盆的形状无关,每个同学接到钱的概率是 Area(盆)/Area(操场)。这是一个几何概型。定义与公式 几何概型是一种概率模型,在这个模型下,E的样本空间是一个可度量的几何区域(...
2019-11-01 11:13:03
3891
1
原创 苏州市java岗位的薪资状况(2)
上一篇已经统计出了起薪最高的top 10: 接着玩,把top 10 中所有职位的详细信息爬取下来。某一职位的详情是这样: 我们需要把工作经验、学历、职能、关键字爬取下来。 from urllib.request import urlopenfrom urllib.error import HTTPErrorfrom bs4 import Beauti...
2019-11-01 10:06:11
937
原创 苏州市java岗位的薪资状况(1)
8月份已经正式离职,这两个月主要在做新书校对工作。9月份陆续投了几份简历,参加了两次半面试,第一次是家做办公自动化的公司,开的薪水和招聘信息严重不符,感觉实在是在浪费时间,你说你给不了那么多为什还往上发布?第二次是家做业务系统的中型公司,结果面试我的技术总监直接被我按在地上摩擦,估计没戏了。还有半次,是个研究所,电话和微信简单沟通了一下,结果感觉自己有点被摩擦的意思,不愧挂着研究俩字。后两家公司的...
2019-09-25 23:52:39
1761
原创 浅谈P/NP问题
克雷数学研究所(Clay Mathematics Institute,CMI)是在1998年由商人兰顿·克雷(Landon T. Clay)和哈佛大学数学家亚瑟·杰夫(Arthur Jaffe)创立,兰顿·克雷资助的一家非牟利私营机构,总部在麻萨诸塞州剑桥市,机构的目的在于促进和传播数学知识。克雷数学研究所给予有潜质的数学家各种奖项和资助,该研究所在2000年5月24日公布的七个千禧年难题,它...
2019-09-18 18:44:20
26814
7
原创 异常检测(3)——基于概率统计的异常检测(2)
书接上文,继续讨论基于多元正态分布的异常检测算法。 现在有一个包含了m个数据的训练集,其中的每个样本都是一个n维数据: 可以通过下面的函数判断一个样本是否是异常的: 我们的目的是设法根据训练集求得μ和σ,以得到一个确定的多元分正态布模型。具体来说,通过最大似然估计量可以得出下面的结论: 其中Σ是协方差对角矩阵,最终求得的多元正态分布模型可以写成:...
2019-09-03 18:03:43
1114
原创 异常检测(2)——基于概率统计的异常检测(1)
某个工厂生产了一批手机屏幕,为了评判手机屏幕的质量是否达到标准,质检员需要收集每个样本的若干项指标,比如大小、质量、光泽度等,根据这些指标进行打分,最后判断是否合格。现在为了提高效率,工厂决定使用智能检测进行第一步筛选,质检员只需要重点检测被系统判定为“不合格”的样本。 智能检测程序需要根据大量样本训练一个函数模型,也许我们的第一个想法是像监督学习那样,为样本打上“正常”和“异常”的标签,然...
2019-08-29 19:04:48
1581
Python数据可视化编程实战pdf_ 颛清山译
2018-04-04
统计学习方法-李航 pdf
2017-09-21
Erlang OTP并发编程实战-中文版 pdf
2017-09-19
Go语言圣经 高清 pdf
2017-09-15
机器学习实战(中文+高清英文+源码)pdf
2017-09-13
struts2权威指南pdf
2017-09-13
java并发编程实战pdf及源码
2017-09-12
Python网络数据采集 ([美] 米切尔) 中文pdf
2017-09-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人