深度学习笔记(三)第三章 概率论和信息论

本文探讨了概率论在人工智能领域的核心作用,包括如何利用概率和统计理论来分析AI系统的合理性及其行为。文章介绍了随机性、概率分布等基本概念,并讨论了边缘概率、条件概率、独立性等关键理论,还涉及了多种重要的概率分布模型如高斯分布、泊松分布等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在AI领域,概率论告诉我们什么样的算法是合理的。可以用概率、统计理论分析AI系统的行为。
为什么要用概率论?
1. 目标固有的随机性。
2. 不完全的观测。
3. 不完全的建模。(比如考虑计算性能)

随机数
概率分布
离散数和概率质量函数(PMF)
连续变量和概率密度函数(PDF)
边缘概率
离散数的边缘概率公式3.3
连续变量的边缘概率公式3.4
条件概率公式3.5
条件概率的链式规则
链式规则
独立
独立
条件独立
公式3.8
期望
公式3.9 3.10
方差
公式3.12
协方差
公式3.13
公式3.14
泊松分布(抛硬币)
多项式分布(掷骰子)
高斯分布(正态分布)
公式3.21
图示3.1
多元正态分布
公式3.23
多元正态分布,另一种写法:
公式3.24
指数分布和拉普拉斯分布
狄拉克分布和经验分布
混合分布

常用函数

logistic sigmoid 泊松分布用它
公式3.30
图示3.3
softplus 2001年
公式3.31
正态分布用它来生成β或者σ。
图示3.4

贝叶斯公式
公式3.42
公式中的P(y)可以这样得到公式说明

连续变量的技术细节
信息论
香农熵
图中的函数为:(p −1)log(1−p)−p log p
越接近0,随机变量为0的几率越大,所以熵越小。约接近1,随机变量为1的几率越大,所以熵也越小。当p=0.5时,随机变量为0,1的可能性一样,所以熵最大。

KL距离,用来衡量对同一随机变量的两种概率分布方法的差异。交叉熵

结构化概率模型(图模型)
三个随机变量a,b,c a影响b,b影响c,a和c是独立随机变量。
那么可以用下面的公式来分解概率模型:
公式3.52
有向图表示的概率模型:
图示3.7
公式3.54

无向图表示的概率模型:
图示3.8
公式3.56

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值