一、些基本定义
- 线性性:所谓的线性性就是加分和数乘。
- 距离:距离的定义必须满足如下三个条件:
- 非负性: d ( x , y ) ≥ 0 , x = y d(x,y)≥0,x=y d(x,y)≥0,x=y时等号成立。
- 对称性: d ( x , y ) = d ( y , x ) d(x,y)=d(y,x) d(x,y)=d(y,x)
- 三角不等式: d ( x , y ) + d ( y , z ) ≥ d ( x , z ) d(x,y)+d(y,z)≥d(x,z) d(x,y)+d(y,z)≥d(x,z)
- 范数:
‖
x
‖
‖x‖
‖x‖满足三个条件为范数:
- 非负性: ‖ x ‖ ≥ 0 ‖x‖≥0 ‖x‖≥0
- 线性性: ‖ a x ‖ = ∣ a ∣ ‖ x ‖ ‖ax‖=|a|‖x‖ ‖ax‖=∣a∣‖x‖
- 三角不等式: ‖ x ‖ + ‖ y ‖ ≥ ‖ x + y ‖ ‖x‖+‖y‖≥‖x+y‖ ‖x‖+‖y‖≥‖x+y‖
- 范数可以看成从 x x x到原点的距离;所以由范数可以定义距离,即: d ( x , y ) = ∣ ∣ x − y ∣ ∣ d(x,y)=||x-y|| d(x,y)=∣∣x−y∣∣,但是距离不可以定义范数因为距离的定义,不满足范数的第二条条件。
- 内积:
⟨
x
,
y
⟩
⟨x,y⟩
⟨x,y⟩为内积的条件:
- 对称性: ⟨ x , y ⟩ = ⟨ y , x ⟩ ⟨x,y⟩=⟨y,x⟩ ⟨x,y⟩=⟨y,x⟩
- 线性性质: ⟨ x , y ⟩ + ⟨ x , z ⟩ = ⟨ x , y + z ⟩ ⟨x,y⟩+⟨x,z⟩=⟨x,y+z⟩ ⟨x,y⟩+⟨x,z⟩=⟨x,y+z⟩ , ⟨ a x , y ⟩ = a ⟨ x , y ⟩ ⟨ax,y⟩=a⟨x,y⟩ ⟨ax,y⟩=a⟨x,y⟩
- 正定性: ⟨ x , y ⟩ ≥ 0 ⟨x,y⟩≥0 ⟨x,y⟩≥0
二、各种空间
1、各种空间关系图

2、线性空间
- 若某个空间中的任意向量线性组合(加法和数乘)形成的新向量仍然属于该空间,则该空间就是线性空间。
- 线性空间中可以找到一组基,它能够通过线性组合得到空间中所有的向量(点)。
3、函数空间
- 一个函数可以看成一个无穷维的向量。
- 对函数 f ( x ) f(x) f(x)按照自变量 x x x进行采样,将样本的函数值组成一个向量: ( f ( x 1 ) , f ( x 2 ) , … f ( x n ) ) (f(x_1 ),f(x_2 ),…f(x_n )) (f(x1),f(x2),…f(xn))
- 如果采样的间隔变得无穷的小,则这个向量就为一个无穷维的向量。
- 所以一个函数空间的内积可以定义为: ⟨ f , g ⟩ = ∫ f ( x ) , g ( x ) d x ⟨f,g⟩=∫f(x),g(x) dx ⟨f,g⟩=∫f(x),g(x)dx
- 多元函数:用 x x x表示 R n R^n Rn中的一个向量(点), f f f代表函数本身,也就是无穷向量。 f ( x ) f(x) f(x)表示点 x x x处的函数值
- 与向量基类似,我们可以使用函数基表示其他函数。与向量基不同的是,在向量空间中我们只需要有限个向量去构造一组向量基,函数空间中则需要无限个基函数。
4、完备性
- 其中完备性的意思就是空间中的极限运算不能跑出该空间,如有理数空间中的 2 \sqrt{2} 2 的小数表示,其极限随着小数位数的增加收敛到 2 \sqrt{2} 2,但 2 \sqrt{2} 2属于无理数,并不在有理数空间,故不满足完备性。
- 一个通俗的理解是把学校理解为一个空间,你从学校内的宿舍中开始一直往外走,当走不动停下来时(极限收敛),发现已经走出学校了(超出空间),不在学校范围内了(不完备了)。希尔伯特就相当于地球,无论你怎么走,都还在地球内(飞出太空除外)
- 一般指函数空间
5、特征值分解
-
特征值:
- 定义:设 A A A是 n n n阶矩阵,λ是一个实数,若存在 n n n维非零向量 ξ ≠ 0 ξ≠0 ξ̸=0,使得下式成立: A ξ = λ ξ Aξ=λξ Aξ=λξ则称 λ λ λ是 A A A的一个特征值, ξ ξ ξ是 A A A的对应于特征值 λ λ λ的特征向量。
- 性质:
- 不同特征值的特征向量线性无关。
- 同一特征值的特征向量的线性组合依然是该特征值的特征向量。
- 不同特征值的特征向量的线性组合依然不再是矩阵A的特征向量。
-
K
K
K重特征值
λ
λ
λ至多有
k
k
k个线性无关的特征向量。
-
一般矩阵的特征值分解:
- 若 A A A是 n n n阶矩阵,并且具有 n n n个线性无关的特征向量: ξ 1 , ξ 2 , … , ξ n ξ_1,ξ_2,…,ξ_n ξ1,ξ2,…,ξn
- 这些特征向量对应的特征值分别是: λ 1 , λ 2 , … , λ n λ_1,λ_2,…,λ_n λ1,λ2,…,λn特征值可能有重根。
- 则有下面式子成立: A ξ i = λ i ξ i Aξ_i=λ_i ξ_i Aξi=λiξi [ A ξ 1 , A ξ 2 , … , A ξ n ] = [ λ 1 ξ 1 , λ 2 ξ 2 , … , λ n ξ n ] [Aξ_1,Aξ_2,…,Aξ_n ]=[λ_1 ξ_1,λ_2 ξ_2,…,λ_n ξ_n] [Aξ1,Aξ2,…,Aξn]=[λ1ξ1,λ2ξ2,…,λnξn] A [ ξ 1 , ξ 2 , … , ξ n ] = [ ξ 1 , ξ 2 , … , ξ n ] [ λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n ] A[ξ_1,ξ_2,…,ξ_n ]=[ξ_1,ξ_2,…,ξ_n ]\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix} A[ξ1,ξ2,…,ξn]=[ξ1,ξ2,…,ξn]⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤
- 记: [ ξ 1 , ξ 2 , … , ξ n ] = Q [ξ_1,ξ_2,…,ξ_n ]=Q [ξ1,ξ2,…,ξn]=Q P = [ λ 1 0 ⋯ 0 0 λ 2 ⋯ 0 ⋮ ⋮ ⋱ ⋮ 0 0 ⋯ λ n ] P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix} P=⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤
- 则有:
A
=
Q
P
Q
−
1
A=QPQ^{-1}
A=QPQ−1
-
实对称矩阵性质::
- 实对称矩阵 A A A的不同特征值对应的特征向量是正交的
- 实对称矩阵 A A A的特征值都是实数,特征向量都是实向量。
- n n n阶实对称矩阵 A A A必可相似对角化(有 n n n个线性无关的特征向量),且相似对角阵上的元素即为矩阵本身特征值。
- 若 λ λ λ是 k k k重特征值,则必有k个线性无关的特征向量。
- 如果矩阵
A
A
A是实对称矩阵,则必定存在一个正交矩阵
Q
Q
Q,使得
Q
T
A
Q
=
P
Q^T AQ=P
QTAQ=P,即
A
=
Q
P
Q
T
A=Q PQ^T
A=QPQT其中
P
P
P是对角矩阵
-
正交矩阵性质::
-
Q
Q
Q正交矩阵,则
Q
T
=
Q
−
1
Q^T=Q^{-1}
QT=Q−1
-
Q
Q
Q正交矩阵,则
Q
T
=
Q
−
1
Q^T=Q^{-1}
QT=Q−1
-
施密特正交化::
- 设 α 1 , α 2 , … , α n α_1,α_2,…,α_n α1,α2,…,αn是 R n R^n Rn中的一个线性无关向量组,若令: β 1 = α 1 β_1=α_1 β1=α1 β 2 = α 2 − ⟨ α 2 , β 1 ⟩ ⟨ α 1 , β 1 ⟩ β 1 β_2=α_2-\frac{⟨α_2,β_1 ⟩}{⟨α_1,β_1 ⟩}β_1 β2=α2−⟨α1,β1⟩⟨α2,β1⟩β1 … … … β n = α n − ⟨ α n , β 1 ⟩ ⟨ α 1 , β 1 ⟩ β 1 − ⟨ α n , β 2 ⟩ ⟨ α 2 , β 2 ⟩ β 2 − … − ⟨ α n , β n − 1 ⟩ ⟨ α n − 1 , β n − 1 ⟩ β n − 1 β_n=α_n-\frac{⟨α_n,β_1 ⟩}{⟨α_1,β_1 ⟩} β_1-\frac{⟨α_n,β_2 ⟩}{⟨α_2,β_2 ⟩} β_2-…-\frac{⟨α_n,β_{n-1} ⟩}{⟨α_{n-1},β_{n-1} ⟩} β_{n-1} βn=αn−⟨α1,β1⟩⟨αn,β1⟩β1−⟨α2,β2⟩⟨αn,β2⟩β2−…−⟨αn−1,βn−1⟩⟨αn,βn−1⟩βn−1
- 则 β 1 , β 2 , … , β n β_1,β_2,…,β_n β1,β2,…,βn就是一个正交向量组。再进行单位化: e i = β i ∣ ∣ β i ∣ ∣ e_i=\frac{β_i}{||β_i ||} ei=∣∣βi∣∣βi
- 利用线性无关向量组,构造出一个标准正交向量组的方法,就是施密特正交化方法。
- 由上面公式我们可以看出,
β
1
,
β
2
,
…
,
β
n
β_1,β_2,…,β_n
β1,β2,…,βn都是由
α
1
,
α
2
,
…
,
α
n
α_1,α_2,…,α_n
α1,α2,…,αn线性组合形成的。
-
证明:如果矩阵A是实对称矩阵,则必定存在一个正交矩阵 Q Q Q,即 A = Q P Q T A=QPQ^T A=QPQT
- 这个就是实对称矩阵的特征值分解,上面所有的铺垫都是为了轻松的证明这个定理。
- 假设 A A A是 n n n阶实对称矩阵,其不重复特征值为: λ 1 , λ 2 , … , λ d λ_1,λ_2,…,λ_d λ1,λ2,…,λd
- 若 d = n d=n d=n,则 A A A有 n n n个不相等的特征值,所有每个特征值都有一个特征向量为: ξ 1 , ξ 2 , … , ξ n ξ_1,ξ_2,…,ξ_n ξ1,ξ2,…,ξn,则他们相互正交。然后由上面的特征值分解方法有: A = Q P Q − 1 A=QPQ^{-1} A=QPQ−1由于 [ ξ 1 , ξ 2 , … , ξ n ] = Q [ξ_1,ξ_2,…,ξ_n ]=Q [ξ1,ξ2,…,ξn]=Q,所以 Q Q Q为正交矩阵,则 Q T = Q − 1 Q^T=Q^{-1} QT=Q−1,所以有: A = Q P Q T A=QPQ^T A=QPQT
- 若
d
<
n
d<n
d<n,则
A
A
A有重根特征值,对每个重根特征值做下面处理:
- 若λ_i 是k重特征值,则必有 k k k个线性无关的特征向量: ξ i 1 , ξ i 2 , … , ξ i k ξ_{i1},ξ_{i2},…,ξ_{ik} ξi1,ξi2,…,ξik,将他们进行施密特正交化得到: ξ i 1 ′ , ξ i 2 ′ , … , ξ i k ′ ξ_{i1}',ξ_{i2}',…,ξ_{ik}' ξi1′,ξi2′,…,ξik′,由于 ξ i 1 ′ , ξ i 2 ′ , … , ξ i k ′ ξ_{i1}',ξ_{i2}',…,ξ_{ik}' ξi1′,ξi2′,…,ξik′是由 ξ i 1 , ξ i 2 , … , ξ i k ξ_{i1},ξ_{i2},…,ξ_{ik} ξi1,ξi2,…,ξik线性组合形成的,根据特征值性质可知 ξ i 1 ′ , ξ i 2 ′ , … , ξ i k ′ ξ_{i1}',ξ_{i2}',…,ξ_{ik}' ξi1′,ξi2′,…,ξik′也是 λ i λ_i λi的特征向量并且相互正交。- 经过上面处理,
ξ
1
,
ξ
2
,
…
,
ξ
n
ξ_1,ξ_2,…,ξ_n
ξ1,ξ2,…,ξn相互正交,后面的处理和上一种情况一样。
- 经过上面处理,
ξ
1
,
ξ
2
,
…
,
ξ
n
ξ_1,ξ_2,…,ξ_n
ξ1,ξ2,…,ξn相互正交,后面的处理和上一种情况一样。
-
现在经过上面的一系列铺垫证明,我们得到这样一个结论:
- 若
A
A
A是
n
n
n阶是对称矩阵,那么A可以被如下分解:
A
=
Q
P
Q
T
A=QPQ^T
A=QPQT其中:
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
=
Q
[ξ_1,ξ_2,…,ξ_n ]=Q
[ξ1,ξ2,…,ξn]=Q
P
=
[
λ
1
0
⋯
0
0
λ
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
λ
n
]
P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}
P=⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤中间特征值于特征向量是对应关系,我展开公式:
A
=
Q
P
Q
T
=
∑
i
=
1
n
λ
i
ξ
i
ξ
i
T
A=QPQ^T=∑_{i=1}^nλ_i ξ_i ξ_i^T
A=QPQT=i=1∑nλiξiξiT
- 若
A
A
A是
n
n
n阶是对称矩阵,那么A可以被如下分解:
A
=
Q
P
Q
T
A=QPQ^T
A=QPQT其中:
[
ξ
1
,
ξ
2
,
…
,
ξ
n
]
=
Q
[ξ_1,ξ_2,…,ξ_n ]=Q
[ξ1,ξ2,…,ξn]=Q
P
=
[
λ
1
0
⋯
0
0
λ
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
λ
n
]
P=\begin{bmatrix} λ_1 &0 & \cdots & 0 \\ 0 &λ_2 & \cdots & 0 \\ \vdots & \vdots &\ddots & \vdots \\ 0 &0 & \cdots & λ_n \end{bmatrix}
P=⎣⎢⎢⎢⎡λ10⋮00λ2⋮0⋯⋯⋱⋯00⋮λn⎦⎥⎥⎥⎤中间特征值于特征向量是对应关系,我展开公式:
A
=
Q
P
Q
T
=
∑
i
=
1
n
λ
i
ξ
i
ξ
i
T
A=QPQ^T=∑_{i=1}^nλ_i ξ_i ξ_i^T
A=QPQT=i=1∑nλiξiξiT
-
为了顺利理解下面的部分,我们需要知道矩阵与线性变换的一个关系:
- 每个矩阵与一个线性变换对应,所以矩阵可以看作是一个映射或一个函数。
- 详细讲述可以参考:https://blog.csdn.net/ACM_hades/article/details/90518653
三、核函数
- 函数
φ
(
x
)
φ(x)
φ(x)可视为一个无穷维向量,那么二元函数
K
(
x
,
y
)
K(x,y)
K(x,y)就可以可以视为一个无穷维矩阵,这个地方有点抽象,解释如下:
- 假设 A A A为 m × n m×n m×n的矩阵, x x x为 n × 1 n×1 n×1的列向量,则可以通过对 A A A与 x x x做内积将 x x x映射为一个 m m m维空间中的 y y y( m × 1 m×1 m×1的列向量),所以矩阵 A A A就是一个函数: A x = y Ax=y Ax=y
- 现在我对函数
f
(
x
)
f(x)
f(x)与
K
(
x
,
y
)
K(x,y)
K(x,y)做内积:
⟨
K
(
x
,
y
)
,
φ
(
x
)
⟩
=
∫
K
(
x
,
y
)
φ
(
x
)
d
x
⟨K(x,y),φ(x)⟩=∫K(x,y)φ(x)dx
⟨K(x,y),φ(x)⟩=∫K(x,y)φ(x)dx这个积分的结果是一个
y
y
y的函数
μ
(
y
)
μ(y)
μ(y),也是无限维的向量。所以从这个角度讲
K
(
x
,
y
)
K(x,y)
K(x,y)就是函数空间中的矩阵。
- 假设二元函数
K
(
x
,
y
)
K(x,y)
K(x,y)满足下面条件,就是核函数(或者叫核矩阵)
- 对称性(对称矩阵): K ( x , y ) = K ( y , x ) K(x,y)=K(y,x) K(x,y)=K(y,x)
- 正定性: ∬ f ( x ) K ( x , y ) f ( y ) d x d y ∬f(x)K(x,y)f(y)dxdy ∬f(x)K(x,y)f(y)dxdy
- 满足上述条件我们称为对称半正定核函数。
- 特征值
λ
λ
λ与特征函数
ψ
(
x
)
ψ(x)
ψ(x):与上面一致
⟨
K
(
x
,
y
)
,
ψ
(
x
)
⟩
=
∫
K
(
x
,
y
)
ψ
(
x
)
d
x
=
λ
ψ
(
y
)
⟨K(x,y),ψ(x)⟩=∫K(x,y)ψ(x) dx=λψ(y)
⟨K(x,y),ψ(x)⟩=∫K(x,y)ψ(x)dx=λψ(y)
- 这样我可以将核函数像是实对称矩阵那样进行特征分解,所以得到下面公式:
- 假设无穷多个特征值为: { λ i } i = 1 ∞ \{λ_i \}_{i=1}^∞ {λi}i=1∞,对应的无穷多个正交的特征函数为: { ψ ( x ) i } i = 1 ∞ \{ψ(x)_i \}_{i=1}^∞ {ψ(x)i}i=1∞所以有: K ( x , y ) = ∑ i = 1 ∞ λ i ψ ( x ) i ψ ( y ) i T = ∑ i = 1 ∞ λ i ψ ( x ) i ψ ( y ) i K(x,y)=∑_{i=1}^∞λ_i ψ(x)_i ψ(y)_i^T=∑_{i=1}^∞λ_i ψ(x)_i ψ(y)_i K(x,y)=i=1∑∞λiψ(x)iψ(y)iT=i=1∑∞λiψ(x)iψ(y)i
- { ψ ( x ) i } i = 1 ∞ \{ψ(x)_i \}_{i=1}^∞ {ψ(x)i}i=1∞也是当前函数空间的一组标准正交组基。即满足: 〈 ψ ( x ) i , ψ ( x ) j 〉 = ∫ ψ ( x ) i ψ ( x ) j d x = 0 〈ψ(x)_i,ψ(x)_j 〉=∫ψ(x)_i ψ(x)_j dx=0 〈ψ(x)i,ψ(x)j〉=∫ψ(x)iψ(x)jdx=0 〈 ψ ( x ) i , ψ ( x ) i 〉 = ∫ ψ ( x ) i ψ ( x ) i d x = 1 〈ψ(x)_i,ψ(x)_i 〉=∫ψ(x)_i ψ(x)_i dx=1 〈ψ(x)i,ψ(x)i〉=∫ψ(x)iψ(x)idx=1
四、再生核希尔伯特空间
- { ψ ( x ) i } i = 1 ∞ \{ψ(x)_i \}_{i=1}^∞ {ψ(x)i}i=1∞也是原函数空间(希尔伯特空间)的一组标准正交组基,现在我们将 { λ i ψ ( x ) i } i = 1 ∞ \{\sqrt{λ_i }ψ(x)_i \}_{i=1}^∞ {λiψ(x)i}i=1∞做为一组正交基,形成新的函数空间叫做RKHS空间(再生核希尔伯特空间),记为 H H H空间
- H H H空间中的任一向量或函数可以表示为基的线性组合: f = ∑ ( i = 1 ) ∞ f i λ i ψ ( x ) i , f=∑_(i=1)^∞ f_i \sqrt{λ_i }ψ(x)_i, f=∑(i=1)∞fiλiψ(x)i,则函数可以用坐标(系数)表示: f = [ f 1 , f 2 , … ] T , g = [ g 1 , g 2 , … ] T f=[f_1,f_2,…]^T, g=[g_1,g_2,…]^T f=[f1,f2,…]T,g=[g1,g2,…]T,这样内积可以表示为: ⟨ f , g ⟩ = ∫ ∑ i = 1 ∞ f i λ i ψ ( x ) i ∑ i = 1 ∞ g i λ i ψ ( x ) i d x = ∫ ∑ i = 1 ∞ f i g i ψ ( x ) i ψ ( x ) i d x ⟨f,g⟩=∫∑_{i=1}^∞f_i \sqrt{λ_i } ψ(x)_i ∑_{i=1}^∞g_i \sqrt{λ_i }ψ(x)_i dx=∫∑_{i=1}^∞f_i g_i ψ(x)_i ψ(x)_i dx ⟨f,g⟩=∫i=1∑∞fiλiψ(x)ii=1∑∞giλiψ(x)idx=∫i=1∑∞figiψ(x)iψ(x)idx = ∑ i = 1 ∞ f i g i ∫ ψ ( x ) i ψ ( x ) i d x = ∑ i = 1 ∞ f i g i =∑_{i=1}^∞f_i g_i ∫ψ(x)_i ψ(x)_i dx=∑_{i=1}^∞f_i g_i =i=1∑∞figi∫ψ(x)iψ(x)idx=i=1∑∞figi
- 在 H H H空间的这组基下,这样我们可以改写核函数: K ( x , y ) = ∑ i = 1 ∞ λ i ψ ( x ) i λ i ψ ( y ) i K(x,y)=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i }ψ(y)_i K(x,y)=i=1∑∞λiψ(x)iλiψ(y)i我们对核函数中的 y y y每取一个特定值,都会得到一个 x x x的函数,那么我们可以将核函数看作是向量 y y y到 x x x函数的一个函数,记作: G ( y ) = K ( x , y ) = ∑ i = 1 ∞ λ i ψ ( x ) i λ i ψ ( y ) i G(y)=K(x,y)=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i } ψ(y)_i G(y)=K(x,y)=i=1∑∞λiψ(x)iλiψ(y)i函数 G ( y ) G(y) G(y)的定义域是欧几里得空间,值域为函数空间。
- 那么 G ( y ) G(y) G(y)在 H H H空间的坐标表示: G ( y ) = [ λ i ψ ( y ) 1 , λ i ψ ( y ) 2 , … … ] G(y)=[\sqrt{λ_i }ψ(y)_1,\sqrt{λ_i } ψ(y)_2,……] G(y)=[λiψ(y)1,λiψ(y)2,……]
- 则 y y y每取一个具体值,都会是一个函数,并且可以得到这个函数在 H H H空间的坐标表示,例如 y = y 0 y=y_0 y=y0: G ( y 0 ) = [ λ i ψ ( y 0 ) 1 , λ i ψ ( y 0 ) 2 , … … ] G(y_0 )=[\sqrt{λ_i } ψ(y_0 )_1,\sqrt{λ_i }ψ(y_0 )_2,……] G(y0)=[λiψ(y0)1,λiψ(y0)2,……]表示的函数为: G ( y 0 ) = K ( x , y 0 ) = ∑ i = 1 ∞ λ i ψ ( x ) i λ i ψ ( y 0 ) i G(y_0 )=K(x,y_0 )=∑_{i=1}^∞\sqrt{λ_i } ψ(x)_i \sqrt{λ_i } ψ(y_0 )_i G(y0)=K(x,y0)=i=1∑∞λiψ(x)iλiψ(y0)i
- 那么两个函数: G ( y 0 ) , G ( y 1 ) G(y_0 ),G(y_1) G(y0),G(y1)的内积为: 〈 G ( y 0 ) , G ( y 1 ) 〉 = ∑ i = 1 ∞ λ i ψ ( y 0 ) i λ i ψ ( y 1 ) i = K ( y 0 , y 1 ) 〈G(y_0 ),G(y_1 )〉=∑_{i=1}^∞\sqrt{λ_i } ψ(y_0 )_i \sqrt{λ_i }ψ(y_1 )_i=K(y_0,y_1 ) 〈G(y0),G(y1)〉=i=1∑∞λiψ(y0)iλiψ(y1)i=K(y0,y1)
- 这就是核的可再生性,即用核函数再生两个核函数的內积。函数空间 H H H被称为再生核希尔伯特空间(RKHS)。
- 这个性质是非常好的,因为原本函数之间计算内积需要算无穷维的积分,但是现在只需要算核函数就好了。
五、核技术:
-
上面我们说过如果我们对 y y y进行特定值,核函数 K ( x , y ) K(x,y) K(x,y)就变成了一个x的函数,这样我们可以对 y y y进行任意取值得到一个 x x x的函数: G ( y ) = K ( x , y ) = ∑ i = 1 ∞ λ i ψ ( x ) i λ i ψ ( y ) i G(y)=K(x,y)=∑_{i=1}^∞\sqrt{λ_i }ψ(x)_i \sqrt{λ_i } ψ(y)_i G(y)=K(x,y)=i=1∑∞λiψ(x)iλiψ(y)i
-
G ( y ) G(y) G(y)的定义域是欧几里得空间,值域是一个函数空间。就是一个欧几里得空间到函数空间(希尔伯特空间)的映射(函数).并且 G ( y ) G(y) G(y)值域空间中的任意两个函数 ( G ( y 0 ) , G ( y 1 ) ) (G(y_0 ),G(y_1)) (G(y0),G(y1))的内积都可以通过核函数直接算出 ( K ( y 0 , y 1 ) ) (K(y_0,y_1 )) (K(y0,y1))需要进行无穷积分。
-
这样,我们无需知道这个映射 G ( y ) G(y) G(y)及其值域空间 H H H的具体形式,只需要一个对称半正定的核函数,就必然存在映射 G ( y ) G(y) G(y)和其值域空间 H H H,使得: 〈 G ( y 0 ) , G ( y 1 ) 〉 = ∑ i = 1 ∞ λ i ψ ( y 0 ) i λ i ψ ( y 1 ) i = K ( y 0 , y 1 ) 〈G(y_0 ),G(y_1 )〉=∑_{i=1}^∞\sqrt{λ_i } ψ(y_0 )_i \sqrt{λ_i }ψ(y_1 )_i=K(y_0,y_1 ) 〈G(y0),G(y1)〉=i=1∑∞λiψ(y0)iλiψ(y1)i=K(y0,y1)这就是Kernel trick。
-
SVM的核技术:
- 我们的原始数据 x x x是欧几里得空间的一个向量,当我们的原始数据线性不可分时,我们就希望有一个映射 G ( x ) G(x) G(x),它能把原始数据 x x x映射到一个无穷维的函数空间(希尔伯特空间)中去,使的数据在这个无穷维的空间中变得线性可分。
- 并且在svm的优化中,我们只需要两个样本的内积 〈 x 1 , x 2 〉 〈x_1,x_2 〉 〈x1,x2〉,那么经过映射 G ( x ) G(x) G(x)后我们也只需要任意两个样本映射后的内积 〈 G ( x 0 ) , G ( x 1 ) 〉 〈G(x_0 ),G(x_1 )〉 〈G(x0),G(x1)〉,并不需要这个映射 G ( y ) G(y) G(y)及其值域空间的具体形式。这样问题就变成了我们只要一个对称半正定的核函数就ok了。