最优化理论期末复习笔记 Part 1_最优化理论笔记-CSDN博客

本文链接：https://blog.csdn.net/hijackedbycsdn/article/details/135357102

该博客围绕最优化与凸优化展开，先介绍线性代数、函数可微性等数学基础，包括向量与矩阵范数、泰勒展开等。接着阐述凸优化问题，如凸函数判断。还讲解无约束和有约束最优化问题的最优性条件及多种算法，如线搜索、梯度法、共轭方向法等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数学基础
线性代数
函数的可微性与展开
凸优化问题
- 凸函数的判断
无约束问题的最优性条件
线搜索
- 精确线搜索
- 非精确线搜索
梯度法和牛顿法
共轭方向法和共轭梯度法
拟牛顿法
有约束的最优化问题
约束最优化问题的最优性条件
约束优化问题的可行方向法
- Zoutendijk 可行方向法
- 梯度投影法
  - 怎么把一个向量投影到边界上
  - 算法流程
罚函数
划重点

在一定的约束条件 $\in \Omega$ 下，调整一组可变参数 $x$ ，使设计目标 $f (x)$ 达到最优值（最大/最小）

机翼最优化设计

描述机翼的方法：

给定点插值
自由型面方法

肋板结构优化

最初的方法是，预先给定一些洞，然后调整这些洞的大小和边界

可以想到，这种方法对初始值敏感

一开始设置为实心的，然后调整每一个点的密度

某一点的密度远远小于其他地方的密度时，可以认为是挖空的

数学基础

线性代数/向量/矩阵理论

多元函数分析

凸优化问题（凸集与凸函数问题）

无约束问题的最优化条件

线性代数

从行的角度

N 维矩阵（方程组）的第 i 行表示一个 N-1 维的解空间，比如 2 维矩阵（方程组）的每一行表示一条直线

从列的角度

考：线性代数方程的解，存在性

矩阵的每一列视为一个列向量，矩阵 $A$ 与列向量 $x$ 的乘积，可以视为矩阵 $A$ 第 i 列与 $x$ 中第 i 个元素相乘，对 i 求和， $A x = b$

有解，就是说明矩阵 $A$ 的每个列向量展开的空间之中有 $b$

行列式的几何解释

线性变换的面积

向量范数和矩阵范数

向量范数

1-范数：

$\vert \vert x \vert \vert_1 = \sum_{i=1}^{n} \vert x_i \vert$

2-范数：

$\vert \vert x \vert \vert_2 = (\sum_{i=1}^{n} \vert x_i \vert^2)^{\frac{1}{2}}$

∞-范数：

$\vert \vert x \vert \vert_{\infty} = \max_{1 \leqslant i \leqslant n} \vert x_i \vert$

p-范数：

$\vert \vert x \vert \vert_p = (\sum_{i=1}^{n} \vert x_i \vert^p)^{\frac{1}{p}}$

矩阵范数的更强的性质的意义

为矩阵范数加上第四个性质 $\vert \vert AB \vert \vert \leq \vert \vert A \vert \vert \cdot \vert \vert B \vert \vert$

我们希望对一个矩阵不断做变换的时候，变换之后的结果的范数不断变小，然后如果我们能证明他有一个下限，如果这个下限还为 0，那么就相当于把变换之前的矩阵变换到了另一个目标矩阵

例如初等变换 $P_n \cdots P_2 P_1 A = A^{-1}$

为矩阵范数加上第五个性质 $\vert \vert Ax \vert \vert \leq \vert \vert A \vert \vert _{\mu} \cdot \vert \vert x \vert \vert$

则称矩阵范数 $\vert \vert \cdot \vert \vert _{\mu}$ 与向量范数 $\vert \vert x \vert \vert$ 是相容的

那么根据这个不等式可以得到 $\dfrac{\vert \vert Ax \vert \vert}{\vert \vert x \vert \vert} \leq \vert \vert A \vert \vert _{\mu}$

进一步，若存在 $\ne 0$ 使成立：

$\vert \vert A \vert \vert _{\mu} = \max_{x \ne 0} \dfrac{\vert \vert Ax \vert \vert}{\vert \vert x \vert \vert} = \max_{\vert \vert x \vert \vert = 1}\vert \vert Ax \vert \vert$

取 x 的各个分量最大值是可以作为标准的唯一值

这是跟向量 x 有关的，称为向量 x 的诱导范数

令 x = 1，那么就与 x 的大小无关，但是跟计算 x 范数的方式有关

因为令了 x = 1，所以这个诱导范数表示单位圆/球/超球面上的所有向量 x 经过线性变换后得到的所有向量 Ax 中最长的那个的范数

几种向量范数诱导的矩阵范数

1 范数诱导的矩阵范数

$\vert \vert A \vert \vert = \max_{1 \leq j \leq n}\sum_{i=1}^{m}\vert A_{ij} \vert$

为什么？

首先把 A 写成列向量的形式 $A = [A_1 A_2 A_3]$

所以 $Ax = A_1 * x_1 + A_2 * x_2 + A_3 * x_3$

两边求一范数，就是

$\begin{align} \notag \vert \vert Ax \vert \vert_1 &= \vert \vert \sum_{j=1}^{n} A_j x_j \vert \vert \\ \notag \leq \sum_{j=1}^{n}\\ \end{align}$

无穷范数诱导的矩阵范数

$\vert \vert A \vert \vert = \max_{1 \leq i \leq n}\sum_{j=1}^{m}\vert A_{ij} \vert$

为什么？

首先把 A 写成行向量的形式

$A = [(A_1^T)^T;(A_2^T)^T;(A_3^T)^T]$

$\vert \vert Ax \vert \vert_{\infty} = \max_{1 \leq i \leq n} \vert \vert A_i^Tx \vert \vert_{\infty} \leq \max_{1 \leq i \leq n} \vert \vert A_i^T[1,1, \cdots, 1]^T \vert \vert_{\infty} = \max_{1 \leq i \leq n} \sum_{j=1}^{m} \vert A_{ij} \vert$

2 范数诱导的矩阵范数

$\vert \vert A \vert \vert = \max\{\sqrt{\lambda} \vert \lambda \in \lambda(A^TA)\}$

为什么？

$\vert \vert Ax \vert \vert = \vert x^TA^TAx \vert ^{1/2}$

因为 $x^TA^TAx \vert \vert$ 中的 $A^TA$ 是一个矩阵的转置乘上这个矩阵本身，所以他是一个对称矩阵，对称矩阵一定可以相似对角化

有

$\vert x^TA^TAx \vert ^{1/2} = \vert x^TP^T \Lambda Px \vert ^{1/2} = \vert y^T \Lambda y \vert ^{1/2} = \vert \sum_{i=1}^{n} \lambda_i y_i^2 \vert ^{1/2} = \sqrt{\lambda_{\max}}\vert \sum_{i=1}^{n} \dfrac{\lambda_i}{\lambda_{\max}} y_i^2 \vert ^{1/2} \leq \sqrt{\lambda_{\max}}$

此时 $\dfrac{\lambda_i}{\lambda_{\max}} \leq 1$

y 取对应 $\lambda_i = \lambda_{\max}$ 时的 $y_i = 1$ ，其他的 $y_i = 0$ 时，不等式

P 是正交的，所以一定是满秩的，然后 x 是任意取的，所以 Px 不会掉维度，所以 Px 可以等于任意值，所以 y = Px 可以取到上面要求的值，所以不等式的等号可以被取到

各种范数之间的等价性

用无穷范数证出来的性质可以推广到 1 范数上

向量与矩阵序列的收敛性

某一个向量/矩阵序列的范数 = a， $\ne 0$ ，那么不能证明这个向量/矩阵序列收敛，因为范数不等于 0 的话，那么其实相当于这个向量/矩阵在某种意义上的长度不等于 0

比如一个向量的二范数收敛为 1，也就是这个向量的长度始终为 1，但是这个向量的方向可以任意，那么这个向量序列的向量的方向如果一直是任意的话，那么即使向量长度不变，也不是收敛的

所以说范数收敛不能保证向量/矩阵收敛，因为范数只是表征长度的量，而向量/矩阵是有方向的

函数的可微性与展开

一维优化问题

每一步迭代：用简单的近似函数 $f_0$ 去代替复杂函数 $f (x)$

怎么选择 $f_0$ ？一般是泰勒展开

泰勒展开需要知道 $f (x)$ 的导数

泰勒展开一般取多少项？一般取二次项就够了

为什么是二次？二次函数是有极值的，三次函数不一定有

$f_0$ 的极值是可以知道的，然后我们把 x 移动到 $f_0$ 的极值点的位置，然后在这个极值点的位置对原函数展开，求新的 $f_0$ ，继续移动。直到不再移动的时候就是收敛了。

当然这样不一定会收敛到极小值，也可能收敛到极大值，但是这是有方法解决的

如果不知道 $f (x)$ 的导数？其他方法？

插值

差分代替微分

$f(\bf x) \approx f_0(\bf x) = f(\bf x_0) + \nabla f \vert_{\bf x_0}(\bf x - \bf x_0) + \dfrac{1}{2}(\bf x - \bf x_0)^T \nabla^2 f \vert_{\bf x_0}(\bf x - \bf x_0)$

其中 $\bf x$ 是向量， $\nabla$ 表示梯度， $\nabla^2$ 表示 Hesse 矩阵

存在这些导数的条件是足够光滑

误差： $o((\bf x - \bf x_0)^2)$

如果是用一次函数来近似，那么

$f(\bf x) = f(\bf x_0) + \nabla f \vert_{\bf x_0}(\bf x - \bf x_0) + o(\vert\vert \bf x - \bf x_0 \vert\vert)$

如果是二次函数来近似，那么

$f(\bf x) \approx f_0(\bf x) = f(\bf x_0) + \nabla f \vert_{\bf x_0}(\bf x - \bf x_0) + \dfrac{1}{2}(\bf x - \bf x_0)^T \nabla^2 f \vert_{\bf x_0}(\bf x - \bf x_0) + o(\vert\vert \bf x - \bf x_0 \vert\vert^2)$

$\mathbb{J}=\left[\begin{array}{ccc} \dfrac{\partial \mathbf{f}(\mathbf{x})}{\partial x_{1}} & \cdots & \dfrac{\partial \mathbf{f}(\mathbf{x})}{\partial x_{n}} \end{array}\right]=\left[\begin{array}{c} \nabla^{T} f_{1}(\mathbf{x}) \\ \vdots \\ \nabla^{T} f_{m}(\mathbf{x}) \end{array}\right]=\left[\begin{array}{ccc} \dfrac{\partial f_{1}(\mathbf{x})}{\partial x_{1}} & \cdots & \dfrac{\partial f_{1}(\mathbf{x})}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \dfrac{\partial f_{m}(\mathbf{x})}{\partial x_{1}} & \cdots & \dfrac{\partial f_{m}(\mathbf{x})}{\partial x_{n}} \end{array}\right]$