电网级联顺序拓扑恢复-CSDN博客

本文链接：https://blog.csdn.net/jay_chou_c/article/details/145269260

电网级联顺序拓扑恢复

我们考虑了电力系统的顺序恢复场景，其中无效的总线可以通过重建它们与系统其余稳定部分的连接来连续从故障中恢复。在电力系统中，级联故障过程通常只需要几分钟，而故障检测和一个网元的恢复通常需要更长的时间。因此，在具有多个步骤的恢复过程中，假定下一个恢复步骤在上一个操作触发的级联过程之后启动。这样，上一个操作触发的可能级联失败的结束标志着下一个操作的开始。此外，修复故障组件的时间通常是不确定的，可能在很大程度上取决于问题的特定因素。在这项工作中，我们将每个组件的修复步骤与连续的级联过程分开，从而使我们能够解决问题。
在顺序恢复方案中，电气总线的恢复可能会影响后续恢复过程。一方面，增加这种恢复的母线会导致电力系统中发电和需求之间的不平衡，这可能会进一步诱发新的级联故障。另一方面，如果故障组件重新连接到系统，则会改变系统的网络拓扑和潮流，从而影响后续的恢复过程。
为了模拟顺序拓扑恢复的动态过程，我们提出了一种新的恢复模型，同时考虑了电力系统的运行机制和恢复过程中触发的潜在级联故障，后者在以前的大多数研究中经常被忽视。顺序恢复模型的流程图如图 1 所示。
大多数情况下，系统恢复的预算是有限的。为简单起见，在这项工作中，恢复每条总线的成本被认为是相等的，预算限制被量化为恢复序列的长度，或者等效地，我们可以修复的组件数量。
对于级联故障后的大型电力系统，选择和订购总线序列以进行恢复的决定是一项艰巨的任务。顺序恢复问题的本质是排列问题。给定一个电力系统有 M 个故障总线并设置 k 轮恢复，则可以从总共（M /k ）k ！中选择恢复序列排列。
基于强化学习的电力系统顺序恢复方案的过程。图1 基于强化学习的电力系统顺序恢复方案的过程

基于强化学习的顺序恢复算法

由于级联模型的复杂性和搜索空间的巨大规模，通过评估所有可能的序列来找到最佳恢复序列在计算上是不可行的。为了解决这个问题，我们采用强化学习（RL）来识别关键总线及其恢复顺序，以实现最佳性能。RL 是一种半监督学习算法，它是专门通过试错方式为顺序决策问题开发的。
强化学习的框架包含四个要素：代理、环境、行动和奖励。代理根据环境支持的规则执行一系列操作，并在环境的特定状态下接收每个启动操作的反馈，该状态定义为奖励。根据不同 Trial 的相应奖励，代理从环境中学习并调整其行动策略，以实现累积奖励的最大化。图 1 显示了 RL 的典型框架及其在顺序恢复问题中的应用。
在此方案中，代理是指做出顺序恢复决策的系统操作员。代理的动作是添加修复的总线，而环境是与恢复动作相对应的电力系统，并产生即时奖励。在这项工作中，顺序恢复的主要目标是在有限数量的修复总线内尽可能地恢复电力系统的拓扑结构，因此代理的学习目标是找到产生该目标的最佳策略。
接下来，我们给出了顺序恢复问题中的状态、操作和奖励的具体定义。首先，我们假设恢复策略仅根据拓扑信息设计，因此 RL 中的状态是用电力系统的拓扑信息定义的，即时间 t 的状态 st 可以表示为总线状态
在这里插入图片描述

如果在恢复过程中发生级联故障，则两个连续操作之间可能存在一系列状态，并且每个恢复操作仅在系统处于稳定状态时启动。为了关注动作序列的效果，我们只考虑下一个动作之前的稳态，因为 RL 过程中的单个状态和其他状态被视为两个稳态之间的瞬态。
此外，RL 中的 action 被定义为恢复和添加特定总线。例如，总线 i 上的恢复操作将总线 i 的状态从 0 切换到 1，并通过重建总线与残差系统的连接来将总线添加到系统中。
最后，为了最大程度地恢复网络拓扑，可以将奖励 r 定义为恢复动作后剩余系统中分支的相对数量，即
在这里插入图片描述
其中 NL是原始完整电力系统中的分支数，Nr 是当前状态下的分支数。
一般来说，RL 中的累积奖励 Q 是使用折扣累积函数获得的，如下所示，

其中 rt （st ， at ）是指在状态 st 时采取的第 t 个动作 at 的即时奖励，γ 是一个可调常数。如果 γ = 1，则 cumulative reward 平等地对待 action 序列中每个 action 的 reward;如果 γ = 0，则累积奖励仅考虑第一步的即时奖励。为了便于在学习过程中收敛累积奖励，γ通常设置为略小于 1.0。
在 RL 中，Q 的最优值可以通过 Monte Carlo 方法进行的策略迭代来近似。在迭代过程中，RL 维护一个 Q 表，每个条目代表特定状态-动作对（s， a）的 Q 值。在迭代开始时，Q 表中的所有元素都设置为 0。当代理在时间步 t 观察状态 st 时，它会找出一组可用操作并将该集合表示为 At 。At 中的最佳操作是
在这里插入图片描述
如果存在多个 a∗ t ，则代理将在这些最优动作中随机执行一个，并转到下一个状态 st+1。