本代码基于深度强化学习(DRL)的无人机路径规划算法,通过联合优化位置、能量和时间截止条件,最大化数据-能量比。路径规划过程被建模并分解为马尔可夫决策过程(MDP),然后使用优先经验回放双深度Q网络(PER-DDQN)模型来计算最优解。此外,采用一种时间约束奖励函数和改进的自适应上置信度界限(UCB)探索函数,用以平衡DRL算法中的探索与开发,从而使得所提出的算法能够快速且平稳地收敛。仿真结果表明,与传统方法相比,所提算法在数据收集过程中表现出更好的路径选择、更低的执行时间以及更高的数据-能量比。