孙敬博-CSDN博客

原创分层强化学习综述论文阅读 Hierarchical Reinforcement Learning: A Comprehensive Survey

分层强化学习可以通过将困难的长期决策任务分解为更简单的子任务，提升强化学习算法的性能。分层强化学习方法主要涉及：使用HRL学习分层策略、子任务发现、迁移学习和多智能体学习四个主要挑战。强化学习算法的一个痛点：如果任务的长度很长，状态空间和动作空间很大，由于难以探索，强化学习算法很难获得好的效果。分层强化学习的优点：分层强化学习将整个任务分成多个子任务。子任务本身更容易学习，所学习的子任务会导致更结构化的探索。分层强化学习效果好的原因：HRL在长期任务中效果优于标准RL，其优势在于改进了探索。

2023-10-07 17:05:19 2692

原创强化学习泛化性论文阅读 Invariant Causal Imitation Learning for Generalizable Policies

论文阅读 Invariant Causal Imitation Learning for Generalizable Policies

2023-02-07 14:43:47 981 1

原创强化学习泛化性综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

论文阅读

2022-11-29 23:43:26 3674 5

原创 git 上传代码

git 上传代码

2022-11-27 14:48:04 264

原创论文阅读 Fast Reinforcement Learning Via Slow Reinforcement Learning

论文阅读元强化学习 RL^2

2022-11-24 16:50:23 700 1

原创元强化学习论文理解 MAESN

MAESN论文阅读

2022-11-16 10:42:28 795

原创论文阅读 MAML (Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks)

元学习论文MAML阅读

2022-11-14 23:03:12 614 1

原创元学习基础理解

元学习基础理解

2022-11-14 10:14:42 1389

原创离线强化学习论文学习 Critic Regularized Regression

CRR (critic regularized regression) 离线强化学习算法论文阅读总结

2022-09-07 16:21:27 1303

原创服务器传输大文件方法

从服务器下载大文件方法

2022-06-12 20:35:08 2100

原创 2021-09-02 在idea中配置maven时，导入本地包

在idea中配置maven时报错：Could not find artifact com.xxxx:bikini:pom:1.0.0 in tencent_spark_repo (https://mirrors.tencent.com/repository/maven/tencent_spark_release)原因是网上确实缺失这个依赖，因此需要从网上找到jar包，下载到本地后手动导入。在cmd中运行mvn install:install-file -DgroupId=com.xxxx -Dar

2021-09-02 16:57:31 450

原创论文阅读 Solving Mixed Integer Programs Using Neural Networks

论文：用神经网络求解混合整数规划1.摘要（1）文章目的：混合整数规划（MIP）求解器一般使用一系列启发式算法来求解。而机器学习算法能够通过利用数据实例之间的共享结构，构造更好的启发式算法。（2）文章工作：将学习算法应用于 Diving 和 Branching 两个子任务，即 Neural Diving 和 Neural Branching。其中 Neural Diving 即使用神经网络为整型变量生成部分的解，其余的变量使用Scip求解器求解（个人理解是为了防止决策变量过多的问题）。其中 Ne

2021-08-23 10:19:14 3244 2

原创多gpu训练

最近在使用多gpu进行训练，加入一下几点即可加入使用的gpuos.environ['CUDA_VISIBLE_DEVICES'] = '0,1,2,3,4,5,6,7'device = torch.device("cuda" if torch.cuda.is_available() else "cpu")将模型加载到设备上self.actor_net = nn.DataParallel(Mlp1_Actor_model(input_dim).to(device=device))将数

2021-08-19 16:05:35 294

原创 output = input.matmul(weight.t()) RuntimeError: expected scalar type Long but found Float 错误解决

在使用pytorch的nn.Linear时出现错误 RuntimeError: expected scalar type Long but found Float这里报错的原因是我的输入是Longtensor，因此这里将输入改为Floattensor数据类型就可以了。

2021-05-20 11:19:38 1275

原创 pytorch常用工具小结

getitem 方法在类中有__getitem__ 方法，代表当实例对象通过[] 运算符取值时，会调用它的方法__getitem__。torch.utils.data.DataLoader参数：(1) dataset: 使用的数据集。(2) batch_size：每个batch的数量。(3) shuffle: 是否打乱顺序。(4) sampler: 采样方法，和shuffle互斥。(5) batch_sampler：批量采样，和batch_size、shuffle互斥。(7) num_w.

2021-05-18 19:40:20 163

原创 python 频率分布直方图

在处理特征的过程中，往往在分析对比数据时需要分析数据的分布情况，这时在python中常用到matplotlib中的pyplot模块中的hist函数。但在使用hist时存在着如果设置normed，改变bins数量会导致概率变化的问题，因此在绘制分布直方图时需要将bins数量设置为真实的数量。2.hist参数解析matplotlib.pyplot.hist( x, bins=10, range=None, normed=False, weights=None, cumulative=Fals...

2020-10-15 23:36:35 6557

原创相关系数

在处理数据关系，建立模型时，我们往往会先对于可能影响目标的特征进行筛选，因为并不是所有的特征都对于我们的目标存在很大的影响。1.对于相关系数有如下的理解：如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：(1)、当相关系数为0时，X和Y两变量无关系。(2)、当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1.00之间。(3)、当X的值增大（减小），Y值减小（增大），两个变量为负相关，相关系数在-1.00与0.00之间。相关系数的绝对值越大，相关性越强

2020-10-15 22:12:51 7285

原创 docker已被占用解决方法

docker已被占用解决方法(my_python3) sun@sun-Inspiron-3543:~/project/my_realize/huawei/starter_kit$ docker ps -aCONTAINER ID IMAGE COMMAND CREATED STATUS PORTS NAMES0c9f7985619a smarts

2020-08-25 21:47:55 739

原创 torchvision安装填坑

这两天安装torchvision出现了很多坑，这里记录一下。开始我的torch版本是1.3.1，正常pip安装torchvisionpip install torchvision安装成功，但是导入的时候出现了问题。>>> import torchvisionTraceback (most recent call last): File "<stdin>", line 1, in <module> File "/home/sun/my_python

2020-06-26 13:54:44 3573

转载 maddpg Gumbel-Softmax Trick

https://www.cnblogs.com/initial-h/p/9468974.html

2020-06-11 21:50:56 1028

原创 MADDPG 连续动作noise trick

在maddpg中，对于连续动作鼓励探索时，使用的是OU noise方法，该方法是自相关的。# OU noise是自相关的，后一步的噪声受前一步的影响（且是马尔科夫的）。而第一部分阐述的高斯噪声，前后两步都是完全独立的。class OU_noise: def __init__(self,action_dim ,miu = 0, theta = 0.15, sigma = 0.2, dt = 0.1,scale = 0.1): self.miu = miu self.

2020-06-11 21:41:29 930

原创 python中argparse模块学习

python的argparse模块可以使得在终端中运行python文件时，可以直接在终端中修改信息。该方法在深度学习中被广泛应用。1.argparse的使用：argparse使用可分为三步：创建 ArgumentParser() 对象调用 add_argument() 方法添加参数使用 parse_args() 解析添加的参数例子：# -*- coding: utf-8 -*-import argparse# 创建对象parser = argparse.ArgumentParser(

2020-06-08 12:34:02 236

原创 python实现支持向量机

最近学习了支持向量机，整理一下支持向量机的框架。1.在logistic分类时，将训练集输入到模型中，训练集输入数据为{(x11,x12,…x1n),(x21,x22,…,x2n),…,(xm1,xm2,…,xmn)},模型为f(xi) = sigmoid(xi*w.T+b)若f(x)>0.5,则预测y‘=1，若f(x)<0.5,则预测y‘=0.训练的损失函数为loss=（y-y'）^22.在支持向量机中与logistic相比，同样希望有一组权重能够将不同label的样本分开，但与log

2020-06-02 17:34:43 3567 5

原创用python不调用其他库实现含dropout层的BP神经网络

这段时间做了一个二分类的任务，训练数据是8000个包含1000个特征和一个label的数据。下面记录一下使用python不调用其他库实现含dropout层的BP神经网络二分类的代码。import osimport sysimport timeimport randomimport numpy as np# 获取路径def get_directory(file_name): ...

2020-04-07 18:35:42 456

原创用python不调用其他库实现BP神经网络

这段时间做了一个二分类的任务，训练数据是8000个包含1000个特征和一个label的数据。下面记录一下使用python不调用其他库实现BP神经网络二分类的代码。import osimport sysimport timeimport randomimport numpy as np# 获取路径def get_directory(file_name): path = os....

2020-04-07 18:33:45 1234 2

原创使用python实现logistic二分类

这段时间做了一个二分类的任务，训练数据是8000个包含1000个特征和一个label的数据。下面记录一下使用python实现logistic二分类的代码。import osimport timeimport numpy as np# 获取路径def get_directory(file_name): path = os.getcwd() directory = os...

2020-04-07 18:29:00 1952 1

原创使用sklearn，分别运用logisit、线性svm和带高斯核的svm实现mnist多分类

1.思路使用sklearn库，分别使用logistic回归、线性svm和非线性svm方法实现对于mnist数据集的多分类问题。这里直接调用使用的是二分类器一对多的方法。2.代码import numpy as npimport pandas as pdfrom sklearn.datasets import fetch_mldatafrom sklearn.preprocessing i...

2019-09-28 16:56:47 1219 2

原创 BP神经网络实现mnist分类

1.思路使用两层隐藏层的神经网络来实现mnist分类，这里不使用卷积神经网络来处理。两层隐藏层含有神经元数量分别为100和200。2.代码# -*- coding: utf-8 -*-import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datadef get_data(): ...

2019-09-28 11:39:38 4962

原创使用sklearn对mnist实现logistic二分类

1.脉络框架这里计划使用logistic回归实现对mnist数据集中数值为5的图片实现二分类。使用sklearn库来实现该功能。第一步：加载数据集第二步：划分训练集和测试集第三步：使用GridSearchCV网格化寻求最优超参数第四步：使用超参数训练模型第五步：分别使用准确率、精确度、召回率和f1函数来评估模型2.代码实现（1）代码import numpy as npimpor...

2019-09-25 11:06:08 1531 1

原创机器学习----梯度下降法单变量线性回归及python实现

最近开始学习机器学习基础算法，在看吴恩达的视频，从单变量线性回归开始1.单变量线性回归：已有大量数据，包括不同尺寸的房子和这些房子对应的价格，目标是拟合一条线型直线来模拟房子尺寸和房子价格的关系。2.总体思路：首先，假设我们拟合的直线方程为y = theta1x+theta0，也就是说我们的目的是找到合适的theta1和thea0，使得直线能够很好的描述数据。接下来，我们设置代价函数J ...

2019-09-11 20:51:18 737

转载 E: Sub-process /usr/bin/dpkg returned an error code (1)解决办法

https://blog.csdn.net/stickmangod/article/details/85316142

2019-09-11 20:36:36 532

原创 linux中配置python虚拟环境

1.安装工具virtualenvpip3 install virtualenvwrapper2.创建虚拟环境virtualenv my_python3 # my_python3 为环境名3.进入环境source /home/sun/my_python3/bin/activate4.安装库pip install ***5....

2019-09-10 20:49:49 181

原创 tensorflow使用densenet结构、inception结构和SEnet结构的卷积神经网络实现mnist手写数字识别系统

1.代码：# -*- coding: utf-8 -*-# 这里使用结合SEnet、inception结构和shortcut结构的卷积神经网络，所以将784reshape成28*28的矩阵import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datadef get_data(): ...

2019-04-24 22:33:30 1110

原创 tensorflow使用SEnet实现mnist

# -*- coding: utf-8 -*-# mnist 回顾一下tensorflow用法# 这里使用卷积神经网络，所以将784reshape成28*28的矩阵import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datadef get_data(): mnist = inp...

2019-04-24 21:25:48 4187 7

原创 tensorflow 使用googlenet中的inception结构实现mnist手写数字识别系统

1.首先使用的inception结构由四条支路组成，第一条支路是一个11的卷积核，第二条支路由一层11的卷积核、一层13的卷积核和一层31的卷积核组成，第三条支路由一层11的卷积核、两层13的卷积核、两层31的卷积核组成，相当于一个55的卷积核，最后一层由一个平均池化层组成。在实现mnist时，使用了两个这样的inception结构，同时每个inception结构下串联了一个最大池化层用于减小尺...

2019-04-24 16:29:09 1470 1

原创 tensorflow使用基于inception结构与densenet结构的卷积神经网络实现mnist手写数字识别系统

在尝试了残差神经网络、卷积神经网络和inception结构的卷积神经网络后，这里尝试使用基于inception结构与densenet结构的卷积神经网络实现mnist手写数字识别系统。首先是inception结构，这里我使用三条支路，分别由11的卷积核、33的卷积核和两个3*3的卷积核组成的卷积层来实现inception结构。之后是densenet网络，densenet网络与残差神经网络的目的都是...

2019-04-24 16:28:13 922

原创 tensorflow 使用残差神经网络实现mnist手写数字识别功能

1.对于残差神经网络的shortcut结构的理解有两种，看大家的代码全都是先使用tf.nn.conv2d()函数将输入与1*1的卷积核进行卷积，生成通道数与输出通道数相同的特征图，将这张特征图与经过三个卷积层特征图进行点对点相加，这样就将初级特征前馈到了后面，很好的保留了初级特征。代码如下：# -*- coding: utf-8 -*-# 这里使用结合SEnet、inception结构和sh...

2019-04-20 21:00:19 1257 5

原创 python下tensorflow使用卷积神经网络实现mnist手写数字识别

1.程序# -*- coding: utf-8 -*-# mnist 回顾一下tensorflow用法# 这里使用卷积神经网络，所以将784reshape成28*28的矩阵import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_datadef get_data(): mnist ...

2019-04-18 19:33:26 703

转载 tensorflow_gpu: libcudart.so.8.0: cannot open shared object file: No such file or directory 的解决办法

在用GPU版本的Tensorfolow进行模型训练时，常常会出现 ImportError: libcudart.so.8.0: cannot open shared object file: No such file or directory 这样的错误。首先检查/usr/local/cuda-8.0/lib64目录，看看libcudart.so.8.0是否存在，如果不存在，则先正确安...

2019-04-14 09:49:35 346

原创无监督单目深度估计 Unsupervised Monocular Depth Estimation with Left-Right Consistency 论文方法分析

最近在做深度估计相关的毕业设计，一般的基于深度学习单目深度估计算法都是基于监督学习的方法，也就是说我希望输入一张拍摄到的单目照片，将它通过卷积神经网络后生成一张深度图。在这个过程中我们就要求需要有大量的深度图样本用来做训练，但在实际过程中深度图标注是非常困难的。1.大体思路Unsupervised Monocular Depth Estimation with Left-Right Consi...

2019-04-13 17:48:09 7914 5

空空如也

空空如也