洪流之源-CSDN博客

1. Pytorch导出ONNX如下代码，定义了一个包含卷积层、relu激活层的网络，将该网络导出onnx模型，设置了输入、输出的batch、height、width3个维度是动态的import torchimport torch.nn as nnimport torch.onnximport osclass Model(torch.nn.Module): def __init__(self): super().__init__() self.c

2022-05-30 18:19:02 10997 2

原创 TensorRT 系列（2）动态shape

TensorRT支持输入动态shape的推理，在编译模型时可以指定shape的动态范围为[L, H]，推理时允许L <= shape <= H，输入动态shape可通过createOptimizationProfile优化配置文件，来指定输入的shape可以变换的范围，当然也可以通过ONNX导出模型时进行指定，本次只演示前一种。示例代码：// tensorRT include#include <NvInfer.h>#include <NvInferRuntime

2022-05-29 19:13:15 2088

原创 TensorRT 系列（1）模型推理

推理代码：// tensorRT include#include <NvInfer.h>#include <NvInferRuntime.h>// cuda include#include <cuda_runtime.h>// system include#include <stdio.h>#include <math.h>#include <iostream>#include <fstream&.

2022-05-29 18:59:48 3192

原创 TensorRT 系列（0）C++ API 构建编译网络

TensorRT的核心在于对模型算子的优化（合并算子、利用GPU特性选择特定核函数等多种策略），通过tensorRT，能够在Nvidia系列GPU上获得最好的性能，因此tensorRT的模型需要在目标GPU上实际运行的方式选择最优算法和配置，也因此tensorRT生成的模型只能在特定条件下运行（依赖于编译的trt版本、cuda版本、编译时的GPU型号）。TensorRT提供的C++、Python接口用于直接构建网络结构，本次主要介绍C++接口实现网络的构建与模型的编译，当然TensorRT也可以实现由其它框

2022-05-29 11:03:12 1601

原创 C++ 11 互斥量与死锁

一、互斥量（mutex）的基本概念互斥量mutex是个类对象，可以理解为一把锁，多个线程尝试用其成员函数lock()来加锁，只有一个线程能锁定成功，如果没有锁成功，那么流程将卡在lock()这里不断尝试去锁定。互斥量使用要小心，保护数据不多也不少，少了达不到效果，多了影响效率。二、互斥量的用法包含#include <mutex>头文件2.1 lock()，unlock()步骤：1.lock()，2.操作共享数据，3.unlock()。lock()和unlock()要成对使用

2022-04-16 18:13:45 970

原创 SD3403开发板非安全模式烧写系统并加载内核模块

SD3403开发板有两片4GB的DDR，总共内存为8GB，计划IPCM分配2MB，DSP分配62MB，MCU分配192MB，OS(linux)分配4096MB，剩余的内存分配给MMZ。1. 编译SDK，生成烧写文件在SS928V100_SDK_V2.0.2.0/osdrv目录下执行：make all在SS928V100_SDK_V2.0.2.0/osdrv/pub/ss928v100_image_glibc目录下生成烧写文件：其中boot_image.bin、uImage_ss928v1

2022-04-15 15:22:52 2874 1

CSPDarknet53.zip

空空如也