PigeonGuan-CSDN博客

原创 vllm怎么安装？

我只会一个一个版本去试着安装，直到找到一个torch版本跟自己的符合要求。

2025-05-30 22:30:14 71

原创服务器硬盘虚拟卷的处理

目前的情况是需要删除逻辑卷，然后再重新来弄一遍。数据已经备份好了，所以不用担心数据会丢失。

2025-05-24 20:53:44 602

原创 latex控制表格宽度，不要超出页面

可以人工调节成为 5pt，不影响字体，比较不影响可读性。如果列宽距很挤了，字体很小了，那么只能resizebox了。，neurips 使用的就是这个大小。控制表格的字体，一般使用。

2025-05-12 19:51:49 259

原创 runpod team 怎么设置自己的ssh key呢？

我建议是在公有环境配置自己的key的，这样可以随时删除。选择edit pod。

2025-04-29 19:00:55 265

原创 latex中 \par, \newline 和 \\ 之间的区别

在表格里面使用 \newline，他会认为是 cell内部的换行，而 \ 则认为是表格行换行。在文章段落、表格之中，他们虽然都是换行的意思，但是实际是不一样的。最后我是使用 \parbox[t]{} 达到目的的。

2025-04-26 00:30:32 155

原创 apt --fix-broken install报错? Nvidia-driver没办法安装x

apt --fix-broken install报错是很常见的事情他不会真的给你fix错误，他想要做的事fix broken但是这个broken没办法fix的时候，就会一直报错所以我们需要remove掉之前错误安装的包因为这个错误安装的包没办法安装，所以是没办法fix的，所以是一定要remove的！但是remove命令往往由依赖于fix！就连特定删除purge都不行找到真的解决方法了！！！！！

2025-04-22 20:32:21 440

原创关于ubuntu密码正确但是无法登录的情况

如果用户是L状态，那么就是lock了。

2025-04-22 16:47:53 373

原创如何在3090显卡上使用老版本torch

需要用到一个2022年的库，然后根据他的需求安装环境，结果报了以下两个错误。

2025-04-19 16:23:48 583

使用peft模型进行微调，model_base是基于llava的。训练中断之后加载checkpoint，却发现没有non_lora_trainable.bin文件。然后发现最后lora微调出来的non_lora_trainable.bin文件居然是跟随机初始化一样的。。。这一句话assert False了。但是lora权重是微调成功的，不然loss也不会下降。输出的norm值一直都是这个，但是loss神奇地下降。

2025-04-10 00:59:32 346

原创 LLM微调失败的经历

反正chexagent的微调使用llava的多轮对话框架真的很难顶，但是chexagent又没给训练代码，有点坑了。也不知道要不要微调embedding，embedding这么大我也没微调过啊。啊这，原来是converstations template的问题。，所以可能会出问题。目前重新训练，后续看看有没有问题。反正看起来就不能单纯用lora微调了。拼接，但是我用的llava默认的，就是。，但是实际上chexagent是。多轮对话，轮次之间要用。

2025-04-05 14:59:34 242

原创 re库匹配＜think＞出错

因为一开始没有加DOTALL，结果白跑实验两天，破防了。

2025-03-31 22:26:01 126

原创 UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda

感觉像是平时在复制指令的时候不小心设置了这个，被别人坑了。使用vim打开文件，在vim命令行中输入。

2025-03-30 01:41:44 326

原创进程Kill杀死后GPU显存没有释放仍然被占用，怎么杀死僵尸进程

一般来说他会杀掉整个用户的所有进程。

2025-03-29 23:21:36 313

原创 conda 的 envs_dirs 配置出错

奇怪，为什么conda的env_dir会导到miniconda3的根目录呢？

2025-03-15 00:57:44 609

原创 [小样本学习] 关于特征选择+小样本学习的方法论

今天阅读了一篇论文以及知乎的一些分享文章。

2025-03-09 00:16:00 155

原创 [医学图像数据的预处理工作] 关于dicom格式怎么处理成为nii.gz为后续使用

当然我觉得如果能一步提取到目标数据，那肯定是最好的，如果不行，那就多步去做。

2025-03-08 17:07:55 335

原创关于 c10::Half 类型和float不匹配

我在跑大模型推理的时候，遇到了上面的错误。首先有一个问题需要考虑：我希望模型可以在gpu上面推理，但是我默认了模型会自动加载到gpu上面。。。解决方法检查llama模型是不是正确加载到gpu，一半出现 c10:Half 这个类型，模型很大概率是加载到CPU上面去推理的，所以只要修改到gpu上就不会报错了模型推理的时候，记得加上autocase最后代码因为是修改R2genGPT的，所以代码如下：

2025-03-02 16:58:13 606

原创 Ubuntu系统中测试硬盘速度

hdparm 测试中，7112 MB/s 的缓存读取速度表示从内存（RAM）直接读取数据的理论极限速度（依赖内存性能），而236 MB/s 的缓冲磁盘读取速度反映物理磁盘（如硬盘或SSD）的实际连续读取性能，两者差异源于内存（电子传输）和磁盘（物理/接口限制）的本质区别。一般来说大模型都是10GB以上的，但是我发现服务器上面的机械硬盘只有 700KB/s的加载速度，这十分慢。在运行程序的时候，我发现程序一直处在S的(sleep)状态下面，一直卡在硬盘读写，导致模型加载不成功。

2025-03-02 13:47:32 482

原创【conda环境泄露】所有环境共享了一个包？

他这个location可以看出transformers这个包安装在公共的lib路径上面，非常不合理。主要是conda install要检查一堆信息，太慢了，不如pip一下子安好，当然快也有坏处的。打开 .bashrc 文件，添加下面的内容！配置好路径，记得更改你的路径。所以，在安装环境的时候，一定要使用which pip查看一下安装路径是否正确。，之后conda就会重新进入环境，这个时候会自动退出到base环境。但是对我来说不起作用，我还是配置好路径就行了吧。这个公共的路径就是base环境的路径。

2025-02-25 23:06:47 394

原创 llava推理时环境报错

【代码】llava推理时环境报错。

2025-02-16 00:36:40 555 1

原创 [安装FlashAttention] CUDA版本和 Nvidia驱动版本

一开始我以为是我 torch 安装的 CUDA toolkit11.8，nvcc -V是12.1会冲突，然后我把torch也换成了CUDA12.1的，但是还是报了神奇的错误。看来flash attention用的是系统的那个CUDA runtime api，而不是conda环境的，所以他说我的CUDA版本太低了。我是使用这个命令安装的，也就是CUDA版本是11.8，在conda环境安装的runtime api是CUDA11.8版本的。嘶，很神奇，不要用官网的那个安装命令。那这样看来我最高能装到12.4。

2025-02-10 21:50:45 2609 1

原创 [vncserver配置过程]

服了，umls的安装需要 X11 ，也就是图形化界面。我使用都没有办法，本来想试试vncserver，结果也是一坨。

2025-01-16 00:21:10 264

原创 [关于dpkg依赖错误的坑] 依赖出错会导致很多问题

当你运行 install / remove 都会被打断，报上面错误，就是遇到了依赖出错问题。运气好的话，你能够输入fix-broken自动解决，但是运气不好就修不好。

2025-01-15 19:17:09 1402

原创 [ubuntu安装报错] apt-get报了404 Not Found 的错误

结果发现不存在这个库。然后再次安装就成功了。

2025-01-15 11:51:39 237

原创 [Linux] 服务器CPU信息

例如，节点0包含 0-31 和 64-95 的 CPU 核心，而节点1包含 32-63 和 96-127 的 CPU 核心。因此，2 个物理 CPU 插槽（Socket(s): 2）和每个插槽 32 个核心就提供了 32 * 2 = 64 个线程（每个物理核心有 2 个线程）。输出中，显示了 CPU(s): 128，这意味着系统实际上识别到128个虚拟CPU或线程数，而不是物理CPU核心数量。因此，在两个 CPU 插槽上，系统总共有 64 * 2 = 128 个虚拟核心（线程）。

2024-12-31 15:06:11 997

原创 [Bert] 提取特征之后训练模型报梯度图错误

训练模型的时候，输入数据x，y不应该requires_grad，而bert模型输出的embeddings默认是requires_grad的，所以会报错。提取完embeddings之后，使用。

2024-12-30 12:43:29 386

原创 [modelscope and huggingface] 模型下载经验贴

这个脚本会把模型下载在默认路径，要修改的话需要传参。

2024-12-14 01:45:26 649

原创 [huggingface报错]关于hf的版本问题

想要用pokemon的diffusion模型练一下手，但是环境弄好了之后，报错了x。查到了是 huggingface 的版本太新了，这个函数被删掉了。换完版本之后报了下面的错误。好像只能够手动下载权重了。

2024-11-29 00:48:01 562

原创 [jupyter运行报错] AssertionError: Torch not compiled with CUDA enabled

不知道为什么同一个环境，.py代码能跑，但是jupyter的环境报了这个错误。然后命令行输出的python版本和安装环境时制定的python版本不一致。首先，在命令行能够转成cuda tensor。感觉这个环境也挺奇怪的。

2024-11-23 10:54:15 319

原创【jupyter】linux服务器怎么使用jupyter

最后conda环境还是没办法安装ipykernel，最后换了一个新的python环境。所以服务器跑jupyter，只需要conda环境装ipykernel。下载完kernel还是报错（那就继续下载）下载完了等待环境处理问题等了好久。

2024-11-22 23:59:54 341

原创 [linux服务器] Exception in thread “main“ java.awt.HeadlessException: No X11 DISPLAY variable was set,

首先我是想用nbia-data-retriever 下载数据的，结果ubuntu服务器没办法使用它下载。使用命令行命令下载时会报上面这个错误。缺失的包需要自己手动安装。

2024-11-05 17:19:13 516

原创 [Bert模型微调]

但是即使反过来，让有效的变成0，他也是能拟合的！所以debug的时候就很烦xxx。很神奇的一个问题，我也不知道后续能不能复现。有效的值为1，无效的为0。

2024-10-20 23:57:51 230

原创 [git] github管理项目之环境依赖管理

但是直接使用pip安装不了torch，需要添加源！！

2024-10-06 21:09:21 878

原创 [pytorch] 训练节省显存的技巧

因为偷懒，使用的是 pytorch 自带的 scaler，发现其实没什么用。是更新梯度，但是计算图没有释放，可以使用zero_grad释放计算图。这个我也没有试验过。

2024-09-14 21:36:12 597

原创 [git操作] git创建仓库上传github报错

操作流程如下git init报错如下输入git status按照它的提示，把 .git/index.lock 文件手动删掉，然后重新git add .就可以了。

2024-09-09 21:54:59 578

原创 [Transformer] Attention注意力中的位置编码

vit使用的就是固定的位置编码，是一个形状为的可学习的 tensor。如果预训练的时候，下游任务需要，那么可以采用二维插值。

2024-09-05 12:49:39 480

原创 [center loss] demo

看到 center loss 可以像聚类一样，使用不同的核函数(可以看成是计算距离的函数)计算loss，记录一下这个demo。

2024-09-02 23:14:21 376 1

原创 [torch] loss函数的注意事项

默认是 type.Long，在计算loss时，不能转换成为float。这也就是说，只有浮点数和复数支持梯度计算。

2024-08-25 21:21:19 232

原创 [stain norm] 病理图片染色处理笔记

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b8170b71aa3842de82b95c72993bbce4.png。因为要涉及多张病理图片的stain norm，所以需要一对一地进行transforms，但是即使这么做了，使用。reference_image的大小是(2000, 2500)但是sources_image的大小为(512,512)可能最主要的原因还是染色的色域差得有点大吧。还是出现了奇怪的染色情况。颜色确实变深了一点。

2024-08-23 00:41:53 377

空空如也

空空如也