自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(65)
  • 收藏
  • 关注

原创 vllm怎么安装?

我只会一个一个版本去试着安装,直到找到一个torch版本跟自己的符合要求。

2025-05-30 22:30:14 71

原创 服务器硬盘虚拟卷的处理

目前的情况是需要删除逻辑卷,然后再重新来弄一遍。数据已经备份好了,所以不用担心数据会丢失。

2025-05-24 20:53:44 602

原创 【ubuntu服务器显卡老是坏掉】

记录一下显卡出错的几种情况。

2025-05-20 11:44:58 269

原创 latex控制表格宽度,不要超出页面

可以人工调节成为 5pt,不影响字体,比较不影响可读性。如果列宽距很挤了,字体很小了,那么只能resizebox了。,neurips 使用的就是这个大小。控制表格的字体,一般使用。

2025-05-12 19:51:49 259

原创 runpod team 怎么设置自己的ssh key呢?

我建议是在公有环境配置自己的key的,这样可以随时删除。选择edit pod。

2025-04-29 19:00:55 265

原创 latex中 \par, \newline 和 \\ 之间的区别

在表格里面使用 \newline,他会认为是 cell内部的换行,而 \ 则认为是表格行换行。在文章段落、表格之中,他们虽然都是换行的意思,但是实际是不一样的。最后我是使用 \parbox[t]{} 达到目的的。

2025-04-26 00:30:32 155

原创 apt --fix-broken install报错? Nvidia-driver没办法安装x

apt --fix-broken install报错是很常见的事情他不会真的给你fix错误,他想要做的事fix broken但是这个broken没办法fix的时候,就会一直报错所以我们需要remove掉之前错误安装的包因为这个错误安装的包没办法安装,所以是没办法fix的,所以是一定要remove的!但是remove命令往往由依赖于fix!就连特定删除purge都不行找到真的解决方法了!!!!!

2025-04-22 20:32:21 440

原创 关于ubuntu密码正确但是无法登录的情况

如果用户是L状态,那么就是lock了。

2025-04-22 16:47:53 373

原创 如何在3090显卡上使用老版本torch

需要用到一个2022年的库,然后根据他的需求安装环境,结果报了以下两个错误。

2025-04-19 16:23:48 583

原创 [llava框架] 关于llava框架中微调问题

使用peft模型进行微调,model_base是基于llava的。训练中断之后加载checkpoint,却发现没有non_lora_trainable.bin文件。然后发现最后lora微调出来的non_lora_trainable.bin文件居然是跟随机初始化一样的。。。这一句话assert False了。但是lora权重是微调成功的,不然loss也不会下降。输出的norm值一直都是这个,但是loss神奇地下降。

2025-04-10 00:59:32 346

原创 LLM微调失败的经历

反正chexagent的微调使用llava的多轮对话框架真的很难顶,但是chexagent又没给训练代码,有点坑了。也不知道要不要微调embedding,embedding这么大我也没微调过啊。啊这,原来是converstations template的问题。,所以可能会出问题。目前重新训练,后续看看有没有问题。反正看起来就不能单纯用lora微调了。拼接,但是我用的llava默认的,就是。,但是实际上chexagent是。多轮对话,轮次之间要用。

2025-04-05 14:59:34 242

原创 re库匹配<think>出错

因为一开始没有加DOTALL,结果白跑实验两天,破防了。

2025-03-31 22:26:01 126

原创 UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda

感觉像是平时在复制指令的时候不小心设置了这个,被别人坑了。使用vim打开文件,在vim命令行中输入。

2025-03-30 01:41:44 326

原创 进程Kill杀死后GPU显存没有释放仍然被占用,怎么杀死僵尸进程

一般来说他会杀掉整个用户的所有进程。

2025-03-29 23:21:36 313

原创 conda 的 envs_dirs 配置出错

奇怪,为什么conda的env_dir会导到miniconda3的根目录呢?

2025-03-15 00:57:44 609

原创 [小样本学习] 关于特征选择+小样本学习的方法论

今天阅读了一篇论文以及知乎的一些分享文章。

2025-03-09 00:16:00 155

原创 [医学图像数据的预处理工作] 关于dicom格式怎么处理成为nii.gz为后续使用

当然我觉得如果能一步提取到目标数据,那肯定是最好的,如果不行,那就多步去做。

2025-03-08 17:07:55 335

原创 关于 c10::Half 类型和float不匹配

我在跑大模型推理的时候,遇到了上面的错误。首先有一个问题需要考虑:我希望模型可以在gpu上面推理,但是我默认了模型会自动加载到gpu上面。。。解决方法检查llama模型是不是正确加载到gpu,一半出现 c10:Half 这个类型,模型很大概率是加载到CPU上面去推理的,所以只要修改到gpu上就不会报错了模型推理的时候,记得加上autocase最后代码因为是修改R2genGPT的,所以代码如下:

2025-03-02 16:58:13 606

原创 Ubuntu系统中测试硬盘速度

hdparm 测试中,7112 MB/s 的缓存读取速度表示从内存(RAM)直接读取数据的理论极限速度(依赖内存性能),而236 MB/s 的缓冲磁盘读取速度反映物理磁盘(如硬盘或SSD)的实际连续读取性能,两者差异源于内存(电子传输)和磁盘(物理/接口限制)的本质区别。一般来说大模型都是10GB以上的,但是我发现服务器上面的机械硬盘只有 700KB/s的加载速度,这十分慢。在运行程序的时候,我发现程序一直处在S的(sleep)状态下面,一直卡在硬盘读写,导致模型加载不成功。

2025-03-02 13:47:32 482

原创 【conda环境泄露】所有环境共享了一个包?

他这个location可以看出transformers这个包安装在公共的lib路径上面,非常不合理。主要是conda install要检查一堆信息,太慢了,不如pip一下子安好,当然快也有坏处的。打开 .bashrc 文件,添加下面的内容!配置好路径,记得更改你的路径。所以,在安装环境的时候,一定要使用which pip查看一下安装路径是否正确。,之后conda就会重新进入环境,这个时候会自动退出到base环境。但是对我来说不起作用,我还是配置好路径就行了吧。这个公共的路径就是base环境的路径。

2025-02-25 23:06:47 394

原创 llava推理时环境报错

【代码】llava推理时环境报错。

2025-02-16 00:36:40 555 1

原创 [安装FlashAttention] CUDA版本 和 Nvidia驱动版本

一开始我以为是我 torch 安装的 CUDA toolkit11.8,nvcc -V是12.1会冲突,然后我把torch也换成了CUDA12.1的,但是还是报了神奇的错误。看来flash attention用的是系统的那个CUDA runtime api,而不是conda环境的,所以他说我的CUDA版本太低了。我是使用这个命令安装的,也就是CUDA版本是11.8,在conda环境安装的runtime api是CUDA11.8版本的。嘶,很神奇,不要用官网的那个安装命令。那这样看来我最高能装到12.4。

2025-02-10 21:50:45 2609 1

原创 [vncserver配置过程]

服了,umls的安装需要 X11 ,也就是图形化界面。我使用都没有办法,本来想试试vncserver,结果也是一坨。

2025-01-16 00:21:10 264

原创 [关于dpkg依赖错误的坑] 依赖出错会导致很多问题

当你运行 install / remove 都会被打断,报上面错误,就是遇到了依赖出错问题。运气好的话,你能够输入fix-broken自动解决,但是运气不好就修不好。

2025-01-15 19:17:09 1402

原创 [ubuntu安装报错] apt-get报了404 Not Found 的错误

结果发现不存在这个库。然后再次安装就成功了。

2025-01-15 11:51:39 237

原创 [Linux] 服务器CPU信息

例如,节点0包含 0-31 和 64-95 的 CPU 核心,而节点1包含 32-63 和 96-127 的 CPU 核心。因此,2 个物理 CPU 插槽(Socket(s): 2)和每个插槽 32 个核心就提供了 32 * 2 = 64 个线程(每个物理核心有 2 个线程)。输出中,显示了 CPU(s): 128,这意味着系统实际上识别到128个虚拟CPU或线程数,而不是物理CPU核心数量。因此,在两个 CPU 插槽上,系统总共有 64 * 2 = 128 个虚拟核心(线程)。

2024-12-31 15:06:11 997

原创 [Bert] 提取特征之后训练模型报梯度图错误

训练模型的时候,输入数据x,y不应该requires_grad,而bert模型输出的embeddings默认是requires_grad的,所以会报错。提取完embeddings之后,使用。

2024-12-30 12:43:29 386

原创 [modelscope and huggingface] 模型下载经验贴

这个脚本会把模型下载在默认路径,要修改的话需要传参。

2024-12-14 01:45:26 649

原创 [huggingface报错]关于hf的版本问题

想要用pokemon的diffusion模型练一下手,但是环境弄好了之后,报错了x。查到了是 huggingface 的版本太新了,这个函数被删掉了。换完版本之后报了下面的错误。好像只能够手动下载权重了。

2024-11-29 00:48:01 562

原创 [jupyter运行报错] AssertionError: Torch not compiled with CUDA enabled

不知道为什么同一个环境,.py代码能跑,但是jupyter的环境报了这个错误。然后命令行输出的python版本和安装环境时制定的python版本不一致。首先,在命令行能够转成cuda tensor。感觉这个环境也挺奇怪的。

2024-11-23 10:54:15 319

原创 【jupyter】linux服务器怎么使用jupyter

最后conda环境还是没办法安装ipykernel,最后换了一个新的python环境。所以服务器跑jupyter,只需要conda环境装ipykernel。下载完kernel还是报错(那就继续下载)下载完了等待环境处理问题等了好久。

2024-11-22 23:59:54 341

原创 [linux服务器] Exception in thread “main“ java.awt.HeadlessException: No X11 DISPLAY variable was set,

首先我是想用nbia-data-retriever 下载数据的,结果ubuntu服务器没办法使用它下载。使用命令行命令下载时会报上面这个错误。缺失的包需要自己手动安装。

2024-11-05 17:19:13 516

原创 [Bert模型微调]

但是即使反过来,让有效的变成0,他也是能拟合的!所以debug的时候就很烦xxx。很神奇的一个问题,我也不知道后续能不能复现。有效的值为1,无效的为0。

2024-10-20 23:57:51 230

原创 [git] github管理项目之环境依赖管理

但是直接使用pip安装不了torch,需要添加源!!

2024-10-06 21:09:21 878

原创 [pytorch] 训练节省显存的技巧

因为偷懒,使用的是 pytorch 自带的 scaler,发现其实没什么用。是更新梯度,但是计算图没有释放,可以使用zero_grad释放计算图。这个我也没有试验过。

2024-09-14 21:36:12 597

原创 [git操作] git创建仓库上传github报错

操作流程如下git init报错如下输入git status按照它的提示,把 .git/index.lock 文件手动删掉,然后重新git add .就可以了。

2024-09-09 21:54:59 578

原创 [Transformer] Attention注意力中的位置编码

vit使用的就是固定的位置编码,是一个形状为的可学习的 tensor。如果预训练的时候,下游任务需要,那么可以采用二维插值。

2024-09-05 12:49:39 480

原创 [center loss] demo

看到 center loss 可以像聚类一样,使用不同的核函数(可以看成是计算距离的函数)计算loss,记录一下这个demo。

2024-09-02 23:14:21 376 1

原创 [torch] loss函数的注意事项

默认是 type.Long, 在计算loss时,不能转换成为float。这也就是说,只有浮点数和复数支持梯度计算。

2024-08-25 21:21:19 232

原创 [stain norm] 病理图片染色处理笔记

在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b8170b71aa3842de82b95c72993bbce4.png。因为要涉及多张病理图片的stain norm,所以需要一对一地进行transforms,但是即使这么做了,使用。reference_image的大小是(2000, 2500)但是sources_image的大小为(512,512)可能最主要的原因还是染色的色域差得有点大吧。还是出现了奇怪的染色情况。颜色确实变深了一点。

2024-08-23 00:41:53 377

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除