- 博客(65)
- 收藏
- 关注
原创 latex控制表格宽度,不要超出页面
可以人工调节成为 5pt,不影响字体,比较不影响可读性。如果列宽距很挤了,字体很小了,那么只能resizebox了。,neurips 使用的就是这个大小。控制表格的字体,一般使用。
2025-05-12 19:51:49
259
原创 latex中 \par, \newline 和 \\ 之间的区别
在表格里面使用 \newline,他会认为是 cell内部的换行,而 \ 则认为是表格行换行。在文章段落、表格之中,他们虽然都是换行的意思,但是实际是不一样的。最后我是使用 \parbox[t]{} 达到目的的。
2025-04-26 00:30:32
155
原创 apt --fix-broken install报错? Nvidia-driver没办法安装x
apt --fix-broken install报错是很常见的事情他不会真的给你fix错误,他想要做的事fix broken但是这个broken没办法fix的时候,就会一直报错所以我们需要remove掉之前错误安装的包因为这个错误安装的包没办法安装,所以是没办法fix的,所以是一定要remove的!但是remove命令往往由依赖于fix!就连特定删除purge都不行找到真的解决方法了!!!!!
2025-04-22 20:32:21
440
原创 [llava框架] 关于llava框架中微调问题
使用peft模型进行微调,model_base是基于llava的。训练中断之后加载checkpoint,却发现没有non_lora_trainable.bin文件。然后发现最后lora微调出来的non_lora_trainable.bin文件居然是跟随机初始化一样的。。。这一句话assert False了。但是lora权重是微调成功的,不然loss也不会下降。输出的norm值一直都是这个,但是loss神奇地下降。
2025-04-10 00:59:32
346
原创 LLM微调失败的经历
反正chexagent的微调使用llava的多轮对话框架真的很难顶,但是chexagent又没给训练代码,有点坑了。也不知道要不要微调embedding,embedding这么大我也没微调过啊。啊这,原来是converstations template的问题。,所以可能会出问题。目前重新训练,后续看看有没有问题。反正看起来就不能单纯用lora微调了。拼接,但是我用的llava默认的,就是。,但是实际上chexagent是。多轮对话,轮次之间要用。
2025-04-05 14:59:34
242
原创 UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel anaconda
感觉像是平时在复制指令的时候不小心设置了这个,被别人坑了。使用vim打开文件,在vim命令行中输入。
2025-03-30 01:41:44
326
原创 [医学图像数据的预处理工作] 关于dicom格式怎么处理成为nii.gz为后续使用
当然我觉得如果能一步提取到目标数据,那肯定是最好的,如果不行,那就多步去做。
2025-03-08 17:07:55
335
原创 关于 c10::Half 类型和float不匹配
我在跑大模型推理的时候,遇到了上面的错误。首先有一个问题需要考虑:我希望模型可以在gpu上面推理,但是我默认了模型会自动加载到gpu上面。。。解决方法检查llama模型是不是正确加载到gpu,一半出现 c10:Half 这个类型,模型很大概率是加载到CPU上面去推理的,所以只要修改到gpu上就不会报错了模型推理的时候,记得加上autocase最后代码因为是修改R2genGPT的,所以代码如下:
2025-03-02 16:58:13
606
原创 Ubuntu系统中测试硬盘速度
hdparm 测试中,7112 MB/s 的缓存读取速度表示从内存(RAM)直接读取数据的理论极限速度(依赖内存性能),而236 MB/s 的缓冲磁盘读取速度反映物理磁盘(如硬盘或SSD)的实际连续读取性能,两者差异源于内存(电子传输)和磁盘(物理/接口限制)的本质区别。一般来说大模型都是10GB以上的,但是我发现服务器上面的机械硬盘只有 700KB/s的加载速度,这十分慢。在运行程序的时候,我发现程序一直处在S的(sleep)状态下面,一直卡在硬盘读写,导致模型加载不成功。
2025-03-02 13:47:32
482
原创 【conda环境泄露】所有环境共享了一个包?
他这个location可以看出transformers这个包安装在公共的lib路径上面,非常不合理。主要是conda install要检查一堆信息,太慢了,不如pip一下子安好,当然快也有坏处的。打开 .bashrc 文件,添加下面的内容!配置好路径,记得更改你的路径。所以,在安装环境的时候,一定要使用which pip查看一下安装路径是否正确。,之后conda就会重新进入环境,这个时候会自动退出到base环境。但是对我来说不起作用,我还是配置好路径就行了吧。这个公共的路径就是base环境的路径。
2025-02-25 23:06:47
394
原创 [安装FlashAttention] CUDA版本 和 Nvidia驱动版本
一开始我以为是我 torch 安装的 CUDA toolkit11.8,nvcc -V是12.1会冲突,然后我把torch也换成了CUDA12.1的,但是还是报了神奇的错误。看来flash attention用的是系统的那个CUDA runtime api,而不是conda环境的,所以他说我的CUDA版本太低了。我是使用这个命令安装的,也就是CUDA版本是11.8,在conda环境安装的runtime api是CUDA11.8版本的。嘶,很神奇,不要用官网的那个安装命令。那这样看来我最高能装到12.4。
2025-02-10 21:50:45
2609
1
原创 [vncserver配置过程]
服了,umls的安装需要 X11 ,也就是图形化界面。我使用都没有办法,本来想试试vncserver,结果也是一坨。
2025-01-16 00:21:10
264
原创 [关于dpkg依赖错误的坑] 依赖出错会导致很多问题
当你运行 install / remove 都会被打断,报上面错误,就是遇到了依赖出错问题。运气好的话,你能够输入fix-broken自动解决,但是运气不好就修不好。
2025-01-15 19:17:09
1402
原创 [Linux] 服务器CPU信息
例如,节点0包含 0-31 和 64-95 的 CPU 核心,而节点1包含 32-63 和 96-127 的 CPU 核心。因此,2 个物理 CPU 插槽(Socket(s): 2)和每个插槽 32 个核心就提供了 32 * 2 = 64 个线程(每个物理核心有 2 个线程)。输出中,显示了 CPU(s): 128,这意味着系统实际上识别到128个虚拟CPU或线程数,而不是物理CPU核心数量。因此,在两个 CPU 插槽上,系统总共有 64 * 2 = 128 个虚拟核心(线程)。
2024-12-31 15:06:11
997
原创 [Bert] 提取特征之后训练模型报梯度图错误
训练模型的时候,输入数据x,y不应该requires_grad,而bert模型输出的embeddings默认是requires_grad的,所以会报错。提取完embeddings之后,使用。
2024-12-30 12:43:29
386
原创 [huggingface报错]关于hf的版本问题
想要用pokemon的diffusion模型练一下手,但是环境弄好了之后,报错了x。查到了是 huggingface 的版本太新了,这个函数被删掉了。换完版本之后报了下面的错误。好像只能够手动下载权重了。
2024-11-29 00:48:01
562
原创 [jupyter运行报错] AssertionError: Torch not compiled with CUDA enabled
不知道为什么同一个环境,.py代码能跑,但是jupyter的环境报了这个错误。然后命令行输出的python版本和安装环境时制定的python版本不一致。首先,在命令行能够转成cuda tensor。感觉这个环境也挺奇怪的。
2024-11-23 10:54:15
319
原创 【jupyter】linux服务器怎么使用jupyter
最后conda环境还是没办法安装ipykernel,最后换了一个新的python环境。所以服务器跑jupyter,只需要conda环境装ipykernel。下载完kernel还是报错(那就继续下载)下载完了等待环境处理问题等了好久。
2024-11-22 23:59:54
341
原创 [linux服务器] Exception in thread “main“ java.awt.HeadlessException: No X11 DISPLAY variable was set,
首先我是想用nbia-data-retriever 下载数据的,结果ubuntu服务器没办法使用它下载。使用命令行命令下载时会报上面这个错误。缺失的包需要自己手动安装。
2024-11-05 17:19:13
516
原创 [Bert模型微调]
但是即使反过来,让有效的变成0,他也是能拟合的!所以debug的时候就很烦xxx。很神奇的一个问题,我也不知道后续能不能复现。有效的值为1,无效的为0。
2024-10-20 23:57:51
230
原创 [pytorch] 训练节省显存的技巧
因为偷懒,使用的是 pytorch 自带的 scaler,发现其实没什么用。是更新梯度,但是计算图没有释放,可以使用zero_grad释放计算图。这个我也没有试验过。
2024-09-14 21:36:12
597
原创 [git操作] git创建仓库上传github报错
操作流程如下git init报错如下输入git status按照它的提示,把 .git/index.lock 文件手动删掉,然后重新git add .就可以了。
2024-09-09 21:54:59
578
原创 [Transformer] Attention注意力中的位置编码
vit使用的就是固定的位置编码,是一个形状为的可学习的 tensor。如果预训练的时候,下游任务需要,那么可以采用二维插值。
2024-09-05 12:49:39
480
原创 [center loss] demo
看到 center loss 可以像聚类一样,使用不同的核函数(可以看成是计算距离的函数)计算loss,记录一下这个demo。
2024-09-02 23:14:21
376
1
原创 [torch] loss函数的注意事项
默认是 type.Long, 在计算loss时,不能转换成为float。这也就是说,只有浮点数和复数支持梯度计算。
2024-08-25 21:21:19
232
原创 [stain norm] 病理图片染色处理笔记
在这里插入图片描述](https://i-blog.csdnimg.cn/direct/b8170b71aa3842de82b95c72993bbce4.png。因为要涉及多张病理图片的stain norm,所以需要一对一地进行transforms,但是即使这么做了,使用。reference_image的大小是(2000, 2500)但是sources_image的大小为(512,512)可能最主要的原因还是染色的色域差得有点大吧。还是出现了奇怪的染色情况。颜色确实变深了一点。
2024-08-23 00:41:53
377
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人