- 博客(88)
- 收藏
- 关注
原创 vim: error while loading shared libraries: /usr/lib64/perl5/CORE/libperl.so: file too short
使用vim时出现如下报错:[root@mysto ~]# vim --versionvim: error while loading shared libraries: /usr/lib64/perl5/CORE/libperl.so: file too short 找一个相同操作系统版本的机器,然后复制该文件到本机:
2024-08-07 15:05:48
349
原创 Job运行很慢,从哪个指标去分析?
可以通过下面几个指标,来评估 LSF 作业运行时间的长短,并找出可能影响作业执行效率的因素。有研发反应Job运行很慢,从哪个指标去分析?
2024-07-14 15:36:14
336
原创 Checkpoint log is not found or is corrupted. Job not submitted.
问题Checkpoint log is not found or is corrupted. Job not submitted.解决
2024-07-14 15:26:30
283
原创 在lsb.resource中设置特定用户使用特定机器运行作业失效
lsb.resources文件是用于定义和配置LSF的资源的,资源类型基本都是消耗型资源,需要定义谁去消耗这些资源((如MEM、SLOTS、JOBS));这个“谁”也就是使用者,可以包括应用程序、队列、用户、项目、主机等。在配置中只定义了使用者 USERS 、 Per_HOST,没有设置他们可以消耗的资源类型(如MEM、SLOTS、JOBS),所以这样设置是没有意义的,所以会感觉没有起作用。这个需求,使用Esub脚本是更合适的解决方法,配置和使用Esub脚本没有想象的那么复杂。
2024-07-14 15:13:23
241
原创 LSF集群中,一般资源分配是划分主机的还是按比例比较好?
1. 划分主机(Exclusive allocation):这种方式是将集群中的一台或多台主机完全分配给某一应用或用户,这样可以确保在该主机上的所有资源都专门服务于该应用或用户。这对于需要大量计算或存储资源的任务来说是很理想的,但它可能导致资源的使用效率不高,因为在该主机没有任务需要运行的时候,其资源就会被闲置。所以,没有固定的“更好”的答案,这完全取决于您的具体需求。划分主机的方式可能对于大型、资源消耗大的任务更合适,而按比例分配的方式对于需要做到资金和资源的效率最大化的情况更为适合。
2024-07-14 15:09:27
232
原创 LSF的服务挂了,但可以自动重启
Restart=always: 只要不是通过systemctl stop来停止服务,任何情况下都必须要重启服务,默认值为no。StartLimitInterval=0: 无限次重启,默认是10秒内如果重启超过5次则不再重启,设置为0表示不限次数重启。RestartSec=30: 重启间隔,比如某次异常后,等待30(s)再进行启动,默认值0.1(s)
2024-07-14 14:42:59
241
原创 负载限制(loadSched和loadStop)
loadSched 必须先满足条件,然后才能将作业分派到主机。如果 loadStop 满足条件,将暂挂主机上的作业。设置的是已使用达到多少,就暂挂主机上的作业。设置的是已使用达到多少,就暂挂主机上的作业。(lsload查看到的mem 2.6G)=可用于调度的内存(bhosts -l。)+预留的内存(bhosts -l中。此值,就拒绝接收作业。,就暂挂主机上的作业。
2024-07-14 14:37:35
693
原创 作业状态是UNKWN,让作业恢复运行
如果 job 的状态由 UNKWN 变成了 ZOMBI,需要再次执行 bkill -r jobid。2. 使用 bjobs -a | grep jobid 查看job状态。3. 让作业重新排队:brequeue -H -e jobid。4. 然后用 bswitch 新队列 jobid 切换队列。5. 最后再 bresume jobid 恢复这个作业。此时 job 状态会变成 EXIT。您当前的job状态是UNKWN。
2024-07-14 14:21:49
443
原创 loadStop的原因导致的SSUSP
Total内存值是可用来调度的可用内存,当前可用内存为 0M。 loadSched和loadStop的阈值是根据 Total 内存和节点内存来做限制的。 loadStop 50G,现在有大量作业SSUSP,说明之前某个时间点该节点内存可能有低于50G的时候,导致作业SSUSP,具体是否是这个原因引起的需要用 bjobs -l JobID 看下作业的详细信息。 如果是loadStop的原因导致的 SSUSP,根据loadStop设置的阈值,Total 值高于loadStop值后,将逐步恢复挂起的作业
2024-07-14 14:20:43
379
原创 控制节点作业数量
如果想控制节点作业数量,可以参考下面的链接,配置lsb.resources这个文件,指定可供资源使用者使用的最大作业数(JOBS)。
2024-07-14 14:17:09
169
原创 配置提交节点
如果使用lshosts查看lsf client的type、model是UNKNOWN,可以手动在lsf.cluster.<clustername>文件里为这个机子配置一个type。到$LSF_TOP/conf目录,编辑lsf.cluster.<clustername>文件。将下面配置中的server列设置成0,此节点就会作为Login节点。将lsb.hosts文件中的 MXJ设置为0,代表此节点无资源,不接收作业。复制上面的type类型到lsf.cluster.<clustername>文件中。
2024-07-14 14:13:32
404
原创 System: Active job threshold reached. Retrying in 60 seconds
LSF提交作业提示:System: Active job threshold reached. Retrying in 60 seconds。kill部分优先级低作业,再重新提交作业。
2024-07-04 11:28:14
283
1
原创 Docker启动失败:Failed at step LIMITS spawning /sbin/modprobe
Docker启动失败:Failed at step LIMITS spawning /sbin/modprobe
2023-10-19 15:28:53
479
原创 error while loading shared libraries: libhwloc.so.5: cannot open shared object file: No such file or
slurmd: error while loading shared libraries: libhwloc.so.5: cannot open shared object file: No such file or directory
2023-06-08 17:10:36
937
原创 Group <ugroup2>: Pending job threshold reached. Retrying in 60 seconds...
Group : Pending job threshold reached. Retrying in 60 seconds...
2023-05-16 10:42:06
604
原创 createrepo --update无法更新repodata目录中的内容
createrepo --update无法更新repodata目录中的内容
2023-03-30 11:10:03
1362
原创 关于productid
productid文件的主要作用是:标识产品与内容集(repository)的映射关系。确保同步的仓库能够准确地反映订阅设置和产品组合。当同步多个产品时,确保相互之间具有正确的依赖关系。 在进行reposync同步操作时,确保正确使用productid文件将有助于更高效地进行仓库同步和管理。
2023-03-29 18:11:24
912
原创 reposync:Removing *.rpm due to failed signature check.
通常,这可以在`/etc/yum.conf`或`/etc/dnf/dnf.conf`中添加以下内容来允许安装未经过签名的RPM包,但这样做可能会降低系统的安全性: gpgcheck=0。RPM包的签名密钥不匹配或不存在。你可以通过rpm命令来导入签名密钥:sudo rpm --import /path/to/repokey.gpg。"Removing *.rpm due to failed signature check"提示表示在执行reposync同步命令后,某些RPM包的签名验证失败了。
2023-03-29 11:23:18
322
原创 reposync提示Removing *.rpm, due to missing GPG key
例如,如果您的 GPG 密钥 URL 是 `https://example.com/RPM-GPG-KEY-example`,您可以执行以下命令来导入密钥: ``` sudo rpm --import https://example.com/RPM-GPG-KEY-example ```如果您不想检查 GPG 签名,可以在 repo 文件中禁用 `gpgcheck` 选项,将其设置为 0: ``` gpgcheck=0 ``` 但是,这样做可能会导致安全风险,因为您将无法验证 RPM 包的完整性和来源。
2023-03-29 11:16:58
401
原创 yum repolist是如何获取软件包数量的?
YUM 会为每个软件仓库下载其元数据文件。`yum repolist` 是 YUM(Yellowdog Updater, Modified)软件包管理器的一个命令,用于显示已配置的软件仓库列表及各个软件仓库的软件包数量。因此,`yum repolist` 获取软件包数量信息的主要原理是通过读取系统配置中的软件仓库信息、下载并解析软件仓库的元数据文件,最终生成软件仓库列表及各个仓库的软件包数量。执行 `yum repolist` 命令时,YUM 会显示上述信息,包括软件仓库列表以及每个库中的软件包数量。
2023-03-29 11:10:49
2303
原创 Vmware+UOS-server-1050e虚拟机安装(含软件链接)
使用 Vmware 安装 Uniontechos Server 1050e。
2022-08-16 16:03:21
6593
4
原创 The cache is empty. You need to run “apt-file update“ first.
操作系统版本:uniontechos-desktop-20-professional-1040-amd64.isouniontechos-desktop-20-professional-1050-amd64.iso今日安装 apt-file 后,出现以下问题root@uniontech:~# apt-file search dgetFinding relevant cache files to search ...E: The cache ...
2022-05-25 15:20:44
1023
原创 Could not open /dev/vmmon: xxx.Please make sure that the kernel module `vmmon‘ is loade
Linux vmware报错显示缺少 vmmon 内核模块,但是本地搜索没有相关文件,也不能直接加载此模块。解决办法:从官网从新下载 vmware 【链接:Download VMware Workstation Pro】,再重新安装,即可解决上述问题。uos:/home/wd/Downloads# lsVMware-Workstation-Full-16.2.3-19376536.x86_64.bundleuos:/home/wudan/Downloads# chmod...
2022-04-25 10:05:29
2380
原创 1. 了解C
1.扫盲1.1计算机工作的基本原理1.计算机的几个部件名称功能中央处理器(CPU)担负着绝大部分的计算工作随机访问存储器(RAM)作为一个工作区来保护程序和文件永久存储器一般是硬盘,即使在计算机关机时也能记下程序各种外围设备如键盘、鼠标、监视器,用来提供人与计算机之间的通信2.CPU简单的工作内容CPU从内存获取一个指令并执行这个指令,然后从内存中获取下一个指令并执行。一个千兆CPU可以在一秒内进行大约一亿次这样的操作,所以CPU能以惊人的速度
2021-12-29 12:25:29
1024
原创 deepin/UOS1040密码破解(命令行删除密钥环)
环境说明系统版本:uniontechos-desktop-20-professional-1040_amd64百度网盘系统链接: https://pan.baidu.com/s/1Z61lFL1l8Vlj7J86wWEkTA 密码: 1040用户名:uos1040操作步骤在grub的引导装载程序菜单上,键入“e”进入编辑模式。 找到linux /vmlinuz-...所在行,ro改为“rw”,并在此行尾添加“init=/bin/bash”,如图1所示。添加完成后按快捷键“Ctrl+X.
2021-03-16 11:38:49
5724
10
原创 wine —— windows软件移植到Linux系统
windows软件移植到Linux —— wine导读:wine是我们在Linux下运行部分Windows应用程序必不可少的工具。接下来主要了解wine服务的工作原理、wine服务的部署以及windows应用程序在统信UOS操作系统中的安装。一、wine服务简介1、wine是什么?Wine (“Wine Is Not an Emulator” 的首字母缩写)是一个能够在多种 POSIX-compliant 操作系统(诸如 Linux,macOS 及 BSD 等)上运行 Wind.
2020-12-18 15:56:18
16072
1
原创 UOS Bind9 反向解析故障
UOS bind9反向解析出现以下问题:root@uos1:/etc/bind# host 192.168.200.201201.200.168.192.in-addr.arpa has no PTR record相关配置文件内容如下:root@uos1:/etc/bind# cat /etc/resolv.conf # Generated by NetworkManagersearch public#nameserver 192.168.200.1#本机IP为192.168
2020-12-09 15:41:52
941
2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人