- 博客(88)
- 收藏
- 关注
原创 如何使用Chemprop2.2.0
不知道为啥会一直报错,不过,通过我的fix_csv.py脚本能修成(虽然我看不出来修正前后有啥区别),输入文件重命名为了clean_data.csv,然后这个文件能成功。首先需要一个包含SMILES列和目标标签的列。训练chemprop。
2025-06-05 03:25:42
61
原创 DJJ:Gromacs小分子和膜分子动力学结束后,分析结果教程汇总
分子动力学结束后,第一件事就是进行周期性矫正通常跑完分子动力学后,轨迹文件中分子可能存在跨过周期性边界的情况,需要校正模拟体系的周期性。可输入以下命令校正周期性DJJ:运行完后,现在GROMACS要求您"选择用于中心化的组"(Select group for centering),并显示了可用的组:System (系统) - 53726个元素Other (其他) - 53726个元素POPG - 20574个元素 (这是一种磷脂)POPE - 6750个元素 (这是另一种磷脂)
2025-05-22 05:44:10
551
原创 VMD查看蛋白质-配体的分子动力学模拟轨迹
这里的轨迹是100ns,10000帧,如图0代表第一帧,10001是最后一帧,10代表每10帧保存一帧,保存文件类型为trr,命名时候trr要自己打上。我自己的换了新电脑之后,安装1.9.4版本可以查看完整版的100ns的10000帧的轨迹,没什么问题。看动力学模拟的md.mdp文件,这些参数都是自己设置的,nsteps是总步数,nstxcout是多少步输出一帧,前者除上后者就是总的帧数。但是有一个很尴尬的问题就是,如果要保存部分轨迹,也需要加载完全部的,一般加载时候中后期电脑就崩了。
2025-05-20 17:36:57
354
原创 unbuntu系统下安装VMD
然后打开configure,修改下面两行,注意。上传到服务器或者是win 11的。(在原教程基础上去掉home)(原教程有一点细节问题)文件中加入下面内容,注意。一般来说均可正常运行。
2025-05-20 04:31:52
150
原创 因为gromacs必须安装cuda(系统自带的NVIDIA驱动不行),这里介绍下如何安装cuda
3.取消Driver、然后选择Install(敲击空格取消Driver)1.选择continue。2.输入accept。
2025-05-05 21:48:06
340
原创 2025年gromacs安装教程
对应官网安装教程安装gromacs(每个版本的安装方法不一样,参考具体的版本,本安装教程参考2022.5教程)博主说:注意:重启系统后,每次运行gmx前需要输入最后的source一行。说过19.6、22.5、23.3好用,我选了22.5版本。DJJ:反正我自己不不确定,如果不行,就source一下。因为我的unbuntu系统是20版本的,依赖包版本。,点击左侧Installation guide。选择https这个下载。
2025-05-05 03:33:07
562
原创 如何卸载gromacs更换版本
第二,我之前装的时候,没有安装gpu支持版的,只安装了cpu支持的,虽然可以跑,但太慢了,没有搞头。第一,我之前装的2022.5版力场版本太老了,没有charmm36只有charmm27.(在如下目录里运行sudo make uninstall,下图是已经卸载完成的)# 如果你保留了编译目录,可以在编译目录中执行。
2025-05-05 03:25:41
165
原创 当使用gromcas进行分子动力学模拟时,如何兼顾系统的conda环境
博主遇到一个问题,因为之前频繁需要在unbuntu系统中,使用python脚本以及机器学习模型。但是由于conda管理的需要,我的环境长期需要停留在base或者其他conda环境。但使用gromacs一些配套工具的时候,如pymol;在base环境中无法调用安装的pymol,重新安装也没用。然后查询教程才知道,必须退出base环境,才行。重新进入base环境。
2025-05-05 00:36:09
242
原创 PaDEL配置和使用
PaDELPy 是一个用于计算分子描述符和指纹的 Python 包装器,它允许用户通过 Python 直接访问 PaDEL-Descriptor 软件的命令行接口。PaDEL-Descriptor 是一个广泛使用的分子描述符计算工具,而 PaDELPy 则简化了在 Python 环境中使用该工具的过程。安装 Java Runtime Environment (JRE): 由于 PaDEL-Descriptor 是基于 Java 的,因此需要安装 JRE 6 或更高版本。
2024-11-15 22:46:57
970
原创 【重装系统后重新配置3】帮老项目设置 编译器
2.conda执行程序里 找到 E:\anaconda\Scripts\conda.exe。1. python interpreter 设置conda environment。
2024-11-05 19:16:59
205
原创 【重装系统后重新配置2】pycharm 终端无法激活conda环境
pycharm 终端无法激活 conda 环境,但是 Windows本地终端是可以激活的。原因是pycharm 默认的终端是 Windows PowerShell。一、在设置里,修改为cmd。
2024-11-05 11:12:12
828
4
原创 【重装系统后重新配置1】把Anaconda从硬盘恢复方法(亲测可用)
1.首先保证安装目录文件完整2.添加系统环境变量3然后进入安装目录打开cmd命令窗口,输入一下如下命令。
2024-11-04 22:56:20
447
原创 [回归指标]相关性评价:R2、PCC(Pearson’s r )
皮尔逊相关系数是研究变量之间线性相关程度的量,R方和PCC是不同的指标。R方衡量x和y的接近程度,PCC衡量的是x和y的变化趋势是否相同。然而,由于它将每个单独的数据点与整体平均值进行比较,所以 Pearson’s r 只考虑直线。我们通常可以将两个变量之间的关系描绘成一个点云,分散在一条线的两侧。点云的分散度越大,数据越「嘈杂」,关系越弱。然而,这些变量之间的关系很显然是非随机的。幸运的是,我们有不同的相关性方法。在上面的图中,Pearson’s r 并没有显示研究对象的相关性。
2024-02-29 22:27:41
4916
原创 [分类指标]准确率、精确率、召回率、F1值、ROC和AUC、MCC马修相关系数
准确率(Accuracy):正确分类的样本个数占总样本个数,精确率(Precision)(查准率):预测正确的正例数据占预测为正例数据的比例,召回率(Recall )(查全率):预测为正确的正例数据占实际为正例数据的比例,F1 值(F1 score): 调和平均值,准确率、精确率、召回率、F1 值主要用于分类场景。准确率可以理解为预测正确的概率,其缺陷在于:当正负样本比例非常不均衡时,占比大的类别会影响准确率。
2024-02-29 16:44:12
1989
原创 [分子指纹]关于smile结构的理解
Q2改:C1C(C(C2C(C1)(C3C(CC2)(C4(C(=CC3)C5C(CC4)(CCC(C5)(C)C)C(=O)O)C)C)C)(C)C)O[C@@H]我的案例中有个奇怪的现象,我发现。
2024-02-27 03:47:13
448
原创 【shap】使用shap画图时colorbar颜色条不能正常显示
参考上面的帖子,是matplotlib版本问题,我原来的版本是3.5.0,降级回3.4.3就正常了。下面,我的shap值全是蓝色的,没有红色。(注:蓝色是负贡献,红色是正贡献)
2024-02-20 19:55:12
777
原创 关于怎么监督机器学习训练的进度
许多机器学习框架(例如TensorFlow和Keras)支持回调函数,它们可以在训练的不同阶段执行特定的操作。例如,可以使用回调函数记录每个epoch的性能指标,保存模型的检查点,动态调整学习率等。不知道大家有没有我这种烦恼,运行机器学习模型的时候,一直在哪运行,也不知道啥时候会结束,等也不是,不等也不是,又着急想看到结果。许多机器学习框架会在训练过程中输出日志信息,其中包含每个epoch的损失、准确率等指标。这些信息可以帮助你了解模型的训练进度。有些框架提供了用于可视化训练进度的进度条工具。
2024-02-18 22:12:08
778
1
原创 热图分析(这个热力图代表的是不同描述符与pIC50之间的皮尔逊相关系数。)
相关系数的值通过色阶上的颜色来表示:负相关系数通常用冷色(如蓝色或紫色)表示,正相关系数通常用暖色(如红色或粉色)表示,接近零的相关系数通常用中性色(如白色或灰色)表示。例如,在这个热力图中,"Infective-50"与pIC50之间有一个0.46的相关系数,这是一个较强的正相关,表明"Infective-50"高的时候,pIC50也高。综上所述,这个热力图提供了一种快速可视化不同描述符与pIC50之间关系强度和方向的方法,但是具体的分析和结论需要依据研究的背景和附加的统计测试来做进一步的验证。
2024-01-06 01:45:11
2570
原创 conda和pip配置国内镜像源
中国科技大学: https://pypi.mirrors.ustc.edu.cn/simple/清华:https://pypi.tuna.tsinghua.edu.cn/simple。阿里云:https://mirrors.aliyun.com/pypi/simple/华中理工大学:https://pypi.hustunique.com/山东理工大学:https://pypi.sdutlinux.org/豆瓣:https://pypi.douban.com/simple/添加镜像源(永久添加)
2023-12-18 01:20:09
1348
转载 GBDT算法原理以及实例理解
在分类树中最佳划分点的判别标准是熵或者基尼系数,都是用纯度来衡量的,但是在回归树中的样本标签是连续数值,所以再使用熵之类的指标不再合适,取而代之的是平方误差,它能很好的评判拟合程度。首先,GBDT使用的决策树是CART回归树,无论是处理回归问题还是二分类以及多分类,GBDT使用的决策树通通都是都是CART回归树。对于回归树算法来说最重要的是寻找最佳的划分点,那么回归树中的可划分点包含了所有特征的所有可取的值。为什么不用CART分类树呢?因为GBDT每次迭代要拟合的是梯度值,是连续值所以要用回归树。
2023-12-17 16:01:55
260
原创 xgboost机器学习算法通俗理解
通过这个例子,你可以更深入地理解 XGBoost 的原理:通过迭代训练多个决策树,每个决策树都试图纠正前面决策树的错误,最终将它们集成在一起,以获得更准确的预测结果。就像你在制作咖啡时,通过多次尝试和调整,最终得到了最好口味的咖啡一样,XGBoost 通过集成多个决策树的预测结果,得出了更准确的预测。通过这个例子,你可以理解 XGBoost 模型的原理:通过迭代训练多个决策树,每个决策树都试图纠正之前决策树的错误,最终将它们组合起来,以获得更准确的预测结果。想象一下,你正在准备一杯美味的咖啡。
2023-12-17 15:22:17
1039
原创 使用jupyter notebook的便捷方法
但我们知道一个问题,pycharm中直接使用jupyter容易有些bug,但有些图,只有使用jupyter能出。2.anaconda里使用anaconda prompt,输入jupyter notebook + 路径。我的习惯是用Pycharm为主,jupyter为辅。1,先在pycharm里配环境,和各种包。
2023-12-16 13:36:41
433
转载 个人总结:机器学习分类模型评估指标 准确率、精确率、召回率、F1等以及关联规则支持度、置信度
也就是说,曲线上的每一个点代表着,在某一阈值下,模型将大于该阈值的结构判定为正样本,小于该阈值的结果判定为负样本,此时返回结果对应的真正率和假正率。A对B的提升度为:0.67/0.75 = 0.89 即以A作为前提,对B出现的概率有什么影响,如果提升度为1说明AB没有任何关联,如果小于1说明AB是互斥的,如果大于1,认为AB是有关联的,但在具体任务中认为提升度大于3才是值得认可的关联。理想的就是一个正方形。灵敏度求的是预测正确的正例与所有正例的比率,特异度求的是预测正确的负例与所有负例的比率。
2023-12-06 14:51:41
858
原创 关于支持向量机(SVM)的QSAR的结果的分析
图中的灰色部分代表了预测pIC50值与实测pIC50值之间的95%置信区间(confidence interval)。这个区间提供了一个预测误差的范围,意味着在统计上,我们有95%的把握认为真实值会落在这个区间内。具体来说,这个置信区间围绕着最佳拟合线(图中的虚线)而形成,显示了数据点在预测模型中的分散程度。简而言之,这个区间展示了模型预测的不确定性。
2023-12-06 12:26:33
700
原创 正则化的概念
在模型稀疏化时,L2只能降低每项特征的权重,而不能抹去,这时L1就可以使大部分模型参数为0,起到稀疏化的效果。再举一个理性的例子,点线(蓝色的···线)表示的是,在以圆圈表示的国家上训练的原始模型(没有正方形表示的国家),虚线(红色的—线)是我们在所有国家(圆圈和方形)上训练的第二个模型,实线是用与第一个模型相同的数据训练的模型,但是有一个正则化约束。说的再通俗点,就是模型的通用能力,训练的模型如果只能适用于某种特定的即为苛刻条件,那么这个模型可用的范围,所能承受的抗干扰性(术语叫做鲁棒性)就太差了…
2023-12-06 10:21:34
749
原创 10折交叉验证(10-fold Cross Validation)与留一法(Leave-One-Out)
这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10次交叉验证是最常用的。,就是把一个大的数据集分为 k kk 个小数据集,其中 k − 1 k-1k−1 个作为训练集,剩下的 1 11 个作为测试集,在训练和测试的时候依次选择训练集和它对应的测试集。,顾名思义,就是使 k 等于数据集中数据的个数,每次只使用一个作为测试集,剩下的全部作为训练集,这种方法得出的结果与训练整个测试集的期望值最为接近,但是成本过于庞大。这个问题可能是由于数据处理或代码逻辑上的错误导致的。
2023-12-05 16:13:19
14825
3
原创 关于随机数的设定和随机噪声
这里我们知道一点,如果只是发文章的话,可以挑取效果好的随机数,但是实际上我们要知道一点,如果模型受到随机数的影响较大,那只能说明模型不咋地。我们知道,加入随机数的目的,是让结果可重复性,可控。加入随机噪声的原因是提高鲁棒性,因为现实情况实际上是有噪声的(如实验测活的误差)。我们发现不加入随机噪声的情况,效果更差。
2023-12-04 05:52:34
613
原创 机器学习与药物筛选的心得体会
关于自变量的选择,最常用的就是分子描述符(2D or 3D),能够计算描述的软件很多,MOE,DS,还有免费的一大堆,想知道的可以看我之前发的帖子。都是拿个体系,做个模型,再做几个理论的验证,就把文章发表出去了。相对描述符而言,分子指纹代表的信息量更大,但分子指纹计算一般都牵涉到商业软件,很难去破解指纹具体的数字信息,这样就很难和免费的SVM或者KNN方法实现无缝衔接,我最近发现有个软件算出来的指纹,就是用位数代表指纹的(实数集)PaDEL-Descriptor,想用的可以去下载,很好用。
2023-11-23 14:27:16
698
1
原创 【分子指纹】化学分子指纹的概念和应用(非常重要)
分子指纹(Molecular fingerprints)可以低计算成本的方式表示大规模化学数据集中化合物的化学(结构、物理化学等)性质。它们在将化学数据集中的分子转换为适合于计算方法的一致输入格式(bit向量或数值)方面发挥着重要作用。在这篇综述中,
2023-11-23 01:23:20
10897
原创 生物活性分子库
有关小分子及其生物活性的信息来自几种核心药物化学期刊的全文文章,并与已批准的药物和临床开发候选药物的数据(如作用机制和治疗适应症)相结合。是一个公开的,可通过网络访问的测量结合亲和力的数据库,主要关注被认为是药物靶标的蛋白质与类似药物的小分子之间的相互作用。示例包括:政府机构,化学品供应商,期刊出版商等等。PubChem主要包含小分子,但也包含较大的分子,例如核苷酸,碳水化合物,脂质,肽和化学修饰的大分子。我们收集有关化学结构,标识符,化学和物理性质,生物活性,专利,健康,安全,毒性数据等许多信息。
2023-11-22 09:08:56
1292
转载 【RDKit】化学指纹(fingerprint)
Rdkit|化学指纹(fingerprint)化学指纹(fingerprint)RDKit中还有许多其他类型的分子指纹可供选择,以下是其中几个常见的分子指纹类型:Morgan指纹(Circular fingerprints):基于分子的拓扑结构和半径参数生成的二进制指纹,可以用于描述分子的结构和相似性。MACCS指纹(MACCS keys):基于分子的结构和功能团片段生成的二进制指纹,可以用于进行药物相似性和虚拟筛选。
2023-11-19 01:15:20
1544
原创 【数据预处理3】数据预处理 - 归一化和标准化
存款的数值跟其他数据不在一个数量级,这意味着存款的对择偶结果的影响比较大,但我们认为这三个特征同样重要,这时候就需要把这些规格不同的数据转换到同一规格。归一化是根据最大值和最小值来计算的,当最大值/最小值出现异常时,比如最大值跟其他数据差的非常多,那么这种计算方式就会存在较大的误差。这个过程,也叫数据预处理。实例化 MinMaxScaler 时,指定 feature_range 参数的值,可以设置归一的「范围」。feature_range=(0,1):(可选,默认0~1)指定归一化的范围,。
2023-11-18 20:56:32
230
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人