[分析示例] 通过机器学习估计 χ 参数

本文介绍了如何利用J-OCTA的MI-Suite工具,通过SMILES表示法和描述符计算,结合XGBoost算法,从Flory-HugginsChi数据库学习化合物A和B之间的χ参数。训练结果显示,使用训练集预测准确率为0.937,测试集为0.778。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

从两个分子的描述符中创建特征,学习与相互作用参数 χ 的关系

目标和方法

使用 J-OCTA 机器学习功能(MI-Suite)来估计 χ 参数。使用的数据来自 Flory-Huggins Chi 数据库。获取的数据包括两个化合物 A 和 B 的名称以及它们之间的 χ 参数值。数据量为 263。学习/预测 χ 参数的过程如下:

χ 参数学习/预测过程

  1. 从公共化合物数据库 PubChem 获取每种化合物的 SMILES 表示法。 使用 MI-Suite 的数据获取功能 DB-Explorer 获取。使用 MI-Suite 的数据采集功能 DB-Explorer 获取数据。只有同时获得 A 和 B 的 SMILES 表达式的化合物对(169 个)才会被使用。
  2.  使用描述符计算功能 ChemDC 计算每个化合物的描述符值和 AutoCorr2D。
  3. 根据原始数据中对化合物的描述,将计算出的描述符值进行混合,以创建单一特征。
  4. 使用的混合方案是定量地理学中使用的混合方案,因为描述符(AutoCorr2D)可视为空间自相关量。
  5. 训练以混合计算的特征为输入值,以每对化合物的 χ 参数为目标值。

学习的设置如下:

  1. 在 MI-Suite 的学习功能所支持的学习方法中,我们使用了 XGBoost,这是一种基于提升的学习方法。XGBoost 的超参数设置基于 GP(高斯过程),以获得最佳参数设置。
  2. 离群点的去除是在第 90 个百分点(两侧)进行的。
  3. 在训练过程中,训练集和测试集的数据比例为 8:2。

结果

以下是训练结果。

对于通过训练获得的预测模型(即学得的模型),使用训练集时的预测准确率为 R^2=0.937,而使用测试集时的预测准确率为 R^2=0.778。

(文章来源:转载自J-Octa官网)

相关产品链接:http://www.anscos.com/jocta.html

如需更多技术咨询,请随时与我们联系:

全国热线:400 633 6258

官方邮箱:info@anscos.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值