从两个分子的描述符中创建特征,学习与相互作用参数 χ 的关系
目标和方法
使用 J-OCTA 机器学习功能(MI-Suite)来估计 χ 参数。使用的数据来自 Flory-Huggins Chi 数据库。获取的数据包括两个化合物 A 和 B 的名称以及它们之间的 χ 参数值。数据量为 263。学习/预测 χ 参数的过程如下:
χ 参数学习/预测过程
- 从公共化合物数据库 PubChem 获取每种化合物的 SMILES 表示法。 使用 MI-Suite 的数据获取功能 DB-Explorer 获取。使用 MI-Suite 的数据采集功能 DB-Explorer 获取数据。只有同时获得 A 和 B 的 SMILES 表达式的化合物对(169 个)才会被使用。
- 使用描述符计算功能 ChemDC 计算每个化合物的描述符值和 AutoCorr2D。
- 根据原始数据中对化合物的描述,将计算出的描述符值进行混合,以创建单一特征。
- 使用的混合方案是定量地理学中使用的混合方案,因为描述符(AutoCorr2D)可视为空间自相关量。
- 训练以混合计算的特征为输入值,以每对化合物的 χ 参数为目标值。
学习的设置如下:
- 在 MI-Suite 的学习功能所支持的学习方法中,我们使用了 XGBoost,这是一种基于提升的学习方法。XGBoost 的超参数设置基于 GP(高斯过程),以获得最佳参数设置。
- 离群点的去除是在第 90 个百分点(两侧)进行的。
- 在训练过程中,训练集和测试集的数据比例为 8:2。
结果
以下是训练结果。
对于通过训练获得的预测模型(即学得的模型),使用训练集时的预测准确率为 R^2=0.937,而使用测试集时的预测准确率为 R^2=0.778。
(文章来源:转载自J-Octa官网)
相关产品链接:http://www.anscos.com/jocta.html
如需更多技术咨询,请随时与我们联系:
全国热线:400 633 6258
官方邮箱:info@anscos.com