摘要
药物发现是生物医学自然语言处理(NLP)中的一项关键任务,然而可解释的药物发现仍有待深入探索。与此同时,大语言模型(LLMs)在自然语言理解和生成方面展现出了卓越的能力。利用大语言模型进行可解释的药物发现,有望改进下游任务和实际应用。在本研究中,我们利用开源药物知识图谱、临床试验数据和PubMed出版物,构建了一个用于可解释药物发现任务的综合数据集,名为expRxRec。此外,我们引入了KEDRec-LM,这是一个经过指令调优的大语言模型,它从丰富的医学知识语料库中蒸馏知识,用于药物推荐和给出推荐理由。为了鼓励该领域的进一步研究,我们将公开数据集和KEDRec-LM。
引言
药物发现的复杂性在于理解药物与疾病之间错综复杂的关系,这使得识别潜在的治疗用途成为一项具有挑战性且资源密集型的工作。近年来,大规模生物医学知识图谱的出现,如药物再利用知识图谱(DRKG),通过连接大量生物医学实体和关系,推动了该领域的显著进展。这些结构化数据库涵盖了药物相互作用、疾病关联和生物途径等丰富信息。然而,要充分利用这些信息进行药物发现,尤其是药物再利用,需要有效的方法来提取有意义的见解,以指导治疗推理。
随着生物医学文献的迅速增长,特别是在像PubMed这样的数据库中,