自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

专注生信领域

多组学数据分析、数理统计、机器学习、SCI科研绘图

  • 博客(986)
  • 收藏
  • 关注

原创 数据分析:转录组差异分析方法总结(DESeq2+limma+edgeR+t-test/wilcox-test)

本文详细探讨了转录组数据分析中常用的差异分析R包(如DESeq2、limma和edgeR)及其与t-test/wilcox-rank-sum test的结合使用。文章首先介绍了如何下载和导入测试数据,并批量安装所需的R包。接着,讨论了基因表达count矩阵的标准化方法(如FPKM、TPM等),以及如何通过PCA、tSNE、UMAP和热图等方法进行基因整体水平分布的可视化。随后,文章分别展示了DESeq2、limma和edgeR的差异分析实现及结果解析,并探讨了结合t-test或wilcox-rank-sum

2023-07-17 11:01:18 24935 2

原创 【数据分析】R语言深入探索生物传感器数据的可视化与异质性分析

我们通过一系列数据分析步骤,深入探讨了生物传感器数据的可视化和异质性分析。通过对实验数据的预处理、可视化处理和异质性分析,我们揭示了生物传感器在不同条件下的响应模式,并评估了数据的可重复性。这些分析结果为我们理解生物传感器在复杂生物环境中的动态行为提供了重要的线索。

2026-01-02 00:45:00 247

原创 【数据分析】R语言基于高斯混合模型与多参数聚类的亚群识别与表征

本研究系统地表征了微生物发酵中的细胞异质性现象,建立了分析框架,并揭示了其与产物合成的关联。这些成果不仅加深了我们对微生物群体行为的理解,也为发酵工程的实际应用提供了新思路和新工具。随着单细胞技术的不断进步,类似的精细分析将成为发酵优化和合成生物学研究的标准方法,推动整个领域向更精准、更高效的方向发展。

2026-01-02 00:30:00 19

原创 【数据分析】基于R语言的聚类、时间序列及生存率分析在生物传感器数据中的应用

通过上述代码的运行,我们得到了一系列丰富的数据分析结果。这些结果不仅包括了不同实验条件下的细胞响应模式,还包括了时间序列分析、生存率分析和再生长动力学分析的结果。通过这些分析,我们能够更深入地理解生物传感器在不同实验条件下的响应特性。在聚类分析中,我们通过`mclust`包将细胞分为不同的亚群,并进一步分析了这些亚群的特征。通过时间序列分析,我们观察到了不同细胞在不同时间点的pH值变化。通过生存率分析,我们评估了不同处理条件对细胞存活的影响。通过再生长动力学分析,我们评估了不同处理条件对细胞再生长的影响

2026-01-01 00:30:00 156

原创 【数据分析】R语言多元统计方法探索生物传感器数据分析与可视化教程

通过上述代码的运行,我们得到了一系列丰富的数据分析结果。这些结果不仅包括了不同实验条件下的平均信号和标准误差,还包括了回归分析的结果和显著性检验的结果。通过这些分析,我们可以更深入地理解不同实验条件下生物传感器的响应特性。

2026-01-01 00:15:00 144

原创 【文献分享】ADMGCN:采用元学习模式的图卷积网络用于阿尔茨海默病诊断

阿尔茨海默病(AD)是一种神经退行性疾病,其特征为记忆力丧失和认知能力下降。由于图卷积网络(GCN)能够处理结构信息并融合多模态特征,因此在 AD 诊断方面已成为颇受欢迎的工具。然而,深度学习方法面临着诸多挑战,包括需要大量数据集以及对 AD 研究中标签分布的不均衡性敏感。为了解决这些限制并增强 GCN 的灵活性,我们提出了一种基于元学习范式的图卷积网络(ADMGCN)用于早期 AD 诊断。该方法通过加权和降维来提高性能、存储效率和训练效率。通过利用元学习,我们对受试者进行采样以创建众多标签均衡的任务,从而

2025-12-31 08:45:05 1017

原创 【文献分享】MetaMDA:利用微生物-代谢物-药物异质网络中的随机游走实现微生物-药物关联的可解释预测

与人类共生的微生物在生理过程和疾病发展(包括癌症)中起着关键作用。预测微生物-药物关联(MDA)能够促进药物研发和个性化医疗。然而,现有的方法无法预测那些未包含在已标注数据中的微生物或药物的关联,并且它们也无法模拟微生物与药物之间潜在的生物学机制。为了解决这些局限性,我们提出了一种新颖的计算框架,名为 MetaMDA,用于通过在微生物-代谢物-药物异构网络上进行随机游走来预测 MDA。MetaMDA 首先构建一个整合了微生物、代谢物和药物的异构图,从而能够模拟复杂的生物学相互作用。随后,应用具有定制转移概率

2025-12-31 08:43:03 1046

原创 【文献分享】PepQueryMHC:基于免疫肽组学数据实现肿瘤抗原的快速全面筛选

确定 MHC 结合肽的肿瘤特异性对于癌症免疫疗法的发展至关重要,但目前的方法在处理 II 类肽和非参考序列方面存在困难。我们推出了 PepQueryMHC 这一超快速工具,它将 MHC 结合肽序列与转录的 RNA 测序读数相结合,以实现对肿瘤抗原的高效优先排序。我们展示了其在优先排序 I 类和 II 类肿瘤抗原、确定呈递肽的细胞来源以及解决有关蛋白酶体剪接肽的流行程度的不确定性方面的灵活性。

2025-12-26 08:42:56 538

原创 【科研绘图系列】R语言绘制人口变迁散点图(scatter plot)

人口增长史是一部波澜壮阔的史诗,反映了国家在不同历史阶段的发展模式和面临的挑战。从早期的移民驱动,到中期的自然增长主导,再到现代的移民与自然增长并重,美国人口增长的驱动力发生了深刻变化

2025-12-26 00:15:00 175

原创 【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

在本研究中,我们推出了 SHICEDO 这一新型深度学习模型,其专门用于通过生成对抗框架来填补缺失或稀疏捕捉到的染色质联系中的空白,从而增强 scHi-C 联系矩阵。SHICEDO 利用 scHi-C 矩阵的独特结构特征来提取定制特征,从而实现有效的数据增强。此外,该模型还采用了通道级注意力机制,以缓解 scHi-C 增强方法中常见的过度平滑问题。通过模拟和实际数据应用,我们证明 SHICEDO 比现有最先进的方法表现更优,取得了更出色的定量和定性结果。此外,SHICEDO 增强了 scHi-C 数据中的关

2025-12-25 08:37:19 931

原创 【数据分析】宿主-微生物相互作用中的代谢适应性--以纤毛虫相关MAGs为例的深入分析

本研究通过对纤毛虫相关MAGs的深入分析,揭示了宿主-微生物相互作用中的代谢适应性模式。研究发现,共生微生物在代谢适应性上表现出明显的进化趋势,包括基因组简化、代谢复杂性降低和特定代谢途径的增强。此外,TA系统在共生微生物的稳定性和宿主适应性中发挥着关键作用。这些发现为理解宿主-微生物相互作用提供了新的视角,并为未来的研究提供了重要的参考。未来的研究可以进一步探索这些代谢适应性模式的分子机制,以及它们在不同生态系统中的普遍性和特异性。

2025-12-25 00:30:00 424

原创 【数据分析】微生物组学研究中从数据预处理到结果展示

本文通过一个完整的案例,展示了微生物组学研究中系统发育分析和可视化的流程。从数据预处理、系统发育树的构建与可视化,到数据分析和结果展示,每一步都为研究人员提供了清晰的操作指南。通过这一流程,研究人员能够更好地理解微生物群落的结构和功能,为后续的研究提供了有力的支持。

2025-12-24 00:30:00 236

原创 【数据分析】微生物组学研究中的多组学数据分析--从数据预处理到可视化

本文通过一个完整的案例,展示了微生物组学研究中多组学数据的分析流程。从数据的下载、预处理、处理与分类,到数据过滤与统计分析,再到最终的可视化展示,每一步都为研究人员提供了清晰的操作指南。通过这一流程,研究人员能够更好地理解微生物群落的结构和功能,为后续的研究提供了有力的支持。在实际应用中,这一流程可以根据具体的研究需求进行调整和优化,以满足不同的分析目标。

2025-12-24 00:15:00 158

原创 【科研绘图系列】R语言绘制多种论文图形(multiple plots)

这篇文章通过R语言及其相关包,对浮游生物的数据进行了详细的分析和可视化。项目涵盖了浮游生物的生态特征、生长参数、营养吸收参数、损失项参数以及摄食关系等多个方面的分析。通过合理的数据处理和有效的可视化方法,生成了一系列直观且信息丰富的图表,为浮游生物生态学的研究提供了有力的支持。这些分析结果不仅有助于深入理解浮游生物的生态过程和功能,还可以为海洋生态模型的构建和生态系统管理提供重要的参考。

2025-12-23 00:30:00 31

原创 【数据分析】基于多组学数据整合的微生物与宿主互作网络构建及可视化分析

综上所述,本教程通过详细的步骤和方法,展示了如何整合微生物群落数据、宿主基因表达数据和代谢组数据,构建微生物与宿主互作网络,并进行可视化分析。这种方法为研究微生物与宿主之间的复杂关系提供了一种有力的工具,有助于推动相关疾病的研究和治疗。然而,在实际应用中,需要注意数据处理和分析过程中的各种问题,并结合实验验证来提高研究结果的可靠性和科学性。未来,随着多组学技术的不断发展和完善,以及数据分析方法的创新,相信我们能够更深入地理解微生物与宿主之间的互作机制,为疾病的预防、诊断和治疗提供更有力的支持。

2025-12-23 00:15:00 157

原创 【文献分享】ENTRAP-seq植物细胞中转录调节因子的多重分析

转录调控因子在植物的生长、发育以及对环境的响应中起着关键作用;然而,由于缺乏能够在植物体内大规模表征蛋白质库的多重检测方法,我们对于其调控活性在蛋白质层面的编码机制的理解一直受到阻碍。在此,我们提出了在植物中利用测序的核转录元件报告测定法(ENTRAP-seq)来实现蛋白质库的富集,这是一种高通量方法,它将蛋白质编码库引入植物细胞,以驱动一种基于核磁分离的报告器,从而能够对数千种蛋白质变体的调控活性进行多重测量。通过使用 ENTRAP-seq 和机器学习,我们筛选了 1495 种植物病毒,并鉴定出了数百个存

2025-12-22 08:44:05 761

原创 【文献分享】vConTACT3机器学习能够实现可扩展且系统的病毒分类体系的构建

尽管病毒生态基因组学扩大了对病毒世界的探索范围和理解程度,但现有的分类工具在分类学分辨率方面存在不足,无法适用于现代基于发现的数据集或对先前未知的序列空间进行分类。在此,我们开发了 vConTACT3——一个基于机器学习的工具,它提高了病毒分类的可扩展性和准确性。通过优化基因共享阈值并利用适应性的、特定领域的分界线,vConTACT3 扩展了分类范围,涵盖了六个正式认可的领域中的四个,对真核和原核病毒进行了分类,并建立了从属属到属的准确层次分类体系。具体而言,vConTACT3 在 35,545 个公共原核

2025-12-22 08:40:39 927

原创 【文献分享】PROTRIDER利用条件自编码器从基于质谱的蛋白质组学数据中检测蛋白质丰度异常值

对基因调控异常的检测能够增强我们解读遗传和获得性基因变异对罕见疾病诊断和肿瘤特征的影响的能力。尽管已有众多方法可用于从 RNA 测序数据中识别 RNA 表达的异常值,但利用质谱数据从其中识别蛋白质表达的异常值却尚未实现。在此,我们提出并评估了多种建模方法,以在三个来自罕见疾病诊断和肿瘤学的数据集上识别蛋白质表达的异常值。我们以独立证据的形式使用匹配的 RNA 测序样本中异常值的富集情况以及可能破坏蛋白质表达的罕见变异的富集情况。我们表明,在控制隐藏的混杂因素和技术协变量的同时,同时对缺失值的发生情况进行建

2025-12-19 00:45:00 1095

原创 【文献分享】DeconvBenchmark一种强大的工作流程,用于评估多组学数据的去卷积分析效果

肿瘤的异质性对癌症的发展和治疗反应有着显著影响,但从整体分子数据中对其进行量化仍颇具挑战性。解混算法(用于估算总体样本中细胞类型的比例)提供了一种潜在的解决方案。然而,对于转录组或甲基化组数据而言,关于最优算法的共识尚未形成。在此,我们提出了一个无偏的评估框架,用于对两种组学类型(包括基于参考的和无参考的方法)的解混算法进行首次全面比较。我们的评估涵盖了原始性能、稳定性和计算效率,在各种条件下(如基因依赖性、缺失或额外的细胞类型以及多样化的样本组成)均进行了考量。我们将此框架应用于多个基准数据集,包括为本

2025-12-19 00:15:00 2052

原创 【文献分享】High frequency提供了代码和数据

冰川湖溃决洪水(GLOF)是山区面临的一大灾害,但关于其频率在近几十年内是否有所增加以及这种趋势与气候变化之间的关联程度,仍存在相当大的不确定性。在此,我们基于冰碛湖溃决洪水这一新视角,对全球 1900 年至 2020 年期间的 609 起事件进行了分析。历史报告和地貌学证据提供的信息表明,在 20 世纪 70 年代之前,全球报告的 GLOF 频率呈现低但波动上升的趋势。然而,自 20 世纪 80 年代以来,这一趋势显著加速,1981 年至 1990 年期间的年均 GLOF 数量为 5.2 起,而 2011

2025-12-18 00:45:00 1661

原创 【文献分享】CellWhisperer多模态学习使得基于对话的方式能够对单细胞数据进行探索

单细胞测序能够以前所未有的规模和细节对生物样本进行特征描述,但数据解读仍颇具挑战性。在此,我们推出了“CellWhisperer”,这是一种基于对话的基因表达查询的人工智能(AI)模型和软件工具。我们通过对比学习对 100 万个 RNA 测序数据集与由 AI 管理的描述建立了转录组及其文本注释的多模态嵌入。这个嵌入为一个大型语言模型提供了信息,该模型能够通过自然语言对话回答关于细胞和基因的问题。我们对 CellWhisperer 在零样本预测细胞类型和其他生物学注释方面的性能进行了基准测试,并展示了其在人类

2025-12-18 00:30:00 1323

原创 【文献分享】RAMEN:剖析脐带血中 DNA 甲基化组差异的个体、累加及交互基因-环境因素作用

基因变异和环境因素是导致个体间 DNA 甲基化差异的主要因素。然而,个体、相加效应以及交互作用的基因-环境效应的普遍性及其在基因组中的分布情况仍不清楚。我们推出了 RAMEN 这个 R 软件包,它利用机器学习和统计技术来剖析基因组-暴露组对微阵列变甲基化位点的影响。通过对 CHILD 和 PREDO 项目的脐带血样本(总样本数为 1662 个)进行分析,我们发现基因变异是导致 DNA 甲基化差异的关键因素,通常与环境因素以相加和交互的方式结合存在。我们还提供了一份详细的脐带血变甲基化位点目录以及这些位点变异

2025-12-17 00:30:00 1766

原创 【科研绘图系列】R语言绘制多种类型图形(heatmap boxplot linechart)

科研图不必“一图一结论”,而可以“一图四视角”——热力图给全景,箱线图给统计,折线图给趋势,箭头给异常;颜色、字体、留白、比例统一,读者才能“一眼被说服”。这张《RSV 的季节脉搏》正是用极简视觉语言,讲清了病毒在日本列岛如何踩着气候鼓点完成一年一度的南北漂移。

2025-12-17 00:15:00 243

原创 【文献分享】Novae:一种基于图结构的空间转录组学数据基础模型

空间转录组学通过提供有关组织内基因表达的高分辨率信息,推动了分子生物学的发展。这种情境对于识别空间区域至关重要,有助于理解微环境的组织结构及其对组织功能和疾病进展的影响。为了改善当前在多张切片上的模型局限性,我们设计了 Novae,这是一个基于图的基础模型,能够提取细胞在其空间情境中的表示。我们的模型基于近 3000 万个细胞的数据集(涵盖 18 种组织),能够在多个基因面板、组织和技术之间进行零样本域推断。与其他模型不同,它还能够原生地纠正批次效应,并构建空间区域的嵌套层次结构。此外,Novae 支持各种

2025-12-16 08:51:16 909

原创 【文献分享】COSIME:具有可扩展性和可解释性模型解释器的协同多视角整合

单组学方法往往只能对复杂的生物系统提供有限的视角,而多组学整合则能够通过整合各种数据视角来实现更全面的理解。然而,整合不同类型的异质数据以及解析生物特征(包括同一视角和不同视角之间)之间的复杂关系仍然是一个重大挑战。在此,为应对这些挑战,我们引入了 COSIME(具有可扩展性和可解释模型解释器的协同多视角整合)。COSIME 将可学习的最优传输算法的反向传播应用于深度神经网络,从而能够从多个视角学习潜在特征以预测疾病表型。它还结合了蒙特卡罗抽样,以便能够对同一视角和不同视角内的特征重要性和两两特征相互作用进

2025-12-16 08:48:14 698

原创 【科研绘图系列】R语言绘制图连线和面积图(line chart & area plot)

此脚本通过分析PETM期间的植被动态,揭示了气候生态位宽度和性状适应能力对植被生物量、土壤碳储量和硅酸盐风化速率的影响。这些发现对于理解古气候变化对生态系统的影响具有重要意义,也为预测未来气候变化对生态系统的潜在影响提供了参考。脚本采用了系统化的数据分析方法,通过分组统计和可视化分析,清晰地展示了不同条件下的动态变化。使用`ggplot2`包创建的图表具有高度的可读性和美观性,能够有效地传达复杂的数据信息。

2025-12-05 09:04:33 204

原创 【文献分享】LimROTS:经验贝叶斯方法和可重复性优化统计方法的混合技术用于稳健的差异表达分析

差异表达分析在组学研究中起着至关重要的作用,能够精确识别与不同表型相关的特征。这一过程对于揭示不同状态(如疾病与健康状态)之间的生物学差异至关重要。在蛋白质组学领域,已使用了多种统计方法,从简单的 t 检验到更先进的方法如 DEqMS、limma 和 ROTS。然而,一直缺乏一种针对临床组学数据、可实现可重复性优化的统计方法。

2025-12-04 08:29:12 1149

原创 【数据分析】宏基因组数据分析十:基因集富集分析

本教程代码为分析实验数据提供了一套完整的解决方案,涵盖了酶活性测定、细胞实验、RNA-seq差异表达分析、功能富集分析、单细胞RNA-seq数据可视化以及基因集富集分析等多个方面。代码通过加载和处理相应的数据,生成了多种高质量的可视化图表,包括酶活性条形图、细胞活性折线图、火山图、功能富集条形图、单细胞表达热图和点图以及GSEA富集图,直观地展示了分析结果。这些分析帮助研究人员理解微生物酶在结直肠癌中的作用及其潜在机制。

2025-12-04 00:45:00 182

原创 【数据分析】宏基因组数据分析九:gmGUSs与代谢物/KO项之间的相关性

本教程代码为分析肠道微生物β-葡萄糖醛酸酶(gmGUSs)与代谢物/KEGG Orthology(KO)项在结直肠癌(CRC)不同阶段的相关性提供了一套完整的解决方案。代码通过计算gmGUSs与代谢物/KO项之间的相关性、生成网络输入文件、进行功能富集分析以及生成其他可视化图表,揭示了微生物群落结构与功能在CRC发展过程中的变化。代码利用R语言的强大功能,生成了多种高质量的可视化图表,包括相关性网络、功能富集分析结果、Venn图和点图,直观地展示了分析结果。尽管代码具有数据依赖性和计算资源需求较高的局限性,

2025-12-03 00:45:00 173

原创 【数据分析】宏基因组数据分析八:物种相关性分析

本教程代码为分析肠道微生物β-葡萄糖醛酸酶(gmGUSs)与细菌物种在结直肠癌(CRC)不同阶段的相关性提供了一套完整的解决方案。代码通过计算物种的组内统计量、分析gmGUSs与物种之间的相关性、构建网络分析以及进行功能富集分析,揭示了微生物群落结构与功能在CRC发展过程中的变化。代码利用R语言的强大功能,生成了多种高质量的可视化图表,包括相关性矩阵、网络图、条形图和点图,直观地展示了分析结果。尽管代码具有数据依赖性和计算资源需求较高的局限性,但它仍然是一个功能强大、易于使用的工具,适用于需要对微生物群落进

2025-12-03 00:15:00 319

原创 【数据分析】宏基因组数据分析七:森林图分析

本教程代码为构建和评估GUSscore模型提供了一套完整的解决方案,涵盖了从数据加载到模型训练、特征选择、模型评估以及外部验证的各个环节。代码通过Boruta算法进行特征选择,确保了特征选择的稳定性和可靠性。通过Cox比例风险回归和LASSO回归,代码构建了一个能够有效预测CRC患者生存结果的风险评分模型。通过生存曲线、时间依赖的ROC曲线等多种可视化手段,代码展示了模型的预测性能和稳定性。在外部验证部分,代码将模型应用于独立的外部队列数据,验证了模型在不同数据集上的稳定性和有效性。尽管代码具有数据依赖性和

2025-12-02 00:45:00 185

原创 【数据分析】宏基因组数据分析六:构建随机森林分类器

本教程代码为构建和评估随机森林分类器提供了一套完整的解决方案,涵盖了从数据加载到模型训练、特征选择、模型评估以及外部验证的各个环节。代码通过Boruta算法进行特征选择,确保了特征选择的稳定性和可靠性。通过多次运行随机森林模型,并进行交叉验证和ROC曲线分析,代码评估了模型的准确性和泛化能力。此外,代码还提供了变量重要性图,帮助研究人员理解哪些特征对模型的分类决策起到了关键作用。在外部验证部分,代码将训练好的模型应用于三个独立的外部队列,验证了模型在不同人群中的性能。在多类别分类部分,代码扩展了随机森林模型

2025-12-02 00:15:00 400

原创 【数据分析】宏基因组数据分析五:肠道微生物分析

本教程代码为肠道微生物β-葡萄糖醛酸酶(gmGUSs)的差异丰度分析提供了一套完整的解决方案,涵盖了从数据加载到复杂图表绘制的整个流程。代码通过执行差异丰度分析、生成Venn图、系统发育树可视化、独立队列验证以及混杂因素分析,帮助研究人员理解gmGUSs在不同健康状态下的变化。代码利用R语言的强大功能,生成了多种高质量的可视化图表,包括热图、小提琴图、Venn图和箱线图,直观地展示了分析结果。尽管代码具有数据依赖性和计算资源需求较高的局限性,但它仍然是一个功能强大、易于使用的工具,适用于需要对微生物群落进行

2025-12-01 00:30:00 294

原创 【数据分析】宏基因组数据分析四:物种差异分析

本教程代码为微生物群落的物种水平分析提供了一套完整的解决方案,涵盖了从数据加载到复杂图表绘制的整个流程。代码通过计算物种水平的累积丰度和数量,执行差异丰度分析,并对拷贝数变异(CNV)进行可视化,帮助研究人员理解微生物群落结构在不同健康状态下的变化。代码利用R语言的强大功能,生成了多种高质量的可视化图表,包括热图、小提琴图和箱线图,直观地展示了分析结果。尽管代码具有数据依赖性和计算资源需求较高的局限性,但它仍然是一个功能强大、易于使用的工具,适用于需要对微生物群落进行深入分析的研究人员,能够为他们的研究提供

2025-12-01 00:00:00 181

原创 【数据分析】宏基因组数据分析二:循环类别分析

本教程代码为基因组片段(gmGUS)的循环类别分析提供了一套完整的解决方案。通过合理的数据准备和代码运行,研究人员可以快速地获得循环类别的分布、丰度差异以及分类组成的可视化结果,从而更好地理解基因组片段在不同生物学条件下的变化。代码涵盖了从数据加载到复杂图表绘制的整个流程,利用R语言的强大功能,生成了多种高质量的可视化图表,包括长度分布图、分类饼图、小提琴图等,直观地展示了分析结果。

2025-11-30 00:15:00 198

原创 【数据分析】宏基因组数据分析三:alpha多样性分析

本教程代码为微生物群落多样性分析提供了一套完整的解决方案,涵盖了从数据加载到复杂图表绘制的整个流程。代码通过计算样本间的Bray-Curtis不相似度和进行PERMANOVA检验,评估了不同健康状态下的β多样性差异,并通过PCoA图直观地展示了样本的聚类情况。此外,代码还计算了样本内的α多样性,包括总丰度和丰富度,并通过小提琴图和箱线图展示了不同组别间的差异。代码利用R语言的强大功能,生成了多种高质量的可视化图表,帮助研究人员理解微生物群落结构在不同健康状态下的变化。

2025-11-30 00:15:00 204

原创 【数据分析】宏基因组数据分析一:稀疏曲线

本教程代码为gmGUS多样性分析和可视化提供了一种有效的解决方案。通过合理的数据准备和代码运行,研究人员可以快速地获得稀释曲线和物种分布图等可视化结果,从而更好地理解微生物群落的多样性特征。然而,随着微生物组学研究的不断发展,数据规模和复杂性不断增加,未来需要进一步优化代码的性能,提高其对大规模数据集的处理能力。同时,结合交互式可视化技术,开发具有交互功能的图表,将有助于研究人员更深入地探索数据,发现隐藏在数据中的生物学规律。

2025-11-29 15:26:14 157

原创 【文献分享】scKGBERT:一种基于知识增强的单细胞转录组学基础模型

单细胞转录组学能够精确地对细胞的异质性进行表征,但目前仅依赖表达数据的预训练模型无法捕捉基因之间的关联。我们提出了 scKGBERT,这是一种知识增强的基础模型,它整合了 4100 万个单细胞 RNA 测序数据和 890 万个蛋白质 - 蛋白质相互作用数据,以共同学习基因和细胞的表示。scKGBERT 采用高斯注意力机制来突出关键基因,并提高生物标志物的识别能力,在基因注释、药物反应和疾病预测任务中实现了卓越的性能。scKGBERT 提高了生物学的可解释性,并为精准医疗和疾病机制发现提供了强大的资源。

2025-11-29 14:45:28 592

原创 代谢组数据分析(三十一):空间代谢组学分析从数据加载到通路分析的流程解析

空间代谢组学是一种先进的技术,能够在组织切片上以高分辨率检测代谢物分布,为理解生物代谢过程提供新视角。其分析流程包括数据获取、预处理、代谢物注释、差异表达分析、可视化、通路分析、聚类分析及空间相关代谢物分析等关键步骤。这些步骤帮助研究人员从海量数据中提取有价值信息,揭示代谢物的空间分布规律,发现潜在生物标志物,探索代谢通路调控机制。例如,SpaMTP等工具为全流程分析提供了强大支持,助力研究人员高效处理数据,深入理解代谢过程,为生物学研究和临床应用提供重要依据。

2025-11-29 14:40:33 426

原创 【数据工程实战】八:全球范围内疫苗的差异情况之效性研究的元回归分析

本研究通过系统的元回归分析,揭示了COVID-19疫苗有效性在不同病毒变异株和不同经济水平国家中的变化模式。

2025-11-27 00:45:00 164

### 【生物信息学】基于R语言的STAMP图绘制:宏基因组数据分析与可视化

内容概要:本文介绍了如何使用R语言绘制STAMP图(STAMP Plot),这是一种用于宏基因组数据分析的统计图表。STAMP图能够展示不同组别间的效应大小、置信区间及统计显著性。文中详细描述了数据准备、T检验结果生成、画图数据准备以及最终图表的绘制过程。具体步骤包括加载必要的R包、导入和预处理数据、进行T检验以生成p值,并使用ggplot2库绘制STAMP图的三个主要部分:左侧的组间均值条形图、中间的组间差异检验结果图(T检验结果)和右侧的T检验p值图。最后,通过patchwork包将这三个图形拼接成一个完整的STAMP图。 适合人群:具备一定R语言编程基础,对生物信息学和宏基因组数据分析感兴趣的科研工作者。 使用场景及目标:①理解宏基因组数据分析中STAMP图的作用及其组成部分;②掌握如何用R语言实现STAMP图的绘制,包括数据预处理、统计分析和可视化。 其他说明:此文档仅限于个人自学使用,禁止商业或二次转载。文中使用的示例数据来自著名的鸢尾花数据集(iris),并且提供了详细的代码解释,帮助读者更好地理解和实践。此外,文档还提及了如何调整图表的主题和样式,以确保最终输出与STAMP软件的结果一致。

2025-04-20

### 数据科学R语言基础图形合集:科研绘图指南与实现

内容概要:本文档是关于R语言的基础图形合集,详细介绍了多种常见图形的绘制方法及其应用场景。文档首先强调了图形可视化在数据分析中的重要性,指出R语言作为统计学家为解决统计问题而开发的语言,在数据可视化方面具有显著优势。随后,文档依次讲解了散点图、直方图、箱线图、面积图、热图、相关图、折线图、韦恩图、火山图、饼图、密度曲线图、边界散点图、边缘箱图/直方图、拟合散点图、相关系数图、水平发散型文本、水平棒棒糖图、去棒棒糖图、时间序列图、堆叠面积图、分层树形图、聚类图、气泡图、小提琴图、核密度图、柱状图、连接散点图、二维密度图、条形图、雷达图、词云、平行坐标图、棒棒糖图、循环条形图、分组堆积图、矩形树图、圆圈图、系统树图、圆形图、分组线条图、面积图、面积堆积图、Streamgraph等多种图形的绘制方式,并提供了相应的代码示例。 适用人群:适用于具有一定编程基础的数据分析师、科研人员以及对R语言感兴趣的自学者。 使用场景及目标:①帮助读者理解不同类型图形的特点及适用场景;②通过实际案例和代码示例,指导读者如何利用R语言进行数据可视化;③提升读者的数据分析能力,使其能够根据具体问题选择合适的可视化工具和技术。 其他说明:本文档仅用于自学,禁止任何形式的商业或二次转载,如需引用部分内容,请联系作者获取授权。文档内容丰富详实,不仅涵盖了图形绘制的基本语法,还深入探讨了图形设计的原则和技巧,旨在帮助读者掌握R语言图形可视化的精髓。

2025-04-20

科研绘图R语言ggpubr包在数据可视化中的应用:多种图表类型与统计分析整合

内容概要:本文档介绍了R语言中的ggpubr包,该包作为ggplot2的一个扩展工具,旨在简化科研绘图过程并提供更直观的绘图方式。文档详细讲解了ggpubr包的安装方法、数据准备以及多种类型的图表绘制,包括密度图、柱状图、箱线图、小提琴图、点图、有序条形图、偏差图、棒棒糖图、散点图、气泡图、连线图和二维密度图等。特别强调了stat_compare_means函数的应用,它可以进行假设检验并将结果直接展示在图形上,极大地方便了科研人员和数据分析师的工作。 适合人群:具备一定R语言基础并希望提高科研绘图能力的研究人员、数据分析师和学生。 使用场景及目标:①学习如何利用ggpubr包快速高效地创建高质量的科研图表;②掌握不同类型图表的绘制方法及其应用场景;③理解如何通过图形直观展示数据差异及统计检验结果,提升数据分析和报告的质量。 其他说明:文档禁止商业或二次转载,仅供自学使用。在学习过程中,建议读者跟随示例代码进行实践操作,同时结合实际研究需求调整参数,以达到最佳的绘图效果。此外,文档提供了多种图表组合的方式,如边沿图、混合图表等高级技巧,帮助用户创建更加复杂和美观的可视化作品。

2025-04-20

科研绘图基于ggplot2的箱线图绘制:带有出现率百分比的多组别数据分布比较及可视化

内容概要:本文介绍了如何使用ggplot2包绘制带有出现率百分比的箱线图,并展示了三种不同风格的箱线图:普通ggplot2风格、prism风格以及网格状箱线图。首先,箱线图能提供数据的中位数、四分位数、异常值、最小值和最大值及偏斜性等信息,非常适合比较不同组别的数据分布。文章以鸢尾花数据集为例,详细讲解了绘制箱线图的具体步骤,包括加载R包、导入数据、处理数据并计算每个分组中Sepal.Length指标的出现率。接着,通过ggplot2的函数逐步构建箱线图,如geom_boxplot()、stat_boxplot()、geom_point()等,最后对图表进行美化,如调整坐标轴、添加文本标签、设置点大小比例尺等。此外,还介绍了如何使用ggprism包实现prism风格的箱线图,以及patternplot包创建网格状箱线图,以满足不同场景下的可视化需求。 适合人群:具备一定R语言基础,从事生物信息学或数据分析的研究人员。 使用场景及目标:①科研工作者需要展示不同组别数据分布特征时;②希望将R绘图与Prism软件中的数据可视化风格统一;③需要创建网格状箱线图来直观比较多个组别或条件下的数据分布。 阅读建议:由于涉及到较多R代码细节,在阅读过程中应结合实际操作练习,理解每个函数的作用及其参数配置,同时注意代码中的注释说明。

2025-04-20

科研绘图领域:tidyplots包替代ggplot2实现高效美观的论文图表制作

内容概要:本文介绍了R语言中的新工具——tidyplots,它是新一代的科研绘图包,旨在简化科研用图表的创建流程,提供了一套更加简洁直观且高效的语法。与传统的ggplot2相比,在生成用于科学研究和学术出版物级别的图形方面,tidyplots拥有更高的灵活性。文中不仅详细解释了如何安装此软件包(包括正式发布版本与开发者分支),而且列举了很多具体的实例来展示不同的绘图方法及其效果,如添加均值线段图、堆叠柱状图等各类高级操作,并探讨了几种常见的颜色搭配技巧。 适合人群:对于希望通过R编程快速生成高质量统计图的研究工作者来说是非常实用的内容,特别有助于那些从事自然科学领域研究并且需要频繁进行数据分析汇报的人群。 使用场景及目标:当研究人员想要利用R环境绘制精准、精美的数据分布特征图时,可以考虑采用这个强大而灵活的新款作图工具代替旧有选项。无论是在撰写期刊文章还是参与研讨会演示过程中,都能借助tidyplots构建符合行业标准的专业图表,提高成果展示的效果和说服力。 其他说明:推荐感兴趣的读者进一步访问官方提供的帮助文档,了解更多细节和技术内幕。此外还附上了几个关键链接以便于后续查阅资料以及

2025-03-25

科研绘图系列:R与Python在数据可视化中的应用及代码比较

内容概要:本文详细比较了R和Python在绘制散点图、箱线图、条形图和热图时的实现方式和代码细节。R因其强大的统计功能和丰富的图形库,在数据分析和可视化方面具有明显优势;而Python凭借其通用性和灵活的数据可视化库,同样适用于科学计算和数据可视化任务。通过具体实例展示了两种语言的各自特点,如R的ggplot2与Python的matplotlib/seaborn库的应用,并利用reticulate包实现了两者的协作,便于不同工具间的数据流动。 适合人群:对数据可视化感兴趣的科研人员、学生以及数据科学家;有一定编程基础并希望深入了解R和Python绘图能力的专业人士。 使用场景及目标:用于科学研究和技术报告中的图表制作;学习不同编程语言的数据可视化技术和最佳实践;探索如何结合R和Python的优势进行高效的数据展示。 其他说明:文中附有详细的代码片段及其解释,有助于读者理解和实践两种语言的具体用法;注意本文禁止商业二次修改,仅限个人自学使用,确保尊重作者权利的同时保障资料的质量与权威性。

2025-03-25

【科研绘图系列】R语言绘制SCI论文图合集

【科研绘图系列】R语言绘制SCI论文图合集 R语言绘制SCI论文,提供完整的数据和代码,方便大家学习

2025-02-19

在R语言中,安装R包是数据分析过程中不可或缺的一部分 当你需要执行特定的统计测试、可视化或其他任务时,你可能会发现相应的功能已经被封装在一个或多个R包中

在R语言中,安装R包是数据分析过程中不可或缺的一部分。当你需要执行特定的统计测试、可视化或其他任务时,你可能会发现相应的功能已经被封装在一个或多个R包中。然而,对于新手或需要一次性安装多个R包的用户来说,这个过程可能会有些繁琐。为了大规模安装所需要的R包,你可以使用几种不同的方法。

2025-01-23

数据分析:随机森林random forest在二分类中的应用

数据分析:随机森林random forest在二分类中的应用

2024-11-19

科研人员如何在国内高速下载测序数据SRA

科研人员如何在国内高速下载测序数据SRA

2024-11-19

科研绘图系列:R语言绘制气泡图(bubble plot)

科研绘图系列:R语言绘制气泡图(bubble plot)

2024-11-19

数据分析:广义估计方程和混合线性模型的R和python语言实现教程

数据分析:广义估计方程和混合线性模型的R和python语言实现教程

2024-11-19

数据分析:RT-qPCR分析详解及R语言绘图结果图

数据分析:RT-qPCR分析详解及R语言绘图结果图

2024-11-19

数据分析:R语言详解方差分析ANOVA的计算步骤

数据分析:R语言详解方差分析ANOVA的计算步骤

2024-11-19

科研绘图系列:R语言ggheatmapper热图实操教程

科研绘图系列:R语言ggheatmapper热图实操教程

2024-11-19

科研绘图系列:Python语言绘制SCI论文图表案例

科研绘图系列:Python语言绘制SCI论文图表案例

2024-11-19

文献分享:MongolianHCC文章提供了基因组分析的代码

文献分享:MongolianHCC文章提供了基因组分析的代码

2024-11-19

数据分析:转录组差异分析总结(DESeq2+limma+edgeR+t-test/wilcox-test

本文要点由以下几点构成: 1. 下载以及导入测试数据(批量安装R包); 2. 基因表达count矩阵的标准化方法(F(R)PKM/TPM); 3. 基因整体水平分布(PCA/tSNE/UMAP;heatmap); 4. *DESeq2*差异分析实现以及结果解析; 5. *limma*差异分析实现以及结果解析; 6. *edgeR*差异分析实现以及结果解析; 7. 结合*t-test*或*wilcox-rank-sum-test*方法的差异分析实现以及结果解析(是否符合正态分布选择检验方法); 8. 不同方法的结果比较(volcano plot+heatmap+venn); 9. 总结。

2024-11-19

数据分析:基因突变瀑布图统计以及可视化

数据分析:基因突变瀑布图统计以及可视化

2024-11-19

科研绘图系列:R语言雨云图展示更多数据分布信息

雨云图(Raincloud Plot)是一种结合了箱线图(Boxplot)、抖动图(Jitter Plot)和核密度估计(Kernel Density Estimation, KDE)或小提琴图(Violin Plot)的复合图形,用于多角度展示数据的分布特征,特别是组间数据的分布和差异。在R语言中,我们可以使用ggplot2包和gghalves包等来实现雨云图的绘制。

2024-11-18

科研绘图系列:箱线图加百分比点图展示组间差异

在展示组组间差异的时候,可以选择箱线图(boxplot),但同时也可以加上圆圈暂时指标在组间的出现率,从而在一张图上展示了多种信息。本文旨在通过R代码实现上述的可视化结果图。

2024-11-16

使用ggplot2桑基图画图

R语言的ggplot2画桑基图,包含数据和完整代码,方便大家学习

2024-04-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除