PRSice-2在windows系统安装教程

1. 软件下载

https://choishingwan.github.io/PRSice/

最新版的包括Mac和Linux系统和windows系统,这里我们再Windows系统下演示一下。

安装包:

测试数据:



注意,上面数据如果无法下载,可以公众号(育种数据分析之放飞自我)后台回复PRS,获得软件包和测试数据。

2. 软件安装

本演示,在Windows11系统下进行。

下载好的安装包和测试数据:

解压软件:
在这里插入图片描述

3. 命令文件介绍

3.1 PRSice_win64.exe

二进制文件,直接运行即可。核心计算文件,计算PRS。

3.2 PRSice.R

R 脚本文件,主要是绘图可视化,包括bar plot, high-resolution plot和quantile plot

3.3 BESE文件

基础数据文件,这里是GWAS summary的结果。

包括91063个snp结果。

TOY_BASE_GWAS.assoc

数据包括:

  • SNP名称
  • 染色体
  • 物理位置
  • A1,有效的分型,effective allel
  • A2,无效的分型,non-effective allel
  • P,P值
  • OR,OR值

3.4 TARGET文件

测试文件,包括:plink的二进制文件和 对应的表型数据文件:

包括2000个个体。

TOY_TARGET_DATA.bed  TOY_TARGET_DATA.bim  TOY_TARGET_DATA.fam  TOY_TARGET_DATA.pheno

二进制文件包括:bim,bed和fam文件
表型数据文件:

FID IID Pheno
CAS_1 CAS_1 0.687940475297167
CAS_2 CAS_2 -0.156139175886002
CAS_3 CAS_3 -0.690876014335686
CAS_4 CAS_4 -0.147899250768441
CAS_5 CAS_5 -0.66034095162489
CAS_6 CAS_6 0.0438675950151819
CAS_7 CAS_7 -0.472359275893301
CAS_8 CAS_8 1.49482653529014
CAS_9 CAS_9 1.01876296041241

4. windows系统进入cmd终端

在菜单栏中,键入cmd


先测试一下R语言是否安装成功,并且把Rscript放到了环境变量里面:

Rscript

如果显示下面界面,说明已经配置成功:


如果显示找不到Rscript,需要将安装路径的bin文件夹,放到环境变量里面,比如我的安装路径:

C:\Program Files\R\R-4.2.2\bin

右键我的电脑,点击属性:

找到高级系统设置:
在这里插入图片描述
找到环境变量:

双击Path,点击新建,将R的bin路径复制进去:

查看帮助文档:

.\PRSice_win64.exe

文档大体分为几个部分:

  • Base file,基础文件,可以根据指定a1,a2,maf,beta,bp,chr,pvalue等信息
  • Target file,目标文件,支持plink二进制文件,可以定义表型,maf质控等
  • Dosage,主要是定义运行的资源配置,比如线程、硬盘、内存等(可以省略)
  • Clumping,主要是质控Clumping参数,有默认值(可以省略)
  • Covariates,定义协变量,包括数字协变量和因子协变量
  • P-value Thresholding,P值的阈值定义
  • PRSet
  • Misc

5. 二分类性状计算

5.1 运行代码

代码:

Rscript PRSice.R --dir . --prsice  PRSice_win64.exe --base TOY_BASE_GWAS.assoc --target TOY_TARGET_DATA --thread 1 --stat OR --binary-target T

  • Rscript,是用R语言进行操作
  • –dir,默认是当前路径
  • –prsice,指定PRSice的执行文件
  • –base,是基础数据,这里是GWAS的结果,TOY_BASE_GWAS.assoc
  • –target,这里是plink的二进制文件,前缀名
  • –thread 1,用1个线程
  • –stat OR,这里用的是OR值(二分类性状的OR值,连续性状是Beta值)
  • –binary-target T,用的是二分类性状

5. 运行日志

日志文件:

5.3 运行结果

结果文件:

6. 二分类结果解释

6.1 PRSice.price文件

该文件,主要是根据不同Threshold阈值后,选择的SNP个数(Num_SNP)以及对应的解释度(R2)等信息

Pheno	Set	Threshold	R2	P	Coefficient	Standard.Error	Num_SNP
-	Base	0.00025005	0.0133696	8.43169e-06	-0.197266	0.0442903	2
-	Base	0.00030005	0.00824473	0.000456434	-0.225204	0.0642503	3
-	Base	0.00040005	0.0089725	0.000256089	-0.350267	0.0958035	5
-	Base	0.00045005	0.0101339	0.000102845	-0.445497	0.114707	6
-	Base	0.00065005	0.00532975	0.004775	-0.402003	0.142462	8
-	Base	0.00070005	0.00876654	0.00030122	-0.549246	0.151967	9
-	Base	0.00080005	0.00233607	0.061455	-0.369219	0.197422	13
-	Base	0.00085005	0.00153157	0.129826	-0.342923	0.226384	15
-	Base	0.00095005	0.000124324	0.665873	-0.100725	0.233258	16

6.2 PRSice.best文件

这个文件,是每个个体,计算的PRS值

FID IID In_Regression PRS
CAS_1 CAS_1 Yes -0.00599501328
CAS_2 CAS_2 Yes -0.00631017938
CAS_3 CAS_3 Yes -0.00227495325
CAS_4 CAS_4 Yes -0.00204360007
CAS_5 CAS_5 Yes -0.000830676955
CAS_6 CAS_6 Yes -0.00224943517
CAS_7 CAS_7 Yes -0.000687589983
CAS_8 CAS_8 Yes -0.00413102565
CAS_9 CAS_9 Yes 0.00256661049

6.3 PRSice.summy文件

这个文件,是给出最优模型的结果,比如适合的SNP个数,R2,回归系数,P值等信息。

head PRSice.summary
Phenotype	Set	Threshold	PRS.R2	Full.R2	Null.R2	Prevalence	Coefficient	Standard.Error	P	Num_SNP
-	Base	0.4463	0.0520082	0.0520082	0	-	86.288	9.96331	4.69368e-18	36759

6.4 PRSice_BARPLOT_*.png

这个柱形图,是应用比较广泛的图,X坐标是不同P值,Y坐标是PRS风险得分的解释百分比(R2),柱形图最高的点表示该模型最优,比如下面图中,在P值为0.4463时,模型最优,解释的百分比是5%左右,P值为4.7e-18,极显著。

6.5 PRSice_HIGH-RES_PLOT_*.png

下图X坐标是不同的P阈值,Y坐标是显著性(-log转化),可以看到最显著的P的阈值是在0.5左右。

在这里插入图片描述

7. 软件安装好了

下面就是跑程序了。。。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值