VCFtools用来处理VCF文档。
- 筛选特定突变
- 比较文件
- 总结突变
- 转化文件格式
- 验证并合并文件
- 取突变交集和差集
Get basic file statistics
input可以为VCF或BCF格式(--vcf --gvcf or --bcf
)。
vcftools --vcf test.vcf less test.vcf | vcftools --vcf -
Applying a filter
可以把筛选的突变写入一个新文件。--recode
表示输出筛选的内容,--recode-INFO-all
保留所有的INFO fields的内容。default情况下,INFO fields不写,因为筛选会改变文件里的突变情况。染色体名字要注意,比如是chr1还是1,要写全。--out输出到特定的位置和特定的文件名
vcftools --vcf test.vcf --chr chr1 --from-bp 1000000 --to-bp 2000000 --recode --recode-INFO-all --out result
Writing out to screen
用--stdout or -c
可以重定位所有输出到标准输出,可以通过管道输出给别的软件或者直接输入到某个输出文件。
vcftools --vcf test.vcf --chr chr1 --from-bp 1000000 --to-bp 2000000 --recode --stdout | less vcftools --vcf test.vcf --chr chr1 --from-bp 1000000 --to-bp 2000000 --recode -c > ../subset.vcf vcftools --vcf test.vcf --chr chr1 --from-bp 1000000 --to-bp 2000000 --recode -c |gzip -c > ../subset.vcf.gz
comparing two files
比较2个VCF文件,看哪些个体或者位点是2个文件共享的。指定第二个文件要用--diff --gzdiff or --diff-bcf
。
vcftools --vcf test1.vcf --diff test2.vcf --out compare
Getting allele frequency
使用--freq计算等位基因频率
vcftools --vcf test.vcf --freq --out output
CHROM POS N_ALLELES N_CHR {ALLELE:FREQ} chr1 861315 2 604 G:0.996689 A:0.00331126 chr1 865655 2 604 T:0.998344 A:0.00165563 chr1 865664 2 604 C:0.998344 T:0.00165563
Getting sequencing depth information
使用--depth计算测序深度。
vcftools --vcf test.vcf --depth -c > depth_summary.txt
Getting linkage disequilibrium statistics
计算连锁不平衡,500kb为一个窗口。可以用--hap-r2 --geno-r2 or --geno-chisq
。因为是两两比较,比较耗费时间,建议用--ld-windows --ld-windows-bp or --min-r2
去减少比较的次数。
vcftools --vcf test.vcf --hap-r2 --ld-window-bp 500000 --out ld_windows_500000
Getting Fst population statistics
必须提供text文件,每行一个个体(同一个population)。使用--weir-fst-pop进行Fst计算。
vcftools --vcf test.vcf --weir-fst-pop population1.txt --weir-fst-pop population2.txt --out pop1VSpop2
Converting VCF files to PLINK format
使用--plink进行文件转换
vcftools --vcf test.vcf --plink --chr 1 --out output_in_plink
vcftools使用说明
vcftools是一种可以对VCF文件和BCF文件进行格式转换及过滤的工具,其中很多过滤及计算功能我们可以自己使用perl或者python编写脚本实现,但都不如这个工具的运算速度快。目前官网的版本是vcftools v0.1.13。
中文版本:https://www.jianshu.com/p/badd24cbc538
基本参数
输入参数
- –vcf <input_filename> 支持v4.0、v4.1或者v4.2版本的VCF文件
- –gzvcf <input_filename> 通过gzipped压缩过的VCF文件
- –bcf <input_filename>
输出参数
- –out <out