1. 安装HMMer
2. 从ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/下载pfam数据库Pfam-A.hmm
3. 得到 PFAM 数据库的 HMM 文件。 HMM 文件是文本文件,需要将其变成二进制格式,以加快运算速度,同时进行压缩,并建立成索引数据库。 命令:
hmmpress Pfam-A.hmm
3。使用 hmmscan 进行 Pfam 注释示例:
hmmscan -o out.txt --tblout out.tbl --noali -E 1e-5 Pfam-A.hmm file.fasta
(感谢陈连副的生信博客http://www.chenlianfu.com/?p=2274,本文仅是学习他的博客的记录)
附 hmmscan [-options]几个主要选项含义
-h 显示帮助信息
-o FILE 将结果输出到指定的文件中。默认是输出到标准输出。
--tblout FILE 将蛋白质家族的结果以表格形式输出到指定的文件中。默认不输出该文件。
--domtblout FILE 将蛋白结构域的比对结果以表格形式输出到指定的文件中。默认不输出该文件。该表格中包含query序列起始结束位点与目标序列起始结束位点的匹配信息。
--acc 在输出结果中包含 PF 的编号,默认是蛋白质家族的名称。
--noali 在输出结果中不包含比对信息。输出文件的大小则会更小。 -E FLOAT default:10.0 设定 E_value 阈值,推荐设置为 1e-5 。
-T FLOAT 设定 Score 阈值。 --domE FLOAT default:10.0 设定 E_value 阈值。该参数和 -E 参数类似,不过是 domain 比对设定的值。