链接:https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/ 。 nt为核酸数据库,nr为蛋白质数据库 008、使用命令行下载 a、 [root@PC1 test02]#wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nr.gz[root@PC1 test02]#wget -c https://ftp.ncbi.nlm.nih.gov/blast/db/FASTA/nt.gz b、解压...
基因注释时,常常需要用blast比对一些大型数据库,例如NT、NR、TrEMBL等。这些数据库中的序列数目非常多,且包罗万象。于是,考虑根据先验信息,blast注释的时候,从这群数据库当中只选择特定物种的蛋白或核酸序列,即提高效率,又增加注释精度。 前期数据调研 无论NCBI的数据库和TrEMBL数据库,都提供了序列物种信息,而且物种...
我们需要对自己的基因做注释,需要blast同源比对NCBI当中的NR NT库;通常做无参转录组,会组织出10几万的unigene ,如果比对全库的话,就太浪费时间了,我们可以根据NCBI的分类数据库将数据库分开,可下载如下文件,然后利用下面的perl脚本就可以把NR或者NT库分开成小库: wget -c ftp://ftp.ncbi.nlm.nih.gov/blast/d...
blastp:蛋白序列与蛋白库作比对,直接比对蛋白序列的同源性。 blastx:核酸序列与蛋白库作比对,将核酸序列先翻译成蛋白序列,再将其与蛋白库作比对。 -blastn:核酸序列与核酸库的比对,直接比对核酸序列的同源性。 tblastn:蛋白序列对核算库的比对,现将核酸库翻译成蛋白库,再将蛋白序列与翻译后的蛋白库进行比对。 tbl...