$ seqkit stats *.f{a,q}.gz -a # 统计更多信息 $ seqkit stats -j 10 refseq/virual/*.fna.gz #多文件统计( -j:使用多线程) 6.faidx 建立索引文件、提取子序列 $seqkit faidxhairpin.fa #建立序列索引 $ seqkit faidx tests/hairpin.fa hsa-let-7a-1 hsa-let-7a-2 #提取ID信息 $ seqkit faidx...
conda install -c bioconda seqkit seqkit grep -f gene_ids.txt input.fasta > output.fasta # `...
-f, --pattern-file string 支持匹配模式写到一个文件中,如要提取的序列ID。 -R, --region string 匹配位置选择。e.g 1:12 for first 12 bases, -12:-1 for last 12 bases -r, --use-regexp 使用正则表达式,必须加入此参数,如^匹配首端。同-p联合使用。
seqkit subseq --gtf Arabidopsis_thaliana.TAIR10.49.gtf.gz Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz -u 3 |head # 仅提取上游序列,如提取启动子区2k:-f仅定位不输出位置序列,-u输出上游序列,此处示例3bp seqkit subseq --gtf Arabidopsis_thaliana.TAIR10.49.gtf.gz Arabidopsis_thaliana.TAIR10.dna....
seqkit grep -f list test.fa > new.fa#根据ID提取序列 seqkit grep -s -d -i -p TTSAA#简并碱基使用。S 代表C or G. seqkit grep -s -R 1:30 -i -r -p GCTGG##匹配限定到某区域 五、motif定位 对grep的拓展,可以正反链同时匹配,输出匹配的位置。
Seqkit是一款专门处理fsata/q序列文件的软件。 github地址: https://github.com/shenwei356/seqkit 下载地址: https://bioinf.shenwei.me/seqkit/download/ 选择适合自己的版本 tar -zxvf seqkit_linux_amd64.tar.gz,解压后只有一个seqkit程序。 发现有很多的功能,多到自己曾经遇到过的所有的序列处理问题(相见恨...
Seqkit是一款专门处理fsata/q序列文件的软件。 github地址: https://github.com/shenwei356/seqkit 下载地址: https://bioinf.shenwei.me/seqkit/download/ 选择适合自己的版本 tar -zxvf seqkit_linux_amd64.tar.gz,解压后只有一个seqkit程序。 发现有很多的功能,多到自己曾经遇到过的所有的序列处理问题(相见恨...
该软件对于处理FASTA/Q十分方便,省去自己编写脚本 安装 1 conda install seqkit 使用 序列操作(seq) 1 ## 取方向序列 2 seqkit seq test.fa -r > test_re.fa 3 4 ## 取互补序列 5 seqkit seq test.f
-F --fixed-regexp #将样式视为固定字符串的列表。 -G --basic-regexp #将样式视为普通的表示法来使用。 -h --no-filename #在显示符合样式的那一行之前,不标示该行所属的文件名称。 -H --with-filename #在显示符合样式的那一行之前,表示该行所属的文件名称。
seqkit sample -p 0.001 duplicated-reads.fq.gz 用于匹配需要的序列 按照文件中名字匹配(一行只能存储一个名字)seqkit grep -f id.txt duplicated-reads.fq.gz 注意保存序列名用seqkit seq -n - i,用seqkit fx2tab -n -i 在名字后面会带有空格 可依据名字或者序列移除重复序列 ...