输出所有统计数据,包括 seq 长度的四分位数、sum_gap、N50 代码语言:javascript 复制 # 统计信息 seqkit stats *.f{a,q}.gz # 结果如下图 示例 2.4. 根据ID提取序列 代码语言:javascript 复制 seqkit grep 参数 参数 作用 -n 匹配整个序列的名字 -s 匹配序列 -d pattern/motif 包含简并碱基 -i 忽略...
-a输出所有统计数据,包括 seq 长度的四分位数、sum_gap、N50 # 统计信息 seqkit stats *.f{a,q}.gz # 结果如下图 示例 2.4. 根据ID提取序列 seqkit grep 参数 参数作用 -n匹配整个序列的名字 -s匹配序列 -dpattern/motif 包含简并碱基 -i忽略大小写 ...
序列数量、所有序列长度和、最小长度、平均长度、最大长度、gap、N50、Q20(%)、Q30(%)和GC(%)等。
1. seqkit 查看fa.gz和fq.gz序列文件 seqkit可自动识别文件扩展名,而无需使用zcat查看.gz文件。 seqkit seq hairpin.fa.gz|less -S# >cel-let-7 MI0000001 Caenorhabditis elegans let-7 stem-loop# UACACUGUGGAUCCGGUGAGGUAGUAGGUUGUAUAGUUUGGAAUAUUACCACCGGUGAAC# UAUGCAAUUUUCUACCUUACCGGAGACAGAACUCUUCGAse...
1.2 格式转换与信息统计SeqKit的转换功能强大,如 fa2fa命令可快速将FASTQ转换为FASTA,而 fx2tab则可以统计碱基含量、长度、ID等信息。通过 stat和 stats命令,你可以分析序列长度分布、四分位数、N50等统计数据。1.3 从ID提取序列和motif定位SeqKit的 grep命令允许你根据ID、正则表达式或特定模式精准...
# By full name(整个序列的名字,包含description部分)。输出序列名字相同的。 seqkit common test1.fa test2.fa -n -o common.fasta # 输出要比较的文件中序列相同的序列 seqkit common test1.fa test2.fa -s -i -o common.fasta # 输出要比较的文件中序列相同的序列 (for large sequences) ...
序列统计,数量,碱基数,gap数,最小/最长序列,N50 创建FASTA index file,并提取序列,比samtools faidx快,且功能多一点 二、格式转换 转FASTA/Q为表格格式,可附带序列长度,GC含量等信息,非常有用 转表格格式回FASTA/Q 转FASTQ为FASTA FASTQ质量编码相互转换(Sanger, Solexa and Illumina) ...
# 选取有起始密码子的序列seqkit grep -s -r -i -p ^atg ex.fa# 根据ID提取序列seqkit grep -f list ex.fa > new.fa# 简并碱基使用。S 代表C or G.seqkit grep -s -d -i -p TTSAA# 匹配限定到某区域seqkit grep -s -R 1:30 -i -r -p GCTGG# ...
Add columnN50_num, an alias of L50,#15. seqkit seq/locate/fish/watch: Removing the flag-V/--validate-seq-length. Now the whole sequence will be checked if-v/--validate-seqis given. seqkit amplicon: Fix the speed problem, introduced in v2.7.0.#439. ...
Code Pull requests Actions Projects Security Insights Additional navigation options master 1Branch 0Tags Code This branch is23 commits behindshenwei356/seqkit:master. Folders and files Name Last commit message Last commit date Latest commit shenwei356 ...