split:按ID、序列区域、大小或部分将序列拆分为文件(主要用于FASTA)。 split2:按大小或部分将序列拆分为文件。 stats:简单统计FASTQ/FASTA文件。 subseq:按照region、GTF或BED获取子序列。 sum:计算FASTQ/FASTA文件中所有序列的消息摘要。 tab2fx:将表格格式转换为FASTQ/FASTA。 translate:将DNA/RNA翻译成蛋白质序列。
sort 按id/名称/序列/长度排序序列 split 按id/seq区域/大小/部件将序列拆分为文件(主要用于FASTA) split2 按序列数量/文件数将序列拆分为多个文件(FASTA, PE/SE FASTQ) stats FASTA/Q文件的简单统计 subseq 通过region/gtf/bed得到子序列,包括侧翼序列 tab2fx 转换表格格式为FASTA/Q格式 translate 翻译DNA/RNA...
seqkit split [flags]参数:-i, --by-id 一条序列一个文件进行切割-p, --by-part int 按数量,将一个文件分割成N 份-s, --by-size int 按大小,将一个文件按照大小进行分割-O, --out-dir string output directory (default value is infile.split)-2, --two-pass two-pass mode to lower memory ...
seqkit split [flags] 参数 参数 作用 -i split squences according to sequence ID -p 将一个文件分割成N 份 -s 将一个文件按照N 条序列一个文件进行分割 -O 输出目录 -2 two-pass mode to lower memory usage(only FAST) 代码语言:javascript 代码运行次数:0 运行 AI代码解释 # 将一个文件切割为 ...
$ seqkit split hairpin.fa.gz -s 10000 #将序列拆分为最多10000个序列的部分 $ seqkit split hairpin.fa.gz -p 4 #将序列拆分为4部分 $ seqkit split hairpin.fa.gz -p 4 -2#加上-2减少内存使用 $ seqkit split hairpin.fa.gz -i --id-regexp "^([\w]+)\-" -2 #按id拆分序列 $ seqkit...
split2 按序列数量/文件数将序列拆分为多个文件(FASTA, PE/SE FASTQ) stats FASTA/Q文件的简单统计 subseq 通过region/gtf/bed得到子序列,包括侧翼序列 tab2fx 转换表格格式为FASTA/Q格式 translate 翻译DNA/RNA到蛋白质序列(支持歧义碱基) version 打印版本信息并检查是否更新 ...
seqkit split [flags] 参数: -i, --by-id split squences according to sequence ID -p, --by-part int 将一个文件分割成N 份 -s, --by-size int 将一个文件按照N 条序列一个文件进行分割 -O, --out-dir string output directory (default value is infile.split) ...
2.7. 文件切割 seqkitsplit[flags] 参数 # 将一个文件切割为 4 份seqkitsplitex.fa -p 4
数据提取操作 1、操作命令(都可以结合pipe使用) 1、cut:切分操作(可以切分出一整列) 2、grep:检索(可以使用正则表达式) 3、sort:排序(可以对整列排序) 4、wc:统计字符、字数、行数 5、uniq:去重(只去除连续的重复值) 6、tee:双向重定向 7、split:文件切分(按字节大小、按行等) ...
seqkit split [flags] 参数: -i, --by-id split squences according to sequence ID -p, --by-part int 将一个文件分割成N 份 -s, --by-size int 将一个文件按照N 条序列一个文件进行分割 -O, --out-dir string output directory (default value is infile.split) ...