1、操作命令(都可以结合pipe使用) 1、cut:切分操作(可以切分出一整列) 2、grep:检索(可以使用正则表达式) 3、sort:排序(可以对整列排序) 4、wc:统计字符、字数、行数 5、uniq:去重(只去除连续的重复值) 6、tee:双向重定向 7、split:文件切分(按字节大小、按行等) 8、xargs:参数代换(结合pipe使用) 9、...
4. seqkit 提取fasta指定染色体序列 # 提取1号染色体序列seqkit grep -p1Homo_sapiens.GRCh37.dna.primary_assembly.fa\-o Homo_sapiens.GRCh37.dna.primary_assembly.chr1.fa# 查看>开头信息cat Homo_sapiens.GRCh37.dna.primary_assembly.fa|grep'^>'# 提取2号染色体10000-10050碱基序列seqkit faidx Homo_sapie...
seqkit grep 参数 # 选取有起始密码子的序列 seqkit grep -s -r -i -p ^atg ex.fa # 根据ID提取序列 seqkit grep -f list ex.fa > new.fa # 简并碱基使用。S 代表C or G. seqkit grep -s -d -i -p TTSAA # 匹配限定到某区域 seqkit grep -s -R 1:30 -i -r -p GCTGG# 2.5. moti...
seqkit grep [flags] 参数: -n, --by-name 匹配整个序列的名字,包含description部分,而不是序列id。 -s, --by-seq 匹配序列 -d, --degenerate pattern/motif 包含简并碱基 -i, --ignore-case 忽略大小写 -v, --invert-match 输出不匹配此模式的内容 ...
seqkit grep -s -d -i -p TTSAA#简并碱基使用。S 代表C or G. seqkit grep -s -R 1:30 -i -r -p GCTGG##匹配限定到某区域 五、motif定位 对grep的拓展,可以正反链同时匹配,输出匹配的位置。 seqkit locate [flags] 参数 -d, --degenerate pattern/motif contains degenerate base ...
seqkit grep [flags] 参数: -n, --by-name 匹配整个序列的名字,包含deion部分,而不是序列id。 -s, --by-seq 匹配序列 -d, --degenerate pattern/motif 包含简并碱基 -i, --ignore-case 忽略大小写 -v, --invert-match 输出不匹配此模式的内容 ...
seqkit grep 一条序列,Linux系统中grep命令是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹 配的行打印出来。grep全称是Global Regular Expression Print,表示全局正则表达式版本,它的使用权限是所有用户。grep的工作方式是这样的,
seqkit grep -p 1 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz -o chr1.fa.gz # 注释信息按照染色体取子集:提取第一条染色体的基因组注释信息:'^1' # 使用gtf文件提取 zcat Arabidopsis_thaliana.TAIR10.49.gtf.gz | grep -w '^1' | gzip -c > chr1.gtf.gz ...
1. seqkit 软件根据序列id,从fa文件中提取序列 conda install -c bioconda seqkit seqkit grep -f ...
seqkit grep -s -d -i -p TTSAA#简并碱基使用。S 代表C or G. seqkit grep -s -R 1:30 -i -r -p GCTGG##匹配限定到某区域 五、motif定位 对grep的拓展,可以正反链同时匹配,输出匹配的位置。 seqkit locate [flags] 参数: -d, --degenerate ...