(base) [root@pc1 test1]# seqkit grep -v -f rm.list a.fa## 删除命令[INFO]2patterns loadedfromfile>chr1 tttcccggg>chr3 ccc 。
3、sort:排序(可以对整列排序) 4、wc:统计字符、字数、行数 5、uniq:去重(只去除连续的重复值) 6、tee:双向重定向 7、split:文件切分(按字节大小、按行等) 8、xargs:参数代换(结合pipe使用) 9、tr、替换、压缩和删除 2、具体操作 (1)cut 切分:cut [option] <file> -d c:以c字符分割 -f num:显示...
--alphabet-guess-seq-length int seqkit根据第一个FASTA记录猜测序列类型的序列前缀的长度(0表示整个序列)(默认10000) -h, --help 显示帮助 --id-ncbi FASTA头是ncbi风格的,例如>gi|110645304|ref|NC_002516.2 --id-regexp string 用于解析ID的正则表达式(default "^(\\S+)\\s?"),匹配空格前的部分为序...
再使用CD-hit 命令默认参数将序列进行去重复 然后使用seqkit seq -i 获取序列的id 再使用seqkit grep -f 获取原先每个bin中的fasta序列 注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性
Seqkit是一款专门处理fsata/q序列文件的软件,由go语言编写,功能比较完善,软件使用也很稳定。 优点1.能够非常全面的处理fasta/q文件,运行速度超快的序列工具...
2.4. 根据ID提取序列 代码语言:shell 复制 seqkitgrep 参数 代码语言:shell 复制 # 选取有起始密码子的序列seqkitgrep-s-r-i-p^atg ex.fa# 根据ID提取序列seqkitgrep-flist ex.fa>new.fa# 简并碱基使用。S 代表C or G.seqkitgrep-s-d-i-pTTSAA# 匹配限定到某区域seqkitgrep-s-R1:30-i-r-pGCTGG#...
CCUAGCUUUCCU #多次使用 $ zcat hairpin.fa.gz | seqkit grep -r -p ^hsa -p ^mmu -v #根据ID提取序列 $ seqkit grep -f id.txt seqs.fq.gz -o result.fq.gz # ignore case $ seqkit grep -i -f id.txt seqs.fq.gz -o result.fq.gz...
/关键字/ 基因ID {n;p} n下一行,p是打印(也就是输出)我随意创建了个upstream_2kb.fasta的文件...
生物信息学入门-使用seqkit工具替换fasta文件序列id的内容 - 小明的数据分析笔记本于20210823发布在抖音,已经收获了2372个喜欢,来抖音,记录美好生活!
rename 重命名重复序列ID replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) ...