参数 # By ID (default,>后面,空格之前的名字)输出ID名字相同的。 seqkit common test1.fa test2.fa -o common.fasta # By full name(整个序列的名字,包含description部分)。输出序列名字相同的。 seqkit common test1.fa test2.fa -n -o common.fasta # 输出要比较的文件中序列相同的序列 seqkit common ...
seqkit grep如何根据ID号只提取序列不提取出其他信息 linux grep提取数字,数据提取操作1、操作命令(都可以结合pipe使用)1、cut:切分操作(可以切分出一整列)2、grep:检索(可以使用正则表达式)3、sort:排序(可以对整列排序)4、wc:统计字符、字数、行数5、uniq:
seqkit replace --ignore-case --kv-file rename.txt --pattern "^(\w+)" --replacement "{kv}" genome.fa -o genome.new.fa rename.txt 就是改名列表,第一列是原ID,第二列是新ID,中间用tab隔开。 genome.fa 是需要改ID的文件名,genome.new.fa 是新生成的改ID后的文件名。特别要注意的是列表中一...
宏基因组二代测序结果binning之后的序列可能存在重复,首先使用prokka将binning后的序列转化为蛋白序列, 再使用CD-hit 命令默认参数将序列进行去重复 然后使用seqkit seq -i 获取序列的id 再使用seqkit grep -f 获取原先每个bin中的fasta序列 注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽...
# 选取有起始密码子的序列seqkit grep -s -r -i -p ^atg ex.fa# 根据ID提取序列seqkit grep -f list ex.fa > new.fa# 简并碱基使用。S 代表C or G.seqkit grep -s -d -i -p TTSAA# 匹配限定到某区域seqkit grep -s -R 1:30 -i -r -p GCTGG# ...
1. seqkit 软件根据序列id,从fa文件中提取序列 conda install -c bioconda seqkit seqkit grep -f ...
# By ID (default,>后面,空格之前的名字)输出ID名字相同的。 seqkit common test1.fa test2.fa -o common.fasta # By full name(整个序列的名字,包含description部分)。输出序列名字相同的。 seqkit common test1.fa test2.fa -n -o common.fasta # 输出要比较的文件中序列相同的序列 seqkit common test...
seqkit 软件根据序列ID删除指定的序列 001、 单个删除 (base) [root@pc1 test1]# ls a.fa (base) [root@pc1 test1]# cat a.fa## 测试文件>chr1 tttcccggg>chr2 tttgggjjj cccjjjjjj>chr3 ccc>chr4 aaaaatt (base) [root@pc1 test1]# seqkit grep -v -p"chr1"a.fa## 删除chr1>chr2...
生物信息学入门-使用seqkit工具替换fasta文件序列id的内容 - 小明的数据分析笔记本于20210823发布在抖音,已经收获了2372个喜欢,来抖音,记录美好生活!
rename 重命名重复序列ID replace 使用正则表达式修改名称或者序列 restart 重置环状基因组的起始位置 rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files ...