使用seqkit批量替换序列ID 在进行组装和比对过程中,要将测序ID替换成物种学名,一个一个替换太慢了,发现seqkit有这个功能。 seqkit replace --ignore-case --kv-file rename.txt --pattern "^(\w+)" --replacement "{kv}" genome.fa -o genome.new.fa rename.txt 就是改名列表,第一列是原ID,第二列是...
序列ID替换也可以使用在线工具https://birc.au.dk/~palle/php/fabox/header_replacer.php# 提取序列的指定字符为序列id 序列原有id格式如下: cat promoter.2000.fa >A07_5857965-5861421:._usf:2000 Gh_A07G050500.1 TGATGGAGGTTGAGATGGCCTCAGAACGGTATAAGTCGGGTCAATTCGATTTTTACGATT TCGGTGTCATTTCAAATTTGAATAATTC...
1、cut:切分操作(可以切分出一整列) 2、grep:检索(可以使用正则表达式) 3、sort:排序(可以对整列排序) 4、wc:统计字符、字数、行数 5、uniq:去重(只去除连续的重复值) 6、tee:双向重定向 7、split:文件切分(按字节大小、按行等) 8、xargs:参数代换(结合pipe使用) 9、tr、替换、压缩和删除 2、具体操作...
2. <(sort -k1,1 input.id.txt):这个命令使用了Linux中的进程替换(process substitution)功能, ...
rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) shuffle 随机序列 sliding 序列滑窗提取,支持环形基因组 ...
生物信息学入门-使用seqkit工具替换fasta文件序列id的内容 - 小明的数据分析笔记本于20210823发布在抖音,已经收获了2381个喜欢,来抖音,记录美好生活!
用正则表达式来编辑序列/名称,支持按key-value文件来替换 对重复的序列ID重命名 对环状基因组重新设定序列起始位点。 连接多个文件中具有相同ID的序列 六、排序 打乱顺序 按序列ID/名称/序列/序列长度进行排序 功能实在太多,就不一一举例了,项目网站提供了丰富的文档供查阅,包括用法和详细的例子,甚至开发文档。
rmdup 通过id/名称/序列删除重复的序列 sample 按数量或比例对序列进行抽样 sana 清理损坏的单行fastq文件 scat real time recursive concatenation and streaming of fastx files seq 转换序列(反向,补充,提取ID…) shuffle 随机序列 sliding 序列滑窗提取,支持环形基因组 ...
使用seqkit sort [flags]命令按名称id/长度执行序列排序。# 按序列长名称full name/id排序,忽略大小写...