[root@pc1 test4]#cat test.fa ## 测试fasta文件>contig_1 ATAGAGACGACC>contig_2 ATAGGACNNAGACACGTTAGAT>contig_3 TTGCACATATACATCATNNN>contig_4 GTATGAGCATAGACATACATC [root@pc1 test4]#seqkit grep-f list test.fa ## 提取contig[INFO]2patterns loadedfromfile>contig_1 ATAGAGACGACC>contig_3...
seqkit sample -p 0.001 duplicated-reads.fq.gz 用于匹配需要的序列 按照文件中名字匹配(一行只能存储一个名字)seqkit grep -f id.txt duplicated-reads.fq.gz 注意保存序列名用seqkit seq -n - i,用seqkit fx2tab -n -i 在名字后面会带有空格 可依据名字或者序列移除重复序列 ...
7. grep序列zcat hairpin.fa.gz | seqkit grep -r -p ^hsa #提取ID开头为hsa的reads -v取想反 zcat hairpin.fa.gz | seqkit grep -f list > new.fa #根据list取子集 cat hairpin.fa.gz | seqkit grep -s -i -p aggcg #提取序列里有AGGCG的reads -m 允许误配的数量 zcat hairpin.fa.gz | ...
seq:选择、滤除或随机提取FASTA或FASTQ文件中的序列。 shuffle:随机序列。 sliding:在滑动窗口中提取子序列。 sort:按ID、名称、序列或长度排序。 split:按ID、序列区域、大小或部分将序列拆分为文件(主要用于FASTA)。 split2:按大小或部分将序列拆分为文件。 stats:简单统计FASTQ/FASTA文件。 subseq:按照region、GT...
6.faidx 建立索引文件、提取子序列 $ seqkit faidx hairpin.fa#建立序列索引$ seqkit faidx tests/hairpin.fa hsa-let-7a-1hsa-let-7a-2#提取ID信息$ seqkit faidx tests/hairpin.fa hsa-let-7a-1hsa-let-7a-2-f# -f 标题全部输出$ seqkit faidx tests/hairpin.fa hsa-let-7a-1:1-10#提取子序列第1...
# 提取1号染色体序列seqkit grep -p1Homo_sapiens.GRCh37.dna.primary_assembly.fa\-o Homo_sapiens....
2.4. 根据ID提取序列 seqkit grep 参数 # 选取有起始密码子的序列seqkit grep -s -r -i -p ^atg ex.fa# 根据ID提取序列seqkit grep -f list ex.fa > new.fa# 简并碱基使用。S 代表C or G.seqkit grep -s -d -i -p TTSAA# 匹配限定到某区域seqkit grep -s -R 1:30 -i -r -p GCTGG#...
匹配序列 -d pattern/motif 包含简并碱基 -i 忽略大小写 -v 反向匹配 -p 匹配模式,支持连续写多个模式,匹配任一模式即输出 -R 匹配位置选择 -r 使用正则表达式 代码语言:javascript 复制 # 选取有起始密码子的序列 seqkit grep -s -r -i -p ^atg ex.fa # 根据ID提取序列 seqkit grep -f list ex.fa...
1.3 从ID提取序列和motif定位SeqKit的 grep命令允许你根据ID、正则表达式或特定模式精准提取序列,而 locate则用于motif定位,支持模糊匹配和正向/反向搜索。1.4 文件操作:查找相同序列与切割文件当你需要比较多个文件中相同序列时,common命令能帮到你,它可以按ID或全名匹配,同时提供内存优化选项。此外,...
seq:可用于选择、滤除或随机提取从FASTA或FASTQ文件中的序列 shuffle:随机序列 sliding:在滑动窗口中提取子序列 sort:按id/name/sequence/length排序 split:按id/seq region/size/parts将序列拆分为文件(主要用于FASTA) split2:按size/parts序列拆分为文件 stats:fq/fa简单统计 subseq:按照region/gtf/bed获取子序列...