对于基因组组装而言,kmer count是最基础的分析内容之一,传统的kmer count工具在kmer长度小于32时,有着较好的性能,但是对于较大长度的kmer, 内存消耗和运行速度都差强人意。随着测序读长的不断增加,一款能够支持较大kmer的计数,而且性能良好的工具就显得非常的有必要。 Gerbil就是这样的一款工具,除了在算法上进行优化...
对于基因组组装而言,kmer count是最基础的分析内容之一,传统的kmer count工具在kmer长度小于32时,有着较好的性能,但是对于较大长度的kmer, 内存消耗和运行速度都差强人意。随着测序读长的不断增加,一款能够支持较大kmer的计数,而且性能良好的工具就显得非常的有必要。 Gerbil就是这样的一款工具,除了在算法上进行优化...
2.2 Jellyfish count 我们要用的是count 命令来进行K-mer计数,使用fastq文件在默认参数上和fasta文件没有区别,生成的hash结果为*.jf为后缀的二进制文件。 以count基本命令为例: jellyfish count -m 21 -s 100M -t 10 -C reads.fasta 参数含义可以通过jellyfish count --help来进行理解,(大部分参数默认就可...
Kmercount 0.0.2 Usage: kmercount [OPTIONS] KMERFILENAME [SEQUENCEFILENAME] General options: -h, --help display this help and exit -k, --kmer-length INTEGER kmer length [1-32] (31) -t, --threads INTEGER number of threads to use [1-1] (1) -v, --version display version information...
kmer计数是许多比对工具、基因组组装程序和各种各样的基因组分析工具(例如基因分型、宏基因组学分析等)的基础。它是生物信息学中最重要的一类算法。大名鼎鼎的blast就是基于kmer算法开发的。 最近生信大神李恒开源了其kmer-cnt工具在https://github.com/lh3/kmer-cnt,大家可以自行下载并分析测试。其实现了基本的k-...
jellyfish count -m 21 -s 100M -t 10 -C reads.fasta 参数含义可以通过jellyfish count --help来进行理解,(大部分参数默认就可以): 其中我觉得可以根据自己需求进行设置的有: -m使用的k-mer的长度。如果基因组大小为G,则k-mer长度选择为: k ~= log(200G)/log(4); ...
对于基因组组装而言,kmer count是最基础的分析内容之一,传统的kmer c github git 安装过程 原创 庐州月光 2022-06-21 08:48:00 184阅读 【Python小试】计算目录下所有DNA序列的Kmer并过滤 背景Kmer是基因组组装算法中经常接触到的概念,简单来说, Kmer就是长度为k的核苷酸序列 。一般长短为m的reads可以分成...
kcount union -d testFiles/random2.kc testFiles/random2.kc -o random2.hist How to cite This tool is part of thegfastartool suite. If you usekcountin your work, please cite: Gfastats: conversion, evaluation and manipulation of genome sequences using assembly graphs ...
kmer_total_count= kmer_count.reduceByKey(lambdaa,b:(a+b))#这里过滤掉了含有N的kmerkmer_not_contain_N = kmer_total_count.filter(lambdaline :"N"notinline[0]) kmer_key=kmer_not_contain_N.keys()#统计kmer的种类,并计数kmer_vari_count = kmer_not_contain_N.map(lambdakmer_vari:(kmer_vari...
kmer指将DNA序列切割成长度为k的连续碱基片段。比如取k=21时,一段ATCG开头的序列会被拆分为ATC、TCG等片段。这种方法像用固定尺寸的筛网过滤整条序列,通过统计片段特征推断基因组特性。选择合理的k值至关重要,太小会导致片段重复度过高,太大会降低有效信息捕获量。经验表明,人类基因组组装常选用k=21-127之间的...