1. cd-hit软件及其去冗余功能 cd-hit(Cluster Database at High Identity with Tolerance)是一款用于快速聚类和比较生物序列(如DNA、RNA或蛋白质序列)的工具。它主要通过计算序列之间的相似度(通常是百分比一致性)来识别并去除数据集中的冗余序列。这一功能在生物信息学领域尤为重要,尤其是在处理高通量测序数据时,能...
cd-hit 是一款用于将蛋白、核酸序列快速聚类的工具。由于宏基因组样品中可能包含相似物种,拼接结果中可能会存在一部分冗余序列,导致预测出来的基因包含冗余部分,可以通过聚类进行去冗余。 通常去冗余采用的聚类算法根据序列相似度对序列进行聚类,需要进行 all by all 的比较,例如 orthoMCL,不过这种方法非常耗时。而 cd-...
CD-HIT(http://weizhongli-lab.org/cd-hit/)是一个广泛使用的蛋白或核酸序列比较聚类工具,其将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分析使用。CD-HIT的基本思路是首先对所有序列按照其长度进行排序,然后从最长的序列开始,形成第...
速度快:CD-HIT采用一种名为"word counting"的快速算法来比较序列相似性,因此能够快速处理大规模序列。 可扩展性好:CD-HIT支持多线程并行处理,可以运行在分布式计算机集群上,因此可以轻松地扩展到云计算平台上进行更大规模的分析。 精度高:CD-HIT使用了高度优化的蛋白质序列比对算法,并通过设置聚类阈值和去冗余策略来...
二、cd-hit去冗余 官网:http://weizhongli-lab.org/cd-hit/ conda 地址:https://anaconda.org/bioconda/cd-hit 参数 M:内存,单位M,默认800 T:线程,默认1 c: identity 0.9 by default # 安装 conda install -c bioconda cd-hit cd-hit --help ...
cd cd-hit-v4.8.1 make 使用: route="/your_route/Result/script/cd-hit-v4.6.7-2017-0501" $route/cd-hit \ -i 01_contig/all_contigs_gene.fna \ -o 02_geneset/gene_set \ -c 0.95 -aS 0.9 \ -n 5 \ -M 0 \ –d 0 \
cd-hit 默认 -t 这个参数值是2. 就是,你不设置,它就是2了。
笔点导航(www.bidianer.com)是一个简洁的网址导航网站。你可以自定义上网常用网址、自定义你需要的工具模块。你还可以发现、收集、分享,Web开发、设计工作中的优质资源、干货。