CD-HIT官方网站:http://weizhongli-lab.org/cd-hit/ 该链接提供了CD-HIT软件、文档和其他有用资源的访问。 CD-HIT GitHub页面: github.com/weizhongli/c GitHub仓库包含源代码、安装说明和更新内容。 CD-HIT原始论文: Li, W., & Godzik, A. (2006). "CD-HIT: A fast program for clustering and compa...
cd-hit | 构建非冗余的数据集 最近一篇NG中使用到的软件,用来去除冗余的contigs,现简单记录。 cd-hit 是用于蛋白质序列或核酸序列聚类的工具,根据序列的相似度对序列进行聚类以去除冗余的序列,一般用于 用于后续的实验分析。 其去除冗余序列的大概思路就是: 首先对所有序列长度进行排序,从最长的开始,形成一个序列类...
最近一篇NG中使用到的软件,用来去除冗余的contigs,现简单记录。 CD-HIT早先是一个蛋白聚类的软件,其主要的特定就是快!(ps:不是所有快的都是好的) 其去除冗余序列的大概思路就是: 首先对所有序列长度进行排序,从最长的开始,形成一个序列类,然后依次对序列进行处理,如果下一条序列和代表的序列相似性在cutoff,则将...
Cd-hit在虚拟机的安装与使用 1.下载网址:https://github/weizhongli/cdhit/releases 下载版本:cd-hit-v4.6.8-2017-1208 2.进入到安装目录:如 qiime@qiime-190-virtual-box:~/Desktop/Shared_Folder/cd-hit-v4.6.8-2017-1208$ 3.输入文件为fasta文件,输出文件为fasta/fna文件 ...
CD-HIT有两个主程序: cd-hit:(cd-hit-est)将相似的蛋白聚类成聚类簇。 cd-hit-2d:(cd-hit-est-2d)比较两个数据库,并识别数据库2中与数据库1相似的序列。 cd-hit的命令参数如下所示: 代码语言:javascript 代码运行次数:0 复制 Cloud Studio代码运行 ...
在使用CD-HIT时,特别需要注意-aL、-AL、-aS和-AS这四个参数的使用,因为它们对于控制比对的严格程度至关重要。这些参数的具体含义可以通过查阅相关文档或图形化解释来进一步理解。准备输入文件 以fasta格式的input.fa文件为例进行说明。运行命令cd-hit -i input.fa -o output.fa -c 0.8 -aS 0.8 -d 0 ...
Pacbio三代全长转录组采用isoseq3 进行了转录本的筛选,聚类和校正之后得到高质量的转录本序列,可以对序列再进行一定的合并操作。 采用cDNA_Cupcaake 文档中提供的cd-hit方案,运行命令如下: cd-hit-est -i -o -c 0.99 -T 6 -G 0 -aL 0.90 -AL 100 -aS 0.99 -AS 30 参数说明: input:...
cd-hit 是一款用于将蛋白、核酸序列快速聚类的工具。由于宏基因组样品中可能包含相似物种,拼接结果中可能会存在一部分冗余序列,导致预测出来的基因包含冗余部分,可以通过聚类进行去冗余。 通常去冗余采用的聚类算法根据序列相似度对序列进行聚类,需要进行 all by all 的比较,例如 orthoMCL,不过这种方法非常耗时。而 cd...
cd-hit 默认 -t 这个参数值是2. 就是,你不设置,它就是2了。
j foo Jump To A Directory That Containsfoo, Preferring Child Directories: You can prioritize child directories over matches in the databases via jc foo Open File Manager To Directories (instead of jumping): Instead of jumping to a directory, you can open a file explorer window (Mac Finder, ...