(1)本文基于Debian 11,安装使用的是CD-HIT 4.8.1。 (2)CD-HIT的安装目录为/opt/cd-hit/4.8.1,需要提前建立。 (3)使用的测试数据是双端测序数据,合并要用到pandaseq,可以参考使用pandaseq合并双端测序实战这篇文章安装。 安装 安装依赖: apt-get install zlib1g-dev 从GitHub上下载CD-HIT源码并编译安装: ...
首先进入国家微生物科学数据中心首页www.nmdc.cn,选择分析工具的入口按钮,进入分析工具界面。 · 2 · 在分析工具主界面,选择工具进行使用,这里CD-hit以为例。 · 3 · 点击CD-hit工具的查看详情按钮进到CD-hit的工具详情页,链接地址:https://nmdc.cn/analyze/details?id=60067b3f0b38496ee0c90951 · 4 ·...
一般使用cd-hit对protein dataset去冗余时,设置一个较低的identity cut-off, 比如0.2-0.5(即相似性大于20-50%的序列都为一类) 参考:cd-hit介绍(包括优缺点)
2. 去除冗余序列——蛋白质序列 ./cd-hit -i seq.fasta -o seq-out.fasta -c 0.4 -T 4 -n 2 #-i 输入文件,fasta格式 #-o 输出文件 #-c 相似性,0.4代表相似度大于40%的为一类 #-n 两两序列进行序列比对时选择的 word size #-T 使用的线程数 #Choose of word size: #-n 5 for thresholds ...
CD-HIT是一个用于宏基因组分析的工具,它可以用于聚类和减少高通量测序(HTS)数据集的复杂性。在各种 HTS 平台上生成大量的序列数据,并对生物体中的微生物进行分类和注释时,该工具显得尤为重要。 在宏基因组分析中使用 CD-HIT,可以将高通量序列数据按照相似性信息进行分类,通过去除冗余序列来减少数据存储和计算复杂度...
生信分析中经常要根据指定条件查找相似序列,比如构建多个样品间的非冗余基因集、分析样品间的相似程度等等,cd-hit这款软件就可以用较短的时间解决此类问题。其工作原理可概述为:将所有序列按照参数设定进行聚类,并将每一组聚类中的最长序列作为代表序列进行输出,同时给出每组聚类下的每个序列名可供相似度分析使用。下面...
tar -zxvf cd-hit-v4.6.8-2017-1208-source.tar.gz ## 解压 cd cd-hit-v4.6.8-2017-1208 make ## 编译 cd cd-hit-auxtools make ## 编译 ## 如果编译失败,可以下载二进制版本,解压就可以使用不用编译 wget https://github.com/weizhongli/cdhit/releases/download/V4.6.7/cd-hit-v4.6.7-2017-...
可以将Trinity.fasta最长转录本作为unigenes,也可以使用其他软件,如GTICL和cd-hit。一般GTICL和cd-hit得到的unigenes比Trinity软件得到的数量要多,有人指出在GTICL和cd-hit的结果中能找到自己想要的基因,而在最长库中有的难以找到。 1. 安装 Cd-hit下载网址为https://github.com/weizhongli/cdhit。
Cd-hit在虚拟机的安装与使用1.下载网址:https://github/weizhongli/cdhit/releases下载版本:cd-hit-v4.6.8-2017-12082.进入到安装目录:如qiime@qiime-190-virtual-box:~/Desktop/Shared_Folder/cd-hit-v4.6.8-2017-1208$3.输入文件为fasta文件,输出文件为fasta/fna文件4.在虚拟机系统输入是以下格式:./cd-...