在实际应用的时候需要注意选择的word长度与threshold的匹配。 CD-HIT可以在GitHub下载,安装方法如下所示: 代码语言:javascript 代码运行次数:0 运行 AI代码解释 wget-c https://github.com/weizhongli/cdhit/releases/download/V4.8.1/cd-hit-v4.8.1-2019-0228.tar.g
This CD-HIT is a part of other programs. Contribute to wym6912/cd-hit development by creating an account on GitHub.
安装本地 CD-HIT 服务器。这可以通过 Docker 完成, https://github.com/weizhongli/cdhit-web-server。 最新版下载地址github.com/weizhongli/c 通过设置适当的相似性阈值,CD-HIT可以帮助有效管理大型数据集,按相似性将序列分组,减少冗余,并简化后续分析任务。
Makefile README.md cdhit-454.c++ cdhit-common.c++ cdhit-common.h cdhit-est.c++ cdhit-utility.c++ cdhit-utility.h cdhit.c++ license.txt README GPL-2.0 license For cd-hit Module This is the part ofcd-hitmodified bygitee@wym6912/github@wym6912, which is a module of the other program. ...
当你搜索某个蛋白的同源序列后,BLAST出一堆序列,很多还是序列非常相似,甚至完全一样的序列,那么如何去除这些高度相似的序列呢? CD-hit(weizhong-lab.ucsd.edu/c)一种序列聚类软件,用于去除冗余序列,安装及使用方法如下: 1. 安装 #软件包下载(https://github.com/weizhongli/cdhit/releases/): wget https://gi...
可以将Trinity.fasta最长转录本作为unigenes,也可以使用其他软件,如GTICL和cd-hit。一般GTICL和cd-hit得到的unigenes比Trinity软件得到的数量要多,有人指出在GTICL和cd-hit的结果中能找到自己想要的基因,而在最长库中有的难以找到。 1. 安装 Cd-hit下载网址为https://github.com/weizhongli/cdhit。
git clone https://github.com/weizhongli/cdhit.git cd cdhit make #修改环境变量 vim /etc/profile export PATH=/data/software/cdhit:$PATH source /etc/profile 2.2 使用 输入的文件是fasta格式的序列文件,通过序列比对聚类(Cluster)的方法去除冗除、相似的序列,最后输出一个非冗除(non-redundant,nr)的序列...
https://github.com/weizhongli/cdhit/releases 安装 cd-hit的使用 包含的程序和用途 cd-hit 的基本用法 参数说明 -i 输入文件,fasta格式的序列 -o 输出文件路径和名字 -c 相似性(clustering threshold),0.9表示相似性大于等于90%的为一类 -n 两两序列进行序列比对时选择的 word size ...
cd-hit可以从其官方网站或生物信息学软件仓库(如GitHub、Bioconda等)下载。安装过程通常涉及解压下载的文件并按照安装说明进行配置。由于安装步骤可能因操作系统而异,这里不具体展开。 4. 运行cd-hit软件,并设置适当的去冗余参数 运行cd-hit时,你需要指定输入文件、输出文件以及序列相似性的阈值(通常以百分比表示)。例...
点击该处进行下载https://github.com/weizhongli/cdhit/archive/V4.6.2.tar.gz tar-zxf cdhit-4.6.2.tar.gz cd tar-zxf cdhit-4.6.2.tar.gz make 其输入格式为fasta的格式 简单使用 cd-hit-i all.fasta-o new.fa-c0.9-aS0.8-d0 参数 -i : 输入文件,fasta ...