再使用CD-hit 命令默认参数将序列进行去重复 然后使用seqkit seq -i 获取序列的id 再使用seqkit grep -f 获取原先每个bin中的fasta序列 注:转成氨基酸序列后,保证了序列相似度识别的准确性,再进行去冗余后可以尽可能保证剩余序列的唯一性