非常感谢你们能够开源这么棒的模型,我现阶段想要复现bge-m3的微调,目前手上有的资源是8张 V100(32G)。具体的执行语句是: torchrun --nproc_per_node 8 \ -m FlagEmbedding.BGE_M3.run \ --output_dir ../../output/finetune/firstModel \ --model_name_or_path ./preModel/bge-m3-unsupervised/ \ -...
torchrun --nproc_per_node 1 --master_port=29501 \ -m FlagEmbedding.finetune.reranker.encoder_only.base \ --model_name_or_path /ymt-ai/models/bge-reranker-v2-m3 \ --cache_dir ./cache/model \ --train_data /nas/rcmd-mart/embedding/search_query_supply/train_data \ --cache_path ./...
BAAI/bge-m3中的colbert模型是基于XLMRoberta训练而来,因此使用ColBERT可以直接从bge-m3中加载预训练权重。 importtransformersfromretrievalsimportColBERT model_name_or_path:str='BAAI/bge-m3'model=ColBERT.from_pretrained(model_name_or_path,colbert_dim=1024,use_fp16=True,loss_fn=ColbertLoss(use_inbatch_neg...
1、在中文任务中,KaLM-Embedding 的平均分数为 64.13,显著高于其他模型(如 multilingual-e5-large 的 58.54)。在英文任务中,KaLM-Embedding 的平均分数为 64.94,优于其他模型(如 bge-m3 的 59.84)。 2、尽管训练数据主要包含中文和英文,KaLM-Embedding 在其他语言(如法语和波兰语)上的表现也较为出色,显示出良好...