2、reranker微调,这里以beg的reranker为例:https://github.com/FlagOpen/FlagEmbedding/blob/master/examples/reranker/README.md ;训练样本的格式和embedding是一样的,但是也要先对训练样本的格式做转换: def__getitem__(self, item) ->List[BatchEncoding]:#获取当前数据项的 query 和正样本query = self.dat...
model_names_or_paths=["/bge-reranker-v2-m3/bge-reranker-v2-m3", "/bge-reranker-v2-m3-finetune/checkpoint-5500/"], model_type='encoder', weights=[0.1, 0.9], # you can change the weights to get a better trade-off. output_path='/mixed_bge-reranker-v2-m3') 训练前: reranker =...
介绍一个优秀的文本转向量模型的代码库,看看他的微调代码是如何实现的。是基于transformers做的二次开发,代码写的非常优雅,对transformers的二次开发感兴趣(定义自己的数据、模型、训练器)的同学,建议研读。bge的reranker模型, 视频播放量 6426、弹幕量 2、点赞数 124
2. 使用大模型做重排 fromretrievalsimportLLMRanker model_name='BAAI/bge-reranker-v2-gemma'model=LLMRanker.from_pretrained(model_name,causal_lm=True,use_fp16=True,)score=model.compute_score(['query','passage'])print(score)scores=model.compute_score([['what is panda?','hi'],['what is panda?