为了解决这一问题,李沐团队(Boson AI 创始人)发布了 Higgs-Llama-3-70B,一个专门针对角色扮演任务进行优化的 LLM。该模型基于 Meta 的 LLaMA-3-base 模型,并在角色扮演能力方面进行了针对性的训练。技术特点 Higgs-Llama-3-70B 的核心技术在于其独特的角色扮演训练方法,以及对通用任务的强大支持:角色扮演...
角色扮演任务:团队在两个新颖且具有挑战性的基准测试中测试了 Higgs-Llama-3-70B 的性能。 MMLU-Pro:该测试包含多个领域的多任务问题,Higgs-Llama-3-70B 在该测试中取得了 63.2 分,超过了同等规模的 LLaMA-3-70B-Instruct 模型,以及包括GPT-4o、Gemini-1.5-Pro等在内的其他先进模型。 Arena-hard:该测试包含...
Higgs-Llama-3-70B 的角色扮演能力和通用任务能力使其在多个领域具有广泛的应用前景: 游戏:Higgs-Llama3可以被应用于游戏开发中,为游戏角色赋予更丰富、更真实的个性和对话能力,提升玩家的游戏体验。 教育:Higgs-Llama3可以扮演不同角色的老师,为学生提供个性化的学习内容和指导,帮助学生更有效地学习。 客服:Higgs-Ll...
Higgs-Llama-3-70B是一个基于Meta-Llama-3-70B的后训练模型,特别针对角色扮演进行了优化,同时在通用领域指令执行和推理方面保持竞争力。该模型通过监督式微调,结合人工标注者和私有大型语言模型构建偏好对,进行迭代偏好优化以对齐模型行为,使其更贴近系统消息。与其它指令型模型相比,Higgs模型更紧密地遵循其角色。 数据...
其他男配,女配:性别不那么重要,都是好兄弟👬 暂时用英文。 三卡可以用gemma2-27b_q8 中文的话得 qwen2-70b. 三卡可以q5/q6 18G3 六卡可以q8 245=96G+24=144G 这是我看过很实在的一个推荐,B站上充满了各种模型营销视频,毫无营养,一些“跟gpt4掰手腕”的模型在实际应用上效果很不好。 gemma2-9b目...
fromhiggsfield.llamaimportLlama70bfromhiggsfield.loadersimportLlamaLoaderfromhiggsfield.experimentimportexperimentimporttorch.optimasoptimfromalpacaimportget_alpaca_data@experiment("alpaca")deftrain(params):model=Llama70b(zero_stage=3,fast_attn=False,precision="bf16")optimizer=optim.AdamW(model.parameters(),...