A Survey on Evaluation of Large Language Models 原文链接:A Survey on Evaluation of Large Language Models Github链接:https://github.com/MLGroupJLU/LLM-eval-survey 大型语言模型(LLM)由于其在各种应用中前所未有的性能,在学术界和工业界都越来越受欢迎。随着LLM在研究和日常使用中继续发挥重要作用,如何对其...
此外,Jiang等人(2023)从各种文本生成数据集(包括摘要、翻译和data2text)中采样数据,其系统输出包括真实系统输出和GPT-4合成,并提示GPT-4策划错误分析以调优LLaMA进行细粒度评估。论文标题:Leveraging Large Language Models for NLG Evaluation: A Survey 论文链接:https://arxiv.org/abs/2401.07103 #我是科技...
a survey on evaluation of llmsa survey on evaluation of llms中文翻译 a survey on evaluation of llms翻译成中文意思为:远程学习管理系统评价研究综述。©2022 Baidu |由 百度智能云 提供计算服务 | 使用百度前必读 | 文库协议 | 网站地图 | 百度营销 ...
此外,Jiang等人(2023)从各种文本生成数据集(包括摘要、翻译和data2text)中采样数据,其系统输出包括真实系统输出和GPT-4合成,并提示GPT-4策划错误分析以调优LLaMA进行细粒度评估。 论文标题:Leveraging Large Language Models for NLG Evaluation: A Survey 论文链接:https://arxiv.org/abs/2401.0710...
A Survey of Useful LLM Evaluation 来自 arXiv.org 喜欢 0 阅读量: 5 作者:JL Peng,S Cheng,E Diau,YY Shih,PH Chen,YT Lin,YN Chen 摘要: LLMs have gotten attention across various research domains due to their exceptional performance on a wide range of complex tasks. Therefore, refined ...
The papers are organized according to our survey: Evaluating Large Language Models: A Comprehensive Survey. - tjunlp-lab/Awesome-LLMs-Evaluation-Papers
[1]Huang Y, Bai Y, Zhu Z, et al. C-eval: A multi-level multi-discipline chinese evaluation suite for foundation models[J]. arXiv preprint arXiv:2305.08322, 2023. [2]Yu J, Wang X, Tu S, et al. KoLA: Carefully Benchmarking World Knowledge of Large Language Models[J]. arXiv prepr...
该工作主要梳理了LLM-based Agent 中的规划(planning)能力。 Paper:Understanding the planning of LLM agents: A survey ArXiv:https://arxiv.org/abs/2402.02716 文章中,作者将planning能力进一步细分为了五个维度: • 任务分解(Task Decomposition)
Paper:Understanding the planning of LLM agents: A survey ArXiv:https://arxiv.org/abs/2402.02716 文章中,作者将planning能力进一步细分为了五个维度: 1. 引言 (Introduction) 2. 任务分解 (Task Decomposition) 现实世界中的任务通常是复杂和多步骤的,直接通过单步规划过程来解决复杂任务是一项巨大挑战。任务分解...
When Neural Model Meets NL2Code: A Survey[J]. arXiv preprint arXiv:2212.09420, 2022.(这篇论文之前叫Large Language Models Meet NL2Code: A Survey ,改名了)[5]Liang P, Bommasani R, Lee T, et al. Holistic evaluation of language models[J]. arXiv preprint arXiv:2211.09110, 2022.[6]Lees ...