Métricas tradicionales: Métricas como la perplejidad y el puntaje BLEU no son tan populares como lo eran porque están defectuosas en la mayoría de los contextos. Aún es importante entenderlas y cuándo pueden ser aplicadas. Benchmarks generales: Basados en elLanguage Model Evaluation Harn...