En las primeras etapas de entrenamiento, las predicciones del modelo no son muy buenas. Pero cada vez que el modelo predice un token, verifica si es correcto con respecto a los datos de entrenamiento. Ya sea correcta o incorrecta, un algoritmo de "retropropagación" ajusta los parámetros...
Pero cada vez que el modelo predice un token, verifica si es correcto con respecto a los datos de entrenamiento. Ya sea correcta o incorrecta, un algoritmo de "retropropagación" ajusta los parámetros, es decir, los coeficientes de las fórmulas, en cada celda de la pila que hizo ...