um ein „Belohnungsmodell“ zu trainieren, damit es Muster für die Art von Reaktionen lernt, die Menschen bevorzugen. Die Vorhersagen des Belohnungsmodells (ob eine bestimmte Reaktion von Menschen bevorzugt wird) werden in ein skalaresBelohnungssignalumgewandelt. Das Belohnungsmodell wi...