Wie der Name schon sagt, passt der TD-Lernagent seine Strategie entsprechend der Differenz zwischen vorhergesagten und tatsächlich erhaltenen Belohnungen in jedem Zustand an. Das heißt, während bei der dynamischen Programmierung und Monte Carlo nur die erhaltene Belohnung berücksichtigt...