PTI01840 – Data Science IV, Reinforcement Learning

Module
Data Science IV, Reinforcement Learning
Data Science IV, Bestärkendes Lernen
Module number
PTI01840
Version: 3
Faculty
Physikalische Technik / Informatik
Level
Bachelor
Duration
1 Semester
Semester
Summer semester
Module supervisor

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de

Lecturer(s)

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de

Course language(s)

German - 80.00%
in "Data Science IV, Bestärkendes Lernen"

English - 20.00%
in "Data Science IV, Bestärkendes Lernen"

ECTS credits

10.00 credits

Workload

300 hours

Courses

8.00 SCH (3.00 SCH Internship | 5.00 SCH Lecture with integrated exercise / seminar-lecture)

Self-study time

180.00 hours
180.00 hours Self-study - Data Science IV, Bestärkendes Lernen

Pre-examination(s)

Attestation
in "Data Science IV, Bestärkendes Lernen"

Examination(s)

schriftliche Prüfungsleistung
Module examination | Examination time: 120 min | Weighting: 100%
in "Data Science IV, Bestärkendes Lernen"

Media type
No information
Instruction content/structure

Im Kern dieser Vorlesung steht das Bestärkende Lernen als eine der drei wichtigen Säulen des Maschinellen Lernens. Dabei nutzen Maschinen Feedback, das sie auf ihre Aktionen von der Umwelt erhalten, um die Erfolgsaussichten der einzelnen Aktionen in den verschiedenen Situationen besser einschätzen zu lernen. Das Feedback erhält die Maschine in Form eines mathematischen Äquivalents zu "Belohnung" und "Tadel", wenn sie ihr Ziel erreicht oder verfehlt hat. Sie soll lernen, welche Aktionen sie jeweils auswählen soll, um das Feedback, sprich die Nutzenfunktion, zu maximieren.

Folgende Themen werden hierbei besprochen und teils in Teamarbeit praktisch umgesetzt:

  • Markow-Entscheidungsprozess oder MDP für Markov decision process
  • Fixpunktsatz von Banach und Optimalitätsprinzip von Bellman (Bellman Equations)
  • Policy Iteration
  • Value Iteration
  • Q-Learning
  • Temporal Difference Learning (TD-Learning)
  •  Policy Gradient Methods
Qualification objectives

Die Studierenden besitzen tiefgreifende Kenntnisse im Lösen von Aufgabenstellungen beim Bestärkenden Lernen. Sie kennen und verstehen den theoretischen Rahmen (Markow-Entscheidungsprozess) sowie die Lösungsgleichungen von Bellman. Sie sind in der Lage, die richtige Auswahl elementarer Methoden und Konzepte zu treffen, die zur Anwendung auf und Lösung von Übungs- und Praxissaufgaben notwendig sind, wie z.B. Policy Iteration, Value Iteration, Q-Learning, Temporal Difference Learning, Policy Gradient Methods. Außerdem sind sie fähig, unter Verwendung von Hilfsmitteln wie vorlesungsbegleitender Literatur problemslösungsorientiert zu arbeiten. Die Studierenden können ergebnisorientiert im Team arbeiten.

Special admission requirements

keine

Recommended prerequisites
  • PTI182
  • PTI183
  • PTI171 - Mathematische Grundlagen I
  • PTI172 - Mathematische Grundlagen II
Continuation options

PTI186, PTI187

Literature
  • Vorlesungsskript
  • Sutton, Barto: Reinforcement Learning: An Introduction, IEEE Transactions on Neural Networks
  • Wiering, van Otterlo: Reinforcement Learning State-of-the-Art, Springer
  • Kochfelder Et al. Decision Making Under Uncertainty Theory and Application, MIT Press
  • Whiteson: Adaptive Representations for Reinforcement Learning, Springer
  • Cao: Markov Decision Processes, Springer
  • Busoniu, Babuska, Schutter, Ernst: Reinforcement Learning and Dynamic Programming Using Function Approximators Approximator, CRC Press
  • Mausam, Kolobov: Planning with Markov Decision Processes An AI Perspective, San Rafael, Calif. 
Notes
No information