PTI01840 – Data Science IV, Bestärkendes Lernen

Modul
Data Science IV, Bestärkendes Lernen
Data Science IV, Reinforcement Learning
Modulnummer
PTI01840
Version: 3
Fakultät
Physikalische Technik / Informatik
Niveau
Bachelor
Dauer
1 Semester
Turnus
Sommersemester
Modulverantwortliche/-r

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de

Dozent/-in(nen)

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de

Lehrsprache(n)

Deutsch - 80.00%
in "Data Science IV, Bestärkendes Lernen"

Englisch - 20.00%
in "Data Science IV, Bestärkendes Lernen"

ECTS-Credits

10.00 Credits

Workload

300 Stunden

Lehrveranstaltungen

8.00 SWS (3.00 SWS Praktikum | 5.00 SWS Vorlesung mit integr. Übung / seminaristische Vorlesung)

Selbststudienzeit

180.00 Stunden
180.00 Stunden Selbststudium - Data Science IV, Bestärkendes Lernen

Prüfungsvorleistung(en)

Testat
in "Data Science IV, Bestärkendes Lernen"

Prüfungsleistung(en)

schriftliche Prüfungsleistung
Modulprüfung | Prüfungsdauer: 120 min | Wichtung: 100%
in "Data Science IV, Bestärkendes Lernen"

Medienform
Keine Angabe
Lehrinhalte/Gliederung

Im Kern dieser Vorlesung steht das Bestärkende Lernen als eine der drei wichtigen Säulen des Maschinellen Lernens. Dabei nutzen Maschinen Feedback, das sie auf ihre Aktionen von der Umwelt erhalten, um die Erfolgsaussichten der einzelnen Aktionen in den verschiedenen Situationen besser einschätzen zu lernen. Das Feedback erhält die Maschine in Form eines mathematischen Äquivalents zu "Belohnung" und "Tadel", wenn sie ihr Ziel erreicht oder verfehlt hat. Sie soll lernen, welche Aktionen sie jeweils auswählen soll, um das Feedback, sprich die Nutzenfunktion, zu maximieren.

Folgende Themen werden hierbei besprochen und teils in Teamarbeit praktisch umgesetzt:

  • Markow-Entscheidungsprozess oder MDP für Markov decision process
  • Fixpunktsatz von Banach und Optimalitätsprinzip von Bellman (Bellman Equations)
  • Policy Iteration
  • Value Iteration
  • Q-Learning
  • Temporal Difference Learning (TD-Learning)
  •  Policy Gradient Methods
Qualifikationsziele

Die Studierenden besitzen tiefgreifende Kenntnisse im Lösen von Aufgabenstellungen beim Bestärkenden Lernen. Sie kennen und verstehen den theoretischen Rahmen (Markow-Entscheidungsprozess) sowie die Lösungsgleichungen von Bellman. Sie sind in der Lage, die richtige Auswahl elementarer Methoden und Konzepte zu treffen, die zur Anwendung auf und Lösung von Übungs- und Praxissaufgaben notwendig sind, wie z.B. Policy Iteration, Value Iteration, Q-Learning, Temporal Difference Learning, Policy Gradient Methods. Außerdem sind sie fähig, unter Verwendung von Hilfsmitteln wie vorlesungsbegleitender Literatur problemslösungsorientiert zu arbeiten. Die Studierenden können ergebnisorientiert im Team arbeiten.

Sozial- und Selbstkompetenzen
Keine Angabe
Besondere Zulassungsvoraussetzung

keine

Empfohlene Voraussetzungen
  • PTI182
  • PTI183
  • PTI171 - Mathematische Grundlagen I
  • PTI172 - Mathematische Grundlagen II
Fortsetzungsmöglichkeiten

PTI186, PTI187

Literatur
  • Vorlesungsskript
  • Sutton, Barto: Reinforcement Learning: An Introduction, IEEE Transactions on Neural Networks
  • Wiering, van Otterlo: Reinforcement Learning State-of-the-Art, Springer
  • Kochfelder Et al. Decision Making Under Uncertainty Theory and Application, MIT Press
  • Whiteson: Adaptive Representations for Reinforcement Learning, Springer
  • Cao: Markov Decision Processes, Springer
  • Busoniu, Babuska, Schutter, Ernst: Reinforcement Learning and Dynamic Programming Using Function Approximators Approximator, CRC Press
  • Mausam, Kolobov: Planning with Markov Decision Processes An AI Perspective, San Rafael, Calif. 
Hinweise
Keine Angabe