PTI01841 – Data Science IV, Reinforcement Learning

Module
Data Science IV, Reinforcement Learning
Data Science IV, Bestärkendes Lernen
Module number
PTI01841
Version: 1
Faculty
Physikalische Technik / Informatik
Level
Bachelor
Duration
1 Semester
Semester
Summer semester
Module supervisor

Prof. Dr. Jens Flemming
Jens.Flemming(at)fh-zwickau.de

Lecturer(s)

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de
Lecturer in: "Data Science IV, Bestärkendes Lernen"

Prof. Dr. Jens Flemming
Jens.Flemming(at)fh-zwickau.de
Lecturer in: "Data Science IV, Bestärkendes Lernen"

Course language(s)

German - 80.00%
in "Data Science IV, Bestärkendes Lernen"

English - 20.00%
in "Data Science IV, Bestärkendes Lernen"

ECTS credits

10.00 credits

Workload

300 hours

Courses

8.00 SCH (3.00 SCH Internship | 5.00 SCH Lecture with integrated exercise / seminar-lecture)

Self-study time

180.00 hours
180.00 hours Self-study - Data Science IV, Bestärkendes Lernen

Pre-examination(s)

Software project
in "Data Science IV, Bestärkendes Lernen"

Examination(s)

mündliche Prüfungsleistung
Module examination | Examination time: 30 min | Weighting: 100%
in "Data Science IV, Bestärkendes Lernen"

Media type
No information
Instruction content/structure

Im Modul werden die Grundlagen des bestärkenden maschinellen Lernens (Reinforcement-Learning) erarbeitet und wichtige Teilgebiete vertieft.

Das bestärkende Lernen bildet neben überwachtem und unüberwachtem Lernen eine der drei Säulen des maschinellen Lernens. Es ist ein wesentlicher Baustein moderner künstlicher Intelligenz und kommt Prozessen der menschlichen Entscheidungsfindung deutlich näher als die anderen beiden Säulen.

Grundgedanke ist die Interpretation eines Computerprogramms als "Agent", der in einer Umwelt agiert und mit dieser interagiert. Diese Umwelt reagiert auf Aktionen des Agenten und liefert diesem Feedback, welches wiederum die weiteren Aktionen des Agenten beeinflusst. Basierend auf Lob und Tadel bzw. Versuch und Irrtum lernt der Agent, welche Aktionen in welcher Situation die geeigneten sind.

Im Modul werden folgende Themen behandelt und bevorzugt in Teamarbeit praktisch umgesetzt:

  • mehrarmige Banditen
  • Markow-Entscheidungsprozesse (MDPs), Bellman-Gleichung
  • dynamische Programmierung, insbesondere Policy-Iteration und Value-Iteration
  • Temporal-Difference-Learning, insbesondere Q-Learning
  • Policy-Gradient-Methods
Qualification objectives

Die Studierenden beherrschen die theoretischen Grundlagen und kennen wesentliche Modelle des bestärkenden Lernens. Sie sind in der Lage, Verfahren des bestärkenden Lernens praktisch einzusetzen sowie Möglichkeiten und Grenzen zu beurteilen.

Die Studierenden sind mit besonderen Anforderungen bei der Arbeit in Teams vertraut und können Aufgaben problemlösungs- und ergebnisorientiert im Team umsetzen.

Sie sind umfassend genug mit dem Themengebiet des bestärkenden Lernens vertraut um ihr Wissen auf Basis von eigenständigem Literaturstudium erweitern und vertiefen zu können.

Special admission requirements

keine

Recommended prerequisites
  • PTI11820 - Data Science II, Datenvisualisierung und Überwachtes Lernen
  • PTI11830 - Data Science III, Überwachtes und Unüberwachtes Lernen 
  • PTI01710 - Mathematische Grundlagen I
  • PTI01720 - Mathematische Grundlagen II
Continuation options

PTI01860, PTI01870

Literature
  • Vorlesungsskript
  • Sutton, Barto: Reinforcement Learning: An Introduction, IEEE Transactions on Neural Networks
  • Wiering, van Otterlo: Reinforcement Learning State-of-the-Art, Springer
  • Kochfelder Et al. Decision Making Under Uncertainty Theory and Application, MIT Press
  • Whiteson: Adaptive Representations for Reinforcement Learning, Springer
  • Cao: Markov Decision Processes, Springer
  • Busoniu, Babuska, Schutter, Ernst: Reinforcement Learning and Dynamic Programming Using Function Approximators Approximator, CRC Press
  • Mausam, Kolobov: Planning with Markov Decision Processes An AI Perspective, San Rafael, Calif. 
Notes

Die Modulprüfung kann in deutscher und englischer Sprache abgelegt werden.