Videobasierte Gestenerkennung in einer intelligenten Umgebung
dc.contributor.advisor | Fink, Gernot A. | |
dc.contributor.author | Richarz, Jan | |
dc.contributor.referee | Müller, Heinrich | |
dc.date.accepted | 2011-12-14 | |
dc.date.accessioned | 2012-01-19T07:13:05Z | |
dc.date.available | 2012-01-19T07:13:05Z | |
dc.date.issued | 2012-01-19 | |
dc.description.abstract | Diese Dissertation umfasst die Konzeption einer berührungslosen und nutzerunabhängigen visuellen Klassifikation von Armgesten anhand ihrer räumlich-zeitlichen Bewegungsmuster mit Methoden der Computer Vision, der Mustererkennung und des maschinellen Lernens. Das Anwendungsszenario ist hierbei ein intelligenter Konferenzraum, der mit mehreren handelsüblichen Kameras ausgerüstet ist. Dieses Szenario stellt aus drei Gründen eine besondere Herausforderung dar: Für eine möglichst intuitive Interaktion ist es erstens notwendig, die Erkennung unabhängig von der Position und Orientierung des Nutzers im Raum zu realisieren. Somit werden vereinfachende Annahmen bezüglich der relativen Positionen von Nutzer und Kamera weitgehend ausgeschlossen. Zweitens wird ein realistisches Innenraumszenario betrachtet, bei dem sich die Umgebungsbedingungen abrupt ändern können und sehr unterschiedliche Blickwinkel der Kameras auftreten. Das erfordert die Entwicklung adaptiver Methoden, die sich schnell an derartige Änderungen anpassen können bzw. in weiten Grenzen dagegen robust sind. Drittens stellt die Verwendung eines nicht synchronisierten Multikamerasystems eine Neuerung dar, die dazu führt, dass während der 3D-Rekonstruktion der Hypothesen aus verschiedenen Kamerabildern besonderes Augenmerk auf den Umgang mit dem auftretenden zeitlichen Versatz gelegt werden muss. Dies hat auch Folgen für die Klassifikationsaufgabe, weil in den rekonstruierten 3D-Trajektorien mit entsprechenden Ungenauigkeiten zu rechnen ist. Ein wichtiges Kriterium für die Akzeptanz einer gestenbasierten Mensch-Maschine-Schnittstelle ist ihre Reaktivität. Daher wird bei der Konzeption besonderes Augenmerk auf die effiziente Umsetzbarkeit der gewählten Methoden gelegt. Insbesondere wird eine parallele Verarbeitungsstruktur realisiert, in der die verschiedenen Kameradatenströme getrennt verarbeitet und die Einzelergebnisse anschließend kombiniert werden. Im Rahmen der Dissertation wurde die komplette Bildverarbeitungspipeline prototypisch realisiert. Sie umfasst unter anderem die Schritte Personendetektion, Personentracking, Handdetektion, 3D-Rekonstruktion der Hypothesen und Klassifikation der räumlich-zeitlichen Gestentrajektorien mit semikontinuierlichen Hidden Markov Modellen (HMM). Die realisierten Methoden werden anhand realistischer, anspruchsvoller Datensätze ausführlich evaluiert. Dabei werden sowohl für die Personen- als auch für die Handdetektion sehr gute Ergebnisse erzielt. Die Gestenklassifikation erreicht Klassifikationsraten von annähernd 90% für neun verschiedene Gesten. | de |
dc.identifier.uri | http://hdl.handle.net/2003/29287 | |
dc.identifier.uri | http://dx.doi.org/10.17877/DE290R-3260 | |
dc.language.iso | de | de |
dc.subject | Computer-Vision | de |
dc.subject | Dynamische Armgesten | de |
dc.subject | Gestenerkennung | de |
dc.subject | Intelligente Umgebungen | de |
dc.subject | Mehrkamerasystem | de |
dc.subject | Mensch-Maschine-Interaktion | de |
dc.subject | Mustererkennung | de |
dc.subject | Zeigegesten | de |
dc.subject.ddc | 004 | |
dc.title | Videobasierte Gestenerkennung in einer intelligenten Umgebung | de |
dc.type | Text | de |
dc.type.publicationtype | doctoralThesis | de |
dcterms.accessRights | open access |