Authors: Brockmann, Christian
Title: Remote vision based multi gesture interaction in natural indoor environments
Language (ISO): en
Abstract: Der Einsatz von Computersehen als Sensor für die Interaktion mit technischen Systemen hat in den letzten Jahren starkes Interesse gefunden. In vielen der bekannt gewordenen Fallstudien und Anwendungen werden Posen oder Bewegungen einer interagierenden Person durch einen Rechner, der mit Kameras ausgestattet ist, beobachtet, und die Reaktionen des Rechners dem Benutzer angezeigt, der sein Verhalten dann so ändert, dass ein gewünschtes Interaktionsziel erreicht wird. Diese Arbeit greift zwei wesentliche Schwierigkeiten der computersehensbasierten oder perzeptuellen Mensch-Maschine-Interaktion auf: das Unterscheiden von Gesten von willkürlichen Körperhaltungen oder Bewegungen sowie der Umgang mit natürlichen Umgebungen. Ferner wird die Frage der Abtrennung der computersehensbasierten Schnittstelle von der Anwendung angegangen, analog zu heutigen anwendungsunabhängigen graphischen Benutzungsschnittstellen. Wesentliche Beiträge sind - eine so genannte "Interaktionsraumarchitektur", die die computersehensbasierte Schnittstelle von der Anwendung durch eine Folge von Interaktionsräumen entkoppelt, die aufeinander abgebildet werden, - eine so genannte "Interaktionsraumarchitektur", die die computersehensbasierte Schnittstelle von der Anwendung durch eine Folge von Interaktionsräumen entkoppelt, die aufeinander abgebildet werden, - ein Konzept der "Mehrtyp-Gesteninteraktion", die verschiedene Gesten mit örtlichen und zeitlichen Randbedingungen kombiniert, um so die Zuverlässigkeit der Gestenerkennung zu erhöhen, - zwei Konzepte zur optischen Kalibrierung des Interaktionsraumes, die den Aufwand der Integration von Kameras in die Interaktionsumgebung reduzieren, - eine Lösung des Problems der Kombination von Zeigegesten mit statischen Handgesten durch die Verwendung von statischen Kameras für globale Ansichten und rechnergesteuerten aktiven Kameras für lokal angepasste Ansichten, - eine Kombination von mehreren Methoden, um das Problem von unzuverlässigen Ergebnissen der Bildsegmentierung zu mindern, die durch wechselnde Beleuchtung, die für natürliche Umgebungen typisch ist, hervorgerufen werden: Fehlererkennung und Konturkorrektur auf Grundlage von Bildfolgen und mehreren Ansichten, situationsabhängige Signalverarbeitung sowie automatische Parameteranpassung. Die Tragfähigkeit der Konzepte wird anhand eines Systems zur computersehensbasierten Interaktion mit einer Rückprojektionswand nachgewiesen, das implementiert und evaluiert wurde.
Computer vision as a sensor of interaction with technical systems has found increasing interest in the past few years. In many of the proposed case studies and applications, the user's current pose or motion is observed by cameras attached to a computer, and the computer's reaction is displayed to the user who changes the pose accordingly in order to reach a desired goal of interaction. The focus of this thesis is on two major difficulties of computer vision-based, or perceptual, human-computer interaction: distinguishing gestures from arbitrary postures or motions, and coping with troubles caused by natural environments. Furthermore, we address the question of decoupling the computer vision-based interface from the application in order to achieve independency between both, analogously to today's application-independent graphical user interfaces. The main contributions are - a so-called “interaction space architecture” which decouples the computer vision interface from the application by using a sequence of interaction spaces mapped on each other, - a concept of “multi-type gesture interaction” which combines several gestures with spatial and temporal constraints in order to increase the reliability of gesture recognition, two concepts of optical calibration of the interaction space which reduce the efforts of integrating the cameras as sensors in the environment of interaction, a solution to the problem of combining pointing gestures with static hand gestures, by using static cameras for global views and computer-controlled active cameras for locally adapted views, a combination of several methods for coping with unreliable results of image segmentation caused by varying illumination typical for natural environments: error detection and contour correction from image sequences and multiple views, situation-dependent signal processing, and automatic parameter control. The concepts are proved based on a system for computer vision-based interaction with a backprojection wall, which has been implemented and evaluated.
Subject Headings: Human computer interaction
Computer vision
Gesture recognition
Real-time image processing
Tracking
URI: http://hdl.handle.net/2003/24211
http://dx.doi.org/10.17877/DE290R-8200
Issue Date: 2007-03-27T05:56:28Z
Appears in Collections:LS 07 Graphische Systeme

Files in This Item:
File Description SizeFormat 
diss.pdfDNB50.6 MBAdobe PDFView/Open
Diss.ps9.17 MBPostscriptView/Open


This item is protected by original copyright



This item is protected by original copyright rightsstatements.org