Vision par ordinateur pour l'interaction homme-machine fortement couplée

Computer vision for tightly coupled human-computer interaction

[document complet, en français, 3.3 Mo]

Thèse présentée par François Bérard pour obtenir le titre de Docteur de l'Université Joseph Fourier, spécialité informatique.
Le 30 novembre 1999, à 13h30, à la Maison Jean Kuntzmann sur le Campus de Grenoble.
On novembre 30, 1999 at 1:30 pm. at the Maison Jean Kuntzmann on the Grenoble Campus.

[Jury] [Résumé] [Mots-clefs] [Abstract] [Key words]

Composition du Jury

Jean-Pierre Verjus Président
Michel Beaudouin-Lafon Rapporteur
Monique Thonnat Rapporteur
Michael J. Black Examinateur
Giorgio Faconti Examinateur
Joëlle Coutaz Directeur de thèse
James L. Crowley Co-directeur de thèse

Résumé

Cette thèse traite de l'usage de la vision par ordinateur pour des situations d'interaction fortement couplée (IFC) entre l'Homme et la machine. Une interaction est fortement couplée sur un intervalle de temps donné lorsque les systèmes humain et artificiel sont engagés de manière continue dans l'accomplissement d'actions physiques mutuellement observables et dépendantes sur cet intervalle. Le déplacement d'un objet graphique avec la souris relève de l'IFC. Nous modélisons l'IFC sous la forme d'un système en boucle fermée constitué de deux sous-systèmes de type stimulus-réponse. Ce modèle permet d'identifier des requis applicables à la conception, à la réalisation ou à l'évaluation de dispositifs utilisables en IFC. En particulier, nous recommandons une latence inférieure à 50 ms., une résolution adaptée à la tâche utilisateur et la satisfaction de la stabilité statique. Nous considérons ensuite l'usage de la vision par ordinateur dans ce contexte.

Une revue des deux approches dominantes du domaine, vision orientée modèle et vision par apparence, nous permet de justifier notre choix de la seconde dont les techniques, de plus faible complexité de calcul, sont susceptibles de satisfaire le requis de latence. Nous présentons ensuite les techniques de vision par ordinateur que nous avons réalisées en adoptant une approche résolument dirigée par la tâche utilisateur. Les deux derniers chapitres détaillent nos expérimentations à la fois techniques et ergonomiques avec la mise en oeuvre de deux prototypes : le tableau magique et la fenêtre perceptuelle. Le premier utilise un suivi du doigt en vision par ordinateur pour la désignation d'inscriptions sur un tableau blanc physique amplifié de services électroniques. La fenêtre perceptuelle, quant à elle, utilise un suivi du visage comme nouveau flux d'entrée spatiale dans une interface graphique usuelle. Ce flux est utilisé pour la navigation dans une fenêtre.

Mots-clés

Interaction homme-machine, vision par ordinateur, interaction fortement couplée, suivi de doigt, suivi de visage, réalité augmentée, dispositif d'entrée, interaction à plusieurs flux d'entrée spatiale.

Abstract

This thesis focuses on the use of computer vision in the context of tightly coupled interaction (TCI) between people and computers. The interaction is tightly coupled within a time interval when the human and artificial systems are continuously engaged in the accomplishment of physical actions that are mutually observable and dependent on this interval. Moving a graphical object with a mouse involves a TCI. We model the TCI as a closed-loop system composed of two stimulus - response subsystems. This model permits the identification of requirements relevent to the conception, the realization or the evaluation of devices in terms of their ability to support TCI. In particular, their ability to operate with a latency of less than 50 ms., with both a resolution and a static stability suitable for the userÕs task. We then consider the use of computer vision in this context.

A review of the two dominant approaches in the domain, model-based vision and appearance-based vision, justifies our choice of the latter. Its techniques are more suitable because they are less costly in terms of computational complexity and consequently more likely to satisfy the latency requirement. We present computer vision techniques that we have developed in accordance with our resolutely task-driven approach to design. The two final chapters present our technical and ergonomic investigations of two prototype systems: the magic board and the perceptual window. The former uses a computer-vision finger tracker to manipulate drawings in order to implement electronic services on an ordinary physical whiteboard. The latter uses a computer-vision face tracker as a new kind of spatial input stream for an ordinary graphical user interface. This input stream is used to navigate in a graphical window.

Key words

Human-computer interaction, computer vision, tightly coupled interaction, finger tracking, face tracking, augmented reality, input devices, multiple input streams.