FI/SPECIAL-ETE-98

Des avatars aux humains virtuels autonomes et perceptifs

Daniel THALMANN, EPFL-DI-Laboratoire d'Infographie, e-mail: thalmann@lig.di.epfl.ch, www:http://ligwww.epfl.ch

La Téléprésence est l'avenir des systèmes multimédia et elle permettra à des participants de partager des expériences privées et professionnelles telles que des réunions, des jeux, des TV shows, des parties. Les humains virtuels ou acteurs de synthèse ont un rôle clé à jouer dans ces Environnements Virtuels partagés et une interaction réelle avec eux est un grand défi.

Introduction

Les nouvelles technologies nous ont permis depuis quelques années de créer des êtres virtuels et de les animer. Plus récemment, la Réalité Virtuelle nous a amené la possibilité de s'immerger dans les mondes virtuels et d'y rencontrer des êtres virtuels. Enfin grâce aux recherches en intelligence artificielle et en vie artificielle, les êtres virtuels sont capables d'une certaine autonomie. Dans cet article, nous essayons d'expliquer où en sont les recherches actuelles dans le domaine des humains virtuels, et en particulier au Laboratoire d'Infographie (LIG). Le LIG a été un des pionniers dans ce domaine qui est resté longtemps le thème de recherche d'une poignée de laboratoires. Aujourd'hui, le domaine a pris une grande importance, comme en témoignent les films, les jeux, les efforts de standardisation des Humains Virtuels dans MPEG4 et VRML, efforts auxquels le LIG participe activement, et le prochain programme cadre de l'Union Européenne [1] qui s'y intéresse aussi fortement.

Pour expliquer les différents types d'humains virtuels et leur évolution, nous allons nous servir de la nouvelle classification [2] des humains virtuels que nous avons proposée avec quatre types:

Les Avatars

Dans notre terminologie, les avatars correspondent à des représentations fidèles de l'usager. La technique consiste à enregistrer directement les mouvements de l'usager et à les transposer sur un humain virtuel qui devrait avoir aussi son apparence. Pour implanter de tels avatars, il est nécessaire d'avoir des séries de capteurs comme les Flock of Birds.

Les acteurs guidés

Les acteurs guidés sont des acteurs qui sont conduits par l'utilisateur mais sans que leurs mouvements ne correspondent directement à ceux de l'utilisateur. Ils sont basés sur le concept de la métaphore directe temps réel [3]]. Pour comprendre le concept, prenons un exemple de métaphore traditionnelle: le contrôle d'une marionnette. Une marionnette peut être définie comme une poupée avec des membres déplacés par des fils ou des ficelles. Les doigts humains sont employés pour diriger le mouvement de la marionnette. En Réalité Virtuelle, le meilleur exemple de guidage d'acteurs est la navigation réalisée dans les systèmes d'Environnements Distribués (voir plus loin: les humains virtuels dans les environnements virtuels distribués).

Les acteurs autonomes

Leur rôle est de représenter un service ou un programme comme par exemple pour naviguer. Comme ces acteurs virtuels ne sont pas guidés par les utilisateurs, ils doivent avoir des comportements leur permettant d'agir de manière autonome pour accomplir leurs tâches. Cela requiert de bâtir des comportements pour le mouvement, ainsi que des mécanismes appropriés pour l'interaction. Ce domaine est celui où la recherche de pointe se fait. A titre d'exemple, nous allons prendre le cas de l'évitement d'obstacles, un problème que chacun d'entre nous résout chaque jour un très grand nombre de fois. Les roboticiens ont introduit des techniques mathématiques qui permettent d'évaluer, à partir d'une configuration donnée le ou les chemins possibles, pour aller d'un point à un autre en évitant les obstacles. Cette démarche très valable pour un bras de robot se déplaçant mécaniquement dans un environnement connu et statique, est peu applicable au comportement d'un humain dans un environnement souvent mal connu et parfois dynamique. Lorsqu'on se déplace sur un trottoir, il ne faut pas seulement éviter de se cogner aux parcomètres, mais surtout éviter le piéton qui vient en face; sans oublier que ce piéton va aussi tenter de vous éviter. Ce type de comportement, de nature dynamique, ne peut être simulé en animation qu'avec une démarche de type sensorielle. C'est effectivement le sens de nos recherches. Nos humains virtuels ont maintenant une vision, une audition et un toucher de synthèse. Ils peuvent se diriger vers un bruit déterminé ou éviter la table qu'ils voient ou enfin réagir même dans l'obscurité en reconnaissant qu'ils ont cogné un mur. Ils peuvent même jouer au tennis en basant leur jeu sur celui de l'adversaire.

fig. 1: acteurs autonomes (Design: Mireille Clavien)

Le principe repose sur une boucle dite de perception-action. A chaque instant, pour chaque être virtuel, on crée une perception de l'espace virtuel, c'est-à-dire que l'on simule dans l'ordinateur ce que chaque être peut voir, entendre et toucher à l'aide de sens virtuels. Ainsi l'humain virtuel aura un vrai champ de vision, il pourra entendre les bruits produits par d'autres êtres ou se cogner à une table. Sur la base de ce que ces êtres ressentent, ils sont capables de prendre des décisions simples. Par exemple, un être virtuel, attiré par un son en dehors d'une pièce, pourra chercher la porte et lorsqu'il l'aura aperçue, pourra trouver le chemin jusqu'à cette porte et sortir et ceci sans aucune intervention d'un vrai humain.

Les acteurs perceptifs et interactifs

Nous définissons un acteur perceptif et interactif comme un acteur conscient d'autres acteurs et des gens réels. Un tel acteur est aussi supposé être autonome bien sûr. De plus, il est capable de communiquer interactivement avec les autres acteurs quel que soit leur type et avec les gens réels (fig.2).

fig. 2: interaction entre deux acteurs

Intercommunication entre acteurs de synthèse

Les comportements peuvent être aussi dépendant de l'état émotionnel de l'acteur. C'est ainsi qu'un modèle de communication non verbale a été développé au LIG [4]]. La crédibilité des acteurs virtuels est améliorée par leur aptitude à interpréter et employer un langage non-verbal. Une communication non-verbale est basée sur les postures et l'information sur ce que les gens ressentent. Les postures sont des moyens de communiquer et sont définies par des positions spécifiques des bras et des jambes et certaines orientations du corps. Habituellement, les gens n'emploient pas consciemment une communication non-verbale, mais ils la comprennent instinctivement de manière étonnante et sont capables d'y répondre sans raisonnement explicite. Cette communication non-verbale est essentielle pour diriger l'interaction entre des gens avec ou sans contact. Dans notre cas, nous avons récemment développé des simulations d'intercommunication non-verbale entre des êtres de synthèse. Le principe est le suivant, pour chaque être virtuel, on définit son état émotionnel qui peut aller de 0 (triste et aucun désir de communiquer) à 1 (joyeux et désirant vivement entrer en communication). On définit également pour chaque paire d'êtres leur intensité relationnelle allant de 0 (se détestent) à 1 (s'adorent). On laisse alors une dizaine d'êtres virtuels se déplacer au hasard dans un parc public. Lorsque deux êtres se rencontrent, ils vont s'ignorer ou communiquer en fonction de leurs états émotionnels respectifs et leur intensité relationnelle. Les états émotionnels et les intensités relationnelles ne sont pas constants et évoluent en fonction de la communication. Ainsi, un être joyeux qui rencontre un être qu'il n'aime pas verra une diminution de son état émotionnel à cause de la rencontre qu'il a fait. On notera également que l'état émotionnel a une influence directe sur la manière de se comporter, de marcher par exemple (fig. 3).

fig. 3: marche avec état émotionnel triste et joyeux

Communication entre personnes réelles et virtuelles

Les gens réels sont bien sûr aisément conscients des actions des acteurs de synthèse grâce aux outils de la Réalité Virtuelle tels que les casques de visualisation. Le problème majeur à résoudre est de rendre les acteurs virtuels conscients du comportement des gens réels. Les acteurs virtuels devraient percevoir les vraies personnes ou leurs avatars par leur sens virtuels. Les acteurs perceptifs et autonomes peuvent avoir des degrés différents d'autonomie et des canaux différents pour ressentir l'environnement. Pour les sens visuel et auditif, nous pouvons considérer le cas d'un avatar jouant au tennis avec un acteur perceptif interactif. Concernant le sens tactile, nous pouvons considérer l'exemple suivant: une lutte entre une personne réelle et un acteur autonome. Le mouvement de la personne réelle est capturée avec un Flock of Birds. Les gestes sont reconnus par le système [5] et l'information est transmise à l'acteur virtuel qui est capable de réagir aux gestes et décider quelle attitude adopter. La fig. 4 montre un exemple.

fig. 4: combat entre avatar et acteur perceptif interactif

Comme application, nous sélectionnons un jeu virtuel de tennis avec un acteur guidé, l'actrice perceptive interactive Marilyn, et un arbitre perceptif interactif, les deux avec une vision virtuelle. La fig. 5 montre une séance interactive. Les caractéristiques géométriques du court de tennis font partie de la connaissance des joueurs. Pour la simulation de la dynamique de la balle, la gravité, le filet, le sol et la raquette, nous employons des calculs basés sur la physique. Le dépistage de la balle par le système de vision est contrôlé par un automate spécial qui suit la balle, estime le temps de collision et le point de collision de la balle avec la raquette et effectue le coup avec la force donnée et dans la direction voulue. L'arbitre juge le jeu en suivant la balle avec son système de vision. Marilyn peut aussi entendre des événements sonores et obéit aux décisions de l'arbitre.

fig. 5: jeu de tennis avec avatars et acteurs perceptifs interactifs temps-réel

Les Humains Virtuels dans les Environnements Virtuels Distribués

VLNET (Virtual Life Network) [6]] [7]] a été développé en Suisse conjointement par le Laboratoire MIRALab de l'Université de Genève et le Laboratoire d'Infographie de l'EPFL. L'avantage de VLNET sur les autres systèmes est qu'il offre le plus grand réalisme dans la représentation des humains virtuels. VLNET supporte un environnement virtuel distribué et partagé permettant à des utilisateurs multiples d'interagir avec chacun et leur environnement en temps réel. Les usagers sont représentés par des avatars 3D les plus réalistes possibles. Les utilisateurs peuvent aussi guider des acteurs humains virtuels 3D. Ces acteurs guidés ont des comportements et une apparence similaire aux humains réels, et aident à soutenir le sens de présence des utilisateurs dans l'environnement. En plus d'acteurs guidés, l'environnement peut aussi inclure des acteurs perceptifs interactifs et autonomes qui servent surtout comme interface amicale pour les utilisateurs désirant accéder à certains services. Les humains virtuels peuvent aussi être employés pour représenter les partenaires actuellement indisponibles, permettant ainsi une coopération asynchrone entre des partenaires distants. L'environnement virtuel peut renfermer plusieurs médias différents: du son, des modèles 3D, des interactions faciales représentées par des textures du visage et des films diffusés en temps réel. A la place d'utiliser des fenêtres multiples ou des applications pour chaque média, on préfère intégrer toutes les tâches dans un seul environnement virtuel avec une interface naturelle semblable à ce qu'offre le monde naturel. Notre environnement virtuel doit d'ailleurs répondre au critère de généralité, permettant ainsi d'être utilisé dans des applications et des circonstances très différentes.

Le système continue à être développé pour d'une part augmenter le nombre d'usagers et d'autre part permettre des communications entre usagers utilisant différentes plates-formes comme UNIX et WINDOWS NT. Pour que l'Environnement Virtuel soit réaliste, il faut que le système soit suffisamment rapide pour fournir une interaction naturelle. Pour un affichage rapide, nous utilisons l'environnement IRIS Performer de Silicon Graphics qui fournit un environnement facile à utiliser pour le développement d'applications temps réel. Pour les communications, nous pouvons utiliser Internet, mais ATM est nécessaire pour les communications demandant une plus grande bande passante.

Nous exploitons un modèle distribué de communication, ainsi chaque utilisateur est responsable pour la mise à jour de l'ensemble des données locales nécessaires au rendu et à l'animation des objets. Il y a toujours un usager qui détermine l'environnement. Les autres usagers sont invités et n'ont pas besoin de donner tous les paramètres. Toutes les données sont initialement chargées à travers le réseau dans la machine locale dès qu'un usager se branche à l'environnement partagé. La communication est asynchrone. Les informations sur les actions des utilisateurs sont transmises aux autres utilisateurs à mesure que les actions surviennent. Des actions-type peuvent changer la position ou l'orientation des acteurs, ou saisir ou lâcher un objet. Les actions sont diffusées aux autres utilisateurs en termes de nouvelles orientations des objets dans l'espace ou d'autres changements possibles.

Parmi les applications, on citera l'utilisation de VLNET entre Genève et Singapour permettant à des personnes des deux sites de visualiser et de manipuler des montres de luxe. Dans le domaine des loisirs, VLNET a aussi été utilisé pour jouer aux échecs ou pour résoudre un casse-tête.

Mais l'application la plus complexe a été inaugurée lors de Interactive Telecom 97. C'était un jeu de tennis (fig. 6) entre Genève et Lausanne où chaque joueur portait un casque de réalité virtuelle pour être immergé dans un court virtuel.

fig: 6: jeu de tennis entre Lausanne et Genève (Interactive Telecom 97)

Les joueurs étaient également équipés de capteurs magnétiques pour enregistrer en temps réel leurs mouvements et les représenter par des avatars dans le monde virtuel, donc sur le court. Un arbitre autonome (fig. 7), Marilyn, était capable de juger le jeu de ses propres yeux.

fig. 7: l'arbitre autonome Marilyn

Conclusion

Notre objectif ultime est de créer des acteurs de synthèse crédibles et réalistes, des humains virtuels intelligents, autonomes avec faculté d'adaptation, perception et mémoire. Ces acteurs devraient être capables d'agir librement et avec émotion. Idéalement, ils devraient être conscients et imprévisibles. Mais, sommes-nous loin d'une situation aussi idéale ? Nos acteurs perceptifs interactifs sont capables de percevoir le monde virtuel, les gens vivant dans ce monde et dans le monde réel. Ils peuvent agir en se basant sur leur perception de façon autonome. Leur intelligence est contrainte et limitée aux résultats obtenus dans le développement de nouvelles méthodes d'Intelligence Artificielle. Les acteurs intelligents sont capables d'apprendre ou de comprendre des situations très simples. La mémoire est généralement définie comme le pouvoir de reproduire ou de se rappeler ce qui a été appris et retenu surtout par des mécanismes d'association.

Nous avons vu que des aspects émotionnels peuvent être importants dans l'intercommunication non-verbale. Les émotions sont aussi essentielles dans l'animation faciale. Cependant, une émotion réelle devrait être considérée comme un état de ressentir, une réaction physique et psychique subjectivement ressentie comme une sensation forte et entraînant physiologiquement des changements qui préparent le corps pour une action vigoureuse immédiate. Dans ce cas, nous sommes loin de réaliser des acteurs véritablement émotionnels.

Enfin, les acteurs dans l'avenir devraient être flexibles, conscients et libres. Un acteur est flexible aussi longtemps qu'il peut survivre dans des environnements plus ou moins imprévisibles et dangereux. Selon Alexander [8], un acteur conscient devrait être conscient surtout de quelque chose en lui-même ou caractérisé par une sensation, une émotion, ou une pensée. Un acteur peut être considéré comme libre si son comportement futur est imprévisible aux autres.

Remerciements

L'auteur est reconnaissant aux gens qui ont contribué à ce travail, en particulier Pascal Bécheiraz, Ronan Boulic, Tolga Çapin, Amaury Aubel, Tom Molet, Luc Emering et Hansrudi Noser. Le système VLNET et le tennis interactif ont été développés conjointement avec MIRALab à l'Université de Genève. Les recherches ont été financées par le Fonds National Suisse de la Recherche Scientifique, le Programme Prioritaire SPP et l'Office Fédéral de l'Education et de la Science dans le cadre de plusieurs projets Européens: ESPRIT Humanoid-2, ESPRIT VISTA, ACTS COVEN, ACTS VPARK.

Références

  1. D.Thalmann, L.Chiariglione, F.Fluckiger, E.H. Mamdani, M.Morganti, J.Ostermann, J.Sesena, L.Stenger, A.Stienstra, Report on Panel 6: From Multimedia to Telepresence, Expert groups in Visionary Research in Advanced Communications, ACTS, European Commission, 1997
  2. D.Thalmann, A New Generation of Synthetic Actors: the Interactive Perceptive Actors, Proc. Pacific Graphics'96 Taipeh, Taiwan, 1996, pp.200-219
  3. D.Thalmann, Using Virtual Reality Techniques in the Animation Process in: Virtual Reality Systems (Earnshaw et al. eds), Academic Press, pp.143-159
  4. P.Bécheiraz, D.Thalmann, A Model of Nonverbal Communication and Interpersonal Relationship between Virtual Actors, Proc.Computer Animation'96, IEEE Computer Society Press, 1996
  5. L.Emering, R.Boulic, D.Thalmann, Interacting with Virtual Humans through Body Actions, IEEE Computer Graphics and Applications, 1998, Vol.18, No1, pp.8-11
  6. I. Pandzic, N. Magnenat Thalmann, T. Capin, D.Thalmann, Virtual Life Network: A Body-Centered Networked Virtual Environment, Presence, MIT, Vol. 6, No 6, 1997, pp. 676-686
  7. T. K.Capin, I.S. Pandzic, N. Magnenat Thalmann, D. Thalmann, Virtual Human Representation and Communication in the VLNET Networked Virtual Environments, IEEE Computer Graphics and Applications, Vol.17, No2, 1997, pp.42-53
  8. I.Aleksander, Artificial Consciousness, in: (Magnenat Thalmann and Thalmann, eds) Artificial Life and Virtual Reality, John Wiley, Chichester, 1994, pp.73-81


retour au sommaire du Flash informatique spécial été 98
retour à la page principale des Flash informatique
Vos commentaires
© FI-spécial été du 1er septembre 1998