FI/SPECIAL-ETE-98

Mon ordinateur voit double

Jean-François Rolle, EPFL-GR-IGEO-Photogrammétrie
www.wiesmann-rolle.com, rolle@wiesmann-rolle.com

Avant Propos

Par un phénomène de mode remarquablement orchestré, le consommateur de matériel informatique voit son vocabulaire technique irrémédiablement s'étoffer. Tout, du moniteur à son jeu préféré, sans oublier les composantes principales de son système, se voit décrit et spécifié en termes plus ou moins neutres ou racoleurs tels que: tridimensionnel, stéréo-compatible, 3D ou Virtual Reality (VR).

A la base de ce phénomène, on retrouve le principe de la vision stéréoscopique, établi il y a plus de 150 ans déjà. Il nous a semblé important de profiter de cette édition spéciale du Flash Informatique pour dresser un historique et une liste des solutions techniques retenues pour afficher sur un écran d'ordinateur plat, l'illusion de la perception de la profondeur.

La photogrammétrie, application de la stéréophotographie aux levés topographiques, aux relevés des formes et des dimensions d'objets très divers, est par définition concernée par l'application de ces techniques, au même titre que des branches telles que l'imagerie spatiale, les systèmes d'information géographique, la DAO et CAO, la robotique, l'imagerie médicale et les techniques d'animation, de visualisation et de modélisation 3D.

Un peu d'histoire [1]

Recréer la perception visuelle de la profondeur a été le souci de chercheurs dès l'apparition des premiers postes de télévision. Des pionniers essayèrent de visualiser des images stéréoscopiques sur ce nouveau média dès la fin des années 40.

Il semble que la première application commercialisée soit apparue en 1950; elle consistait en un système de deux écrans conçu sur le principe des anaglyphes (Dumont's dual CRT system de Logie Baird). A la même époque apparaissent des systèmes d'affichage d'images côte à côte devant être observées au travers de stéréoscopes binoculaires. Leur inventeur, James Butterfield, fut également le premier à utiliser des verres polarisés pour observer des anaglyphes créés en plaçant des polariseurs dichroïques sur la face du CRT (cathode ray tube). Cette technique, en premier lieu appliquée grâce à la combinaison de deux écrans, évolua vers l'utilisation d'un seul écran en combinaison avec des images stéréoscopiques imbriquées (interdigitated).

Finalement, Shmakov développa les bases théoriques des techniques Field sequential. Pour des raisons techniques (écrans plats en particulier), le premier produit de ce type n'apparut qu'au début des années 80.

La vision stéréoscopique

Genèse

La vision stéréoscopique s'est développée chez les invertébrés, il y a plusieurs centaines de millions d'années, pour des raisons de survie. Des démonstrations récentes ont montré qu'un insecte, sur les yeux duquel on a collé des prismes, manque sa proie pour une distance correspondant exactement à la distance théorique calculée.

L'acuité visuelle de l'être humain s'est dégénérée génétiquement et il est fréquent de constater la perte de la perception stéréo. La grande majorité possède une bonne perception, mais des tests mettent en évidence de grandes disparités. La vision stéréoscopique, phénomène psychique, peut être exercée. On constate alors de rapides progrès sous la forme d'une fusion plus rapide et d'un plus grand confort de vision.

Il apparaît qu'environ 12% des individus sont incapables de percevoir un modèle stéréo [1]. Il s'agit d'un manque de coordination dans le travail des yeux, c'est-à-dire une vision binoculaire défaillante (strabisme, amblyopie...). Au contraire, 10% des êtres humains présentent des facultés exceptionnelles pour la vision stéréo. Ces facultés, fusion rapide, prolongée et confortable d'images, leur permettent de percevoir des scènes qui resteraient très inconfortables, voire impossibles, pour un individu moyen. Des phénomènes de variation dus à l'âge doivent encore être pris en considération.

Définition de la perception binoculaire de la profondeur

fig. 1: principe de la vision stéréoscopique

Lorsque nous regardons un objet devant nous, nous le voyons naturellement en volume car les pupilles de nos yeux (espacées en moyenne de 64 mm) perçoivent deux points de vue à peine différents de l'objet. Le cerveau combine ces deux images en une seule. Le même point, repéré sur l'image de gauche, subit un léger déplacement sur l'image de droite. Cette distance, nommée parallaxe, produit la sensation de profondeur stéréoscopique.

Les conditions de la vision stéréoscopique (fig.1) sont successivement:

Perception monoculaire de la profondeur

La perception de la profondeur est avant tout le fait de notre anatomie. Mais il serait faux de ne considérer que ce seul élément. Un seul oeil reçoit différents stimuli qui lui permettent d'interpréter la profondeur d'une scène. Une personne ne bénéficiant pas de la vision stéréoscopique développe des processus cognitifs d'interprétation de ces différents stimuli. Cette interprétation lui permet d'évoluer tant bien que mal dans l'univers 3D nous entourant. Les éléments de la perception monoculaire sont:

lumière et ombrage

Une ombre permet de donner un volume à l'objet et les surfaces claires semblent plus proches que les foncées;

taille relative

Les objets apparaissent plus grands lorsqu'il sont près et la mémoire permet de juger de la distance vers des objets familiers;

gradient de texture

La texture, étant plus apparente au premier plan, provoque un sentiment de profondeur;

interposition

Un objet en cachant partiellement un autre est automatiquement interprété comme étant devant;

parallaxe du mouvement

Dans une voiture en mouvement, les poteaux téléphoniques se déplacent plus rapidement que les collines éloignées;

perspective

Ce stimuli est très important car il permet de donner un facteur d'échelle à la perception binoculaire de la profondeur; la perspective est la relation entre le premier plan et l'arrière plan;

depth cuing

Réduction de l'intensité d'un objet en fonction de la distance à l'observateur.

Des images présentant de nombreux éléments de perception monoculaire de la profondeur, seront d'autant plus faciles à interpréter en vision stéréoscopique.

Visualisation des images stéréoscopiques

La méthode analogique

Reproduire la perception de la profondeur est possible en forçant l'oeil gauche à regarder une image et l'oeil droit une autre, tout en prenant garde que ces deux images montrent des parallaxes sur les points de l'image. La parallaxe, distance mesurée sur le couple d'images, se transforme sur la rétine en une disparité qui produit le sentiment de profondeur. La parallaxe peut également être exprimée sous forme angulaire en tenant compte de la distance à l'observateur. L'appareil optique permettant de visualiser un couple d'images stéréophotographiques se nomme stéréoscope.

Transposition numérique

Le principe énoncé ci-dessus ne peut se reproduire sur le moniteur d'un ordinateur que par l'émission simultanée de deux images, l'une à destination de l'oeil gauche et l'autre de l'oeil droit. De manière générale, en émettant en alternance les deux images (pour autant que le balayage soit suffisamment élevé: >60Hz), il est possible de tromper notre cerveau en profitant de notre aptitude visuelle relativement limitée. Pour être capable de recevoir correctement cette information sur la parallaxe, l'observateur doit encore être muni d'un obturateur (shutter), synchronisé de manière à cacher l'image non désirée et/ou au contraire permettre la visualisation de la bonne image par le bon oeil.

Visualiser un couple d'images stéréoscopiques est également possible en projetant l'information de parallaxe non plus sur un seul écran, mais sur deux. Ce principe est appliqué pour les casques de réalité virtuelle (HMD, Head Mounted Display). Ce périphérique se compose de deux petits moniteurs LCD montés en face des yeux. Chaque oeil reçoit l'information nécessaire à la fusion des deux images, ce qui permet l'interprétation de la profondeur.

Les types de formats [2] et [3]

Par définition, un format electro-stéréoscopique est la méthode utilisée pour définir l'appartenance des pixels à l'image de gauche ou droite, pour que le couple stéréo affiché à l'écran apparaisse aux yeux de l'observateur selon le principe du stéréoscope binoculaire.

On dénombre un certain nombre de solutions différentes, mais seules les plus courantes sont décrites ici. Il n'est pas fait cas de systèmes tels que les anaglyphes ou l'utilisation de stéréoscopes à miroirs.

Field sequential

Cet affichage encode l'image de droite puis celle de gauche en alternance dans les champs successifs de l'affichage vidéo. Ce multiplexage temporel a pour avantage de ne demander que très peu de modification du matériel; ce dernier argument est à la base du succès commercial de ce format. Il faut que le balayage vidéo soit relativement élevé (>100 Hz) pour reproduire de bonnes conditions d'observation.

L'observateur doit être muni de lunettes pour interpréter correctement le signal émis par l'écran. On distingue deux techniques différentes, le mode actif et le mode passif. En mode actif, les lunettes se composent d'un obturateur à cristaux liquides commandé par un signal infrarouge de synchronisation avec l'affichage alterné du moniteur. Dans le cas du système passif, on applique à la surface du moniteur un modulateur à cristaux liquides (obturateur segmenté de Byatt). Il suffit à l'observateur de se munir de lunettes à verres polarisants (directions de polarisation différentes de 90°) pour recevoir correctement l'information.

système passif (Z-Screen de StereoGraphics Corp.)

On retrouve sur de nombreuses stations de travail graphiques (SGI, Sun, DEC, IBM et HP) une prise jack permettant de connecter l'émetteur contrôlant le signal vidéo et produisant le signal IR.

système actif (CristalEyes de StereoGraphics Corp.)

Interlaced stereo

Ce format utilise le balayage du moniteur pour entrelacer les deux images sur les lignes paires et impaires. Cette méthode permet d'utiliser des périphériques d'affichage traditionnels tels que téléviseur ou écran d'ordinateur. D'autre part, l'équipement de multiplexage est simple et bon marché.

Above-and-Below

Ce format a été conçu pour permettre la visualisation stéréo sur des équipements standards (moniteur PC, télévision ou vidéo). A chaque rafraîchissement de l'écran, le champ se compose des deux images disposées l'une sous l'autre, compressées d'un facteur deux dans le sens de la hauteur.

A un taux de rafraîchissement de 60 Hz, il faut exactement 1/120 de seconde pour afficher une image. En utilisant un moniteur travaillant avec une fréquence de 120 Hz, les deux images juxtaposées spatialement deviennent alors juxtaposées temporellement. En portant les lunettes obturatrices adéquates, l'observateur reçoit à chaque seconde 60 champs d'une image et 60 champs de l'autre. Quand un oeil voit une image, l'autre n'en voit pas et vice versa.

Cette méthode est encore appliquée pour les ordinateurs (PC), mais a disparu pour la vidéo. La vision est confortable pour peu que les images soient de résolution suffisante (au minimum 300 à 350 lignes par champ). Dans le cas de la vidéo, le nombre de ligne est insuffisant (480 divisé par 2).

Pour les PC (et les cartes graphiques travaillant à des taux de rafraîchissement de l'ordre de 60 Hz), il est nécessaire d'utiliser un émetteur (synch doubling emitter) dont le but est de créer un signal vidéo propre en ajoutant les pulsations de synchronisation manquantes (vertical blanking).

Side-by-Side

Ce format résout le problème décrit précédemment appliqué à la vidéo. En affichant les images non plus l'une sous l'autre mais côte à côte, le nombre de lignes n'est alors plus un problème. Sur une vidéo, le rafraîchissement n'étant que de 30 Hz, il est nécessaire de diffuser les images deux fois plus rapidement qu'elles n'ont été saisies.

White-Line-Code WLC

Ce format offre une solution bon marché pour les PC. Il permet de se soustraire au taux de rafraîchissement pour juxtaposer temporellement les images. Une ligne blanche est affichée au bas de chacun des champs, l'interprétation par les lunettes de cette ligne permet de savoir si ce champ est destiné à l'oeil gauche ou droit.

Cette méthode, par sa simplicité et son prix, est particulièrement adaptée pour le développement de jeux.

WLC

Les lunettes (Shutters)

L'observateur est contraint de porter des lunettes dont la fonction est de séparer les signaux reçus de l'écran vers chacun des yeux.

En mode actif, les lunettes reçoivent leurs ordres d'ouverture et d'obturation par un signal infrarouge qui doit être émis à proximité de l'écran. Cet équipement est moins agréable à porter que les lunettes passives (verres polarisants). Celles-ci ont l'aspect d'une paire de lunettes de soleil traditionnelle.

Dans les deux cas, ces lunettes permettent une vision normale de l'environnement en dehors du champ de l'écran. Ce n'est pas tout à fait le cas avec un système simple comme les anaglyphes (lunettes avec filtres de couleur différents).

Les problèmes

Différents problèmes connus peuvent être une source d'entrave à une bonne vision stéréoscopique en application avec les formats décrits ci-dessus.

Flicker

Le flicker, ou scintillation, est le problème le plus contraignant pour une observation agréable en vision stéréoscopique. Les images reçues donnent l'impression de scintiller ou de trembloter.

Ce problème, qui peut varier en fonction principalement de la brillance et de la taille de l'écran, est fréquemment rencontré sur des systèmes ayant une fréquence de balayage faible (60 Hz).

Il faut distinguer deux types de scintillation, due soit à l'illumination ambiante (room flicker) soit à l'affichage proprement dit (image flicker). On peut atténuer les effet de la première en réduisant l'illumination du local. Pour la deuxième, il faut intervenir au niveau des réglages de l'affichage vidéo en contrôlant les fonctions de brillance et de contraste de l'écran. Son élimination complète est réalisable en utilisant des fréquences supérieures (120 Hz).

Illumination asymétrique

Des différences dans l'illumination des images stéréo transmises à l'observateur augmentent l'effet de flicker.

Même faibles (de 3 à 6 dB), ces différences peuvent déjà entraîner une augmentation. Une différence de l'ordre de 3% dans l'illumination des images transmises à gauche et à droite est déjà trop importante pour garantir une vision confortable [1].

Crosstalk (Ghosting)

Dans le cas de l'affichage stéréo, on retrouve le phénomène du Crosstalk (interférence entre deux signaux). Ce phénomène pourrait se retrouver soit au niveau de l'obturation (les lunettes) soit à l'écran. Les techniques de fabrication des lunettes excluent cependant une obturation imparfaite. En pratique, cet effet est dû à la persistance du scintillement du phosphore. L'image de droite est censée disparaître pour permettre l'affichage du champ suivant. Dans les faits, elle ne s'estompe pas complètement et persiste, c'est particulièrement vrai dans le cas du phosphore vert. Cette rémanence provoque en mode stéréo un effet de ghosting. Il peut être mis en évidence en utilisant des images avec de très grandes valeurs de parallaxes ou alors très contrastées.

Absorption du signal

Ce phénomène ne gêne pas le confort de vision, mais altère les possibilités de mesures. La densité lumineuse de l'image émise par l'écran n'est pas complètement transmise à l'oeil. L'obturateur à cristaux liquides, comme tout élément placé entre l'émission et la réception, absorbe une partie du signal.

C'est particulièrement ennuyeux pour le photogrammètre qui est amené à effectuer des mesures en mode stéréo.

Perspective et Conclusion

Le format le plus utilisé est le mode Field sequential. Par définition, ce standard nécessite l'utilisation d'un périphérique de sélection des images (lunettes). Il conservera très certainement sa place de leader ces prochaines années grâce aux progrès combinés des moniteurs et des cartes graphiques (résolution et rafraîchissement).

Une avancée technologique remarquable pourrait concerner les systèmes passifs. L'intégration par les fabriquants de moniteurs LCD d'une technologie nommée µPol (MicroPolarizer Array / Parsell Matrix) développée par la firme VRex pour un prix inférieur à 20$/pièce permettrait de démocratiser la visualisation stéréoscopique de très bonne qualité (flicker free)[4].

Les applications de la réalité virtuelle seront très certainement le moteur de développements nouveaux. Comme on peut déjà en faire l'expérience aujourd'hui, les systèmes de casques incluant la vision stéréoscopique et le positionnement ne pourront que se démocratiser et profiter d'avancées technologiques.

Des travaux sont menés pour obtenir une image stéréoscopique visible sans périphérique (à oeil nu). Ce système, nommé affichage autostéréoscopique, bute actuellement sur le problème lié à la séparation des deux images. D'autre part, l'observateur serait contraint de se positionner très précisément devant l'écran et ne pourrait pas bouger sa tête sans perdre la vision stéréoscopique.

Si les tendances exprimées ci-dessus laissent entrevoir une utilisation toujours plus efficace de la vision stéréoscopique, on peut d'ores et déjà affirmer que la technologie actuellement disponible sur le marché permet un très bon confort de vision pour un investissement limité (de l'ordre de quelques centaines à quelques milliers de francs).

Organismes et sites Internet