La voix au cinéma : divorces et retrouvailles

Dominique Sipière

Université de Paris Ouest Nanterre

C’est de la voix comme « manifestation sonore du corps de l’acteur », comme « incarnation du verbe », qu’il va s’agir ici1. Le cinéma est le lieu d’une mise en crise des rapports entre le visible et l’audible, entre le visage et la voix. On verra que cette crise nous renseigne aussi sur les rapports entre deux conceptions antagonistes du cinéma que je vais essayer de réconcilier en partie, disons la promotion du cinéma en tant qu’art par Rudolf Arnheim, face à sa valorisation en tant que trace du Réel par André Bazin.
Les trente premières années de l’histoire du cinéma sont celles du refus pur et simple de la voix en tant que telle, c'est-à-dire du cinéma parlant. Certains critiques des années trente annonçaient même l’échec et le recul du parlant sur des bases théoriques instructives pour nous. Rudolph Arnhein, dans sa préface de 1957 à Film as Art (alors que le parlant a définitivement triomphé du muet) revient sur son refus de l’idée même d’un « cinéma total » auquel il reproche de reproduire la réalité au détriment du travail artistique. La position est connue et elle renvoie pour nous à Ernest Gombrich : « The work of art (…) is not simply an imitation or selective duplication of reality but a translation of observed characteristics into the forms of a given medium2. » Toute la thèse de son livre de 1933 (Film as Art) reposait déjà sur cette idée : « I undertook to show in detail how the very properties that make photography and film fall short of perfect reproduction can act as the necessary moulds of an artistic medium. » (13) Autrement dit, ce sont les défauts de réalité du cinéma qui en font un art et sa principale carence est justement l’absence de la voix. Faire parler le cinéma c’est se diriger vers une copie totale et mécanisée du réel — le contraire du travail de l’artiste qui traduit sur la toile les effets d’un réel d’abord éprouvé avant d’être remis en forme. En 1938, dans un texte intitulé Le Nouveau Laocoön3, Arnheim revient sur la séparation qu’il juge ontologique entre le son et l’image car, selon lui, ils relèvent de deux arts différents, incompatibles : « the two media (i.e. image / speech) are fighting each other […] striving to express the same matter in a twofold way4. » Arnheim reconnaît lui-même que la version publiée en 1957 a été nettoyée de certains enthousiasmes de jeunesse : en 1933 il y prophétisait l’échec du cinéma parlant…
Je me suis toujours beaucoup méfié de ce que j’appelle le désir d’ontologie pour le cinéma, qui permet de décider de ce que doivent faire les créateurs. Et d’ailleurs, le refus de la voix résultait sans doute d’un malentendu : en 1930 le son était perçu comme une intrusion qui venait rompre l’élaboration en cours d’un nouvel art (le septième, selon Canudo) construit autour de l’image pure et des heureuses contraintes que lui imposent alors l’absence de la parole, depuis plus de trente ans déjà. Nous savons désormais que le refus de la voix était un accident historique dû au développement séparé de la technologie des images animées sans le son, mais c’est bien la parole, le verbe qui a précédé l’image, ce sont les récits et les chants qui viennent avant (et devant) les fresques et les peintures murales.
Bref, hors de l’exception cinématographique, la parole est devant l’image, c’est l’image qui vient habiller les mots. Mais ce malentendu de la naissance du parlant annonce déjà le couple problématique que constituent au cinéma le visage et la voix, leur danse paradoxale et leurs jeux de pouvoir. Il ne s’agit pas de refaire ici l’histoire de la reconquête des images par la parole et on renverra plutôt à Alain Masson et à son remarquable livre de 1989 (L’Image et la parole). Cela dit, l’enjeu de ces débats évoque des conceptions différentes et historiquement bien délimitées de ce qu’est le cinéma, dont Rudolf Arnheim d’un côté et André Bazin, de l’autre, sont sans doute les pôles extrêmes. Je vais essayer de les rapprocher, de les articuler, de les faire travailler ensemble et de redire combien le cinéma n’est pas seulement un art impur (le mot est de Bazin) rebelle aux dictats ontologiques, c’est aussi une beauté accueillante…
« Voir ou ne pas voir la source du son : tout part de là », annonce Michel Chion, après qui il est bien difficile d’être un peu original sur cette question5. Je vais quand même essayer de décrire l’articulation entre les visages et les voix au cinéma en m’intéressant surtout aux dispositifs qui exhibent leurs ruptures, les récits qui en résultent et l’émotion que suscite parfois leur articulation. Autrement dit, je vais raconter des histoires de divorces et de retrouvailles.
Je commencerai par dresser un procès verbal des ruptures, des beautés qui en résultent et des artifices liés aux couples recomposés à cette occasion. Je vais ensuite esquisser une description de la co-présence de la voix et des visages. Et je conclurai avec le rapport entre la voix et celui qui l’écoute, dans et hors le film. On retrouvera alors à la fois la spécificité du cinéma et la diversité de ses traces.

De l’absence de la voix à une écriture des écarts

Partons du cri silencieux d’Edvard Munch : c’est l’absence du son qui y fait événement, comme ce sera la dissimulation d’un visage qui fascinera dans la résurgence du célèbre dessin sur le masque de Scream. Ce dessin redouble à son tour le thème du cri amputé alors même qu’il se fait entendre — d’une bouche à l’autre — car cette fois, le masque impose l’absence du visage. Absence de la voix ; absence du visage : en exhibant de tels manques, ces images annoncent des dispositifs de présence-d’une-absence sur lesquels je vais m’attarder ici. Il faut revenir à la jolie formule de Marc Chènetier : « c’est parce qu’il proteste contre son manque de voix que le calamar jette son encre6 ». La tache d’encre du calamar remplace la voix impossible et l’image noircie se fait revendication d’un cri.
Mais quand même ! On comprend bien les regrets et les anathèmes d’Arnheim quand on revoit les nombreux effets obtenus grâce à l’absence de voix du cinéma réputé « muet ». Et d’abord, Michel Chion insiste sur le fait qu’on ne devrait pas l’appeler muet ou silencieux (Jean Mitry), mais sourd, puisque les personnages ne cessent d’y parler et que nous peinons simplement à les entendre7. Il nous faut maintenant quelques exemples, tous très familiers : Chaplin, Hitchcock, Gabbo et Singing in the Rain…

Comment faire parler l’image muette

Voici, d’abord, Easy Virtue (Hitchcock, 1927) et sa téléphoniste indiscrète : faute d’entendre les amoureux se parler, on aurait pu au moins les voir. Mais Hitchcock déplace le problème en montrant seulement le visage de celle qui écoute les étapes de la demande en mariage et il nous pousse à reconstruire le dialogue de façon indirecte, grâce aux effets qu’il produit sur son auditrice. Là encore, les handicaps du muet l’obligeaient à inventer des figures de substitution.
Charles Chaplin en voulait au parlant d’avoir tué en plein envol un mode d’expression inédit (j’allais dire inouï) et il a persisté à créer des films muets dont la fin de City Lights est peut être l’aboutissement — à la fois un plaidoyer désespéré, le démontage du dispositif cinématographique et l’élégie d’un Art déjà perdu. On connaît la fin de ce récit : Charlot, amoureux d’une jeune aveugle, reçoit une forte somme d’argent des mains d’un milliardaire ivre et il finance ainsi une opération des yeux de la belle. Une fois dessaoulé, le milliardaire fait arrêter son « voleur » qui passe les semaines de guérison de l’aveugle en prison. La séquence commence à sa sortie, dans les rues de New York. L’aveugle guérie est devenue fleuriste et elle attend le mystérieux jeune homme sans visage qui a financé son opération. Elle ne soupçonne évidemment pas sa misérable condition qu’une séquence burlesque avec des gamins nous rappelle. Sans avoir jamais vu le vagabond, elle en connaît tout ce que les autres sens, chez elle exacerbés, lui ont appris : son odeur, ce qu’elle a pu toucher avec ses mains et, bien sûr, sa voix.
Or voici que le dispositif mis en place par Chaplin inverse complètement sa perception de l’homme qu’elle aime : derrière la vitrine du magasin de fleurs, elle voit tout, mais elle ne touche, ne sent, ni n’entend plus rien de lui dans un total divorce entre le regard et la voix. Cette scène familière nous vient des grandes émotions du dix-huitième siècle, avec ses quiproquos et ses retrouvailles improbables. Elle naît d’un dispositif inépuisable : d’un côté de la vitre, la jeune femme voit un clochard ridicule et elle n’entend que les rires de sa collègue fleuriste. De l’autre côté, on frôle le mélodrame dans un instant de cruauté ironique à peine sauvé par la poésie de la rose tenue par Charlot : alors que son visage dénote assez normalement la surprise, la satisfaction et une sorte de complicité ridicule, la fleur exprime notre émotion en perdant un à un ses pétales.
Dans un mouvement de générosité symétrique — car tout est symétrie dans ces scènes d’émotion — la jeune femme sort pour donner une autre fleur et une pièce de monnaie au clochard risible et pathétique. Cette fois, elle a franchi le mur de verre qui la séparait de ses sens familiers et c’est en touchant le tissu grossier de la veste du vagabond qu’elle le reconnait. Son visage frappé de stupeur suffit à dire qu’un abîme vient d’être comblé. On aura remarqué le nécessaire mutisme de Charlot et le merveilleux carton qui conclut la scène : « You can see, now ». Elle voit et nous, nous « entendons ».
Récapitulons brièvement : avant l’opération, l’aveugle entendait d’abord mieux que nous et sa cécité était compensée par les autres sens. Bref, elle voyait en écoutant. Puis le dispositif de la vitre est venu l’assourdir : elle n’entend plus rien mais elle voit tout ce que nous voyions. Elle est dans la même position que nous face au film muet. Enfin, au-delà du dispositif, elle touche Charlot, elle l’entend (pas nous !) et elle découvre la totalité de sa présence physique à notre place, dans une réception vicariale portée par le récit et par l’émotion. Le plaidoyer pour le silence de Chaplin utilise donc les effets indirects du récit et il suggère une étude des séparations et des retrouvailles des sens, comme si visage et voix étaient des personnages. Mariages, divorces et retrouvailles…

Les couples « arrangés » ou les artifices du playback

Or il existe une autre séparation entre voix et visage, un autre divorce cette fois opéré en cachette. Chacun sait que la dissociation entre la voix entendue et le visage qui l’héberge remonte à la naissance du cinéma parlant. Dès Blackmail, le premier film parlant britannique (juin 1929), Hitchcock enchaîne plusieurs types de tricheries avec la voix au cinéma. Les huit premières minutes font douter le spectateur : quand les personnages « parlent », on ne les entend pas et les cartons du muet persistent ; puis une brève scène à Scotland Yard montre des personnages qui dialoguent, mais on ne voit pas leur bouche et le film est donc sonore sans être encore « parlant ». Enfin, quand tout semble se mettre en place avec un couple dont les bouches sont bien visibles et synchrones, la voix d’Anny Ondra est remplacée par celle d’une autre actrice, Joan Barry, dont l’accent était plus conforme aux attentes du public : Ondra (1902-1987), née en Pologne et arrivée à Londres en 1927, parlait avec un fort accent tchèque8.

Le divorce voix-visage comme récit : The Great Gabbo et Singing in the Rain

Avec le playback tout semble alors possible. Le cinéma est devenu le Grand Ventriloque et il court les mêmes risques que l’Illustre Gabbo (James Cruze, 1929) : touchante schizophrénie dans le meilleur des cas, ou cruelle psychose qui annonce la voix mortifère de la mère de Norman Bates. Voix remplacée, voix mal située, voix usurpée du play back : dès le début, l’articulation entre les visages et les voix est mise en crise : Jean-Marie Lecomte a remarqué que la plupart des voix de femmes — bien plus que les voix masculines — ont été ainsi transformées à Hollywood au début du parlant9. Ces mensonges ont eu la vie longue comme en témoigne l’histoire de Marni Nixon (née en 1930, une de ses filles s’appelle Melani, sans « e » !). Peu connue comme actrice (elle joue une religieuse dans The Sound of Music), elle est surtout la voix de Deborah Kerr dans The King and I, de Natalie Wood dans West Side Story, de Julie Andrews dans The Sound of Music et d’Audrey Hepburn dans My Fair Lady ! Mais Hollywood a scrupuleusement veillé à ce qu’elle reste un fantôme derrière les stars visibles et il faut aller à la page 24 du livret qui accompagne le disque de la musique du film de Robert Wise pour lire enfin : « Natalie Wood et Richard Beymer furent retenus pour les rôles de Maria et de Tony, avec Marni Nixon et Jim Bryant pour le doublage des chansons. » La réalité est bien moins heureuse que la fiction de Singing in the Rain.
Tout le monde sait que Singing in the Rain a fait de ce genre de situation la matière de son récit et de notre plaisir en passant en revue les étapes du mariage annoncé entre la voix et le visage. Le film déplie un véritable inventaire de ces crises avant de conclure par la fusion attendue entre la voix de Debbie Reynolds et son visage enfin retrouvé, inondé des larmes du bonheur. La scène finale offre une belle synthèse des dispositifs d’écart entre les visages et les voix (deux voix, deux visages et toutes les permutations possibles devant le public du cinéma d’abord dupe puis informé). Elle prouve surtout combien les spectateurs sont conscients de ces jeux et de ce que Jean Marie Shaeffer appelait le « savoir de l’arkhè10 ». Mais la machine du doute s’emballe un peu, car certains prétendent que la voix prêtée à Debbie Reynolds est celle d’une autre chanteuse — la troisième donc — Betty Noyes11.
Retenons qu’une fois encore l’articulation entre la voix et les visages est source de récits et qu’elle en est venue à constituer un des lieux (délibérés) de l’écriture cinématographique. Comme pour les effets spéciaux, on est passé d’une technique dissimulée à une articulation exhibée devenue objet du récit. Il convient donc maintenant de faire le point sur les outils dont nous disposons pour étudier cette écriture.

Anatomie des voix au cinéma

Comment décrire les voix ? On peut commencer par indiquer deux critères, deux axes de travail : lieu de la voix : voix diégétique / voix extra diégétique ; « auteur » de la voix : travail du réalisateur / travail de l’acteur. On va donc classer les lieux et les sources de la voix entendue selon les critères habituels du cadre (visible) opposé au hors-cadre (non visible), puis du champ (diégétique) opposé au hors-champ (extra diégétique). Cela donne trois cadres imbriqués et une circulation de la voix d’un cadre à l’autre :

Cadre 1 : Dans le champ et dans la diégèse.

Cadre 2 : Hors du champ et dans la diégèse

Cadre 3 : Hors du champ et hors de la diégèse.

Les trois lieux emboîtés de la voix communiquent entre eux et il est fréquent qu’une voix hors cadre trouve un visage (le personnage entendu, d’abord invisible, entre dans la pièce), ou qu’une voix hors champ extra diégétique s’incarne (Anthony Hopkins, narrateur du Dracula de Coppola, joue aussi le personnage de Van Helsing). Ailleurs, la diégèse elle-même se divise en plusieurs plans (selon ce que voient des personnages plus ou moins initiés) : le visage de Dracula apparaît en haut de l’écran dans le rôle du quatrième prétendant aux amours de Lucy. Comme on « entend des voix », certains voient des visages.

Plus curieux mais pas exceptionnel est le cas des voix mal attribuées ou décalées, comme celle de Jean-Paul Belmondo au début de Pierrot le Fou : Ferdinand (Belmondo) est à la fois vu à bonne distance en train d’acheter un livre en silence, tandis que sa voix off très proche du micro lit un texte d’Elie Faure12 sur Velasquez. Quelques instants plus tard, le même texte trouve sa source explicite sur le visage de Belmondo qui le lit dans sa baignoire et l’écho produit est très différent13. Cette voix voyageuse confirme la plasticité des rapports entre le visage et la parole. Après la marionnette de Gabbo, on n’oubliera pas, par exemple, les voix attribuées à un masque (Darth Vador) ou à une entité invisible (Michel Chion parle alors d’acousmêtre et donne l’exemple de la mère de Norman Bates). Pour entrer un peu dans les détails, je vais, comme d’habitude, séparer deux niveaux d’analyse : d’une part les voix diégétiques, d’autre part des voix sans ancrage, voix des narrateurs, des commentateurs ou des auteurs signifiés, que seul le spectateur peut entendre. Autrement dit, je vais commencer par les voix « immanentes », diégétiques, avant d’évoquer les voix « transcendantes », réservées au spectateur.

Voix diégétiques

Il est possible de décrire les caractéristiques d’une voix (intensité, rythme, positionnement, …) alors que son attribution — l’identité de l’acteur qui parle derrière le personnage — rencontre vite le quasi miracle de la reconnaissance d’un individu parmi des milliers. On évoquera rapidement l’aspect des voix, leur position dans l’espace et le temps, leur identité et le travail de l’acteur sur sa propre voix.

- Aspect des voix

Leur description relève à la fois de la personnalité de l’acteur et de ses choix d’expression, c'est-à-dire qu’il est difficile de séparer l’instrument de la façon d’en jouer : on constate donc qu’une voix est forte ou douce, grave ou aiguë, continue ou hachée de silences, lente ou rapide, etc. A l’évidence, le même acteur pourra exagérer ces modulations et s’en servir, mais on le reconnaîtra selon quelques traits habituels. C’est dire qu’au cinéma, la voix de l’acteur s’interpose toujours entre l’écriture du réalisateur et nous : l’acteur y est à la fois le matériau et l’auteur de son écriture.

- Positions

En revanche, le point d’écoute (où sommes nous dans l’espace diégétique par rapport à la voix entendue), dépend des choix du réalisateur — dans l’espace et dans le temps — et il existe un équivalent de la profondeur de champ dans le domaine sonore. Voici quelques exemples pour le plaisir :
Position dans l’espace : Woody Allen en a fait un gag dans Annie Hall quand Alvy et son ami californien viennent vers la caméra, d’abord invisibles tant ils sont éloignés, puis minuscules au fond de l’écran. Quand ils se rapprochent progressivement, le niveau sonore (toujours audible) ne change pas et donne l’illusion d’une même distance tout au long de la séquence, évidemment contredite par l’image. Et on pourrait voir dans certains chevauchements des voix — surtout chez Altman — un équivalent du plan général dans lequel on ne sait plus trop bien ce qu’il faut voir, car l’oreille, comme les yeux, sait choisir une source plutôt qu’une autre, même si, le plus souvent, c’est l’ensemble qui paraît confus et inaudible14.
Position dans le temps : Il convient aussi de distinguer entre plusieurs points d’écoute dans le temps : voix analeptiques qui introduisent des flash-backs, voix souvenirs-bilans entendues par Scarlet O’Hara à la fin de Gone With the Wind, voix semi-proleptiques imaginées par Marion dans sa voiture, dans Psychose (elle entend ce que vont sûrement dire les gens quand ils découvriront sa disparition avec les 40 000 dollars…). Même le cinéma contemporain « classique » joue de tels improbables télescopages temporels : dans Orgueil et préjugés, Elizabeth Bennet entend lire la lettre de Darcy avant même de l’avoir décachetée15.

- Voix et identité

Il s’agit des multiples glissements et assemblages entre les trois statuts habituels de l’acteur : le personnage, la persona et la personne. Là encore, l’acteur peut feindre un accent étranger, un milieu social ou un âge mais il joue aussi de ce qui a fini par constituer sa persona derrière le personnage : on n’imagine pas Maurice Chevalier sans son accent. Cela dit, on n’imite pas un accent étranger de la même manière selon les genres, dans un musical (Yul Brynner dans The King and I) ou dans un film de gangsters (l’accent « italien » de Paul Muni dans Scarface). Comble de la multiplicité, dans Dracula, Gary Oldman ajoute à ses masques visibles les inépuisables déguisements de sa voix : accent Roumain, âges variables, violence ou séduction, ou encore râles félins, …
C’est bien sûr cette formidable plasticité de la voix — seule ou associée à d’autres signes — qui fascine dès les origines du cinéma parlant. Ou plutôt, ce sont les créations qui résultent d’assemblages plus ou moins aléatoires, comme la voix du doublage de Peter Falk dans Columbo, si différente de l’original, ou celle d’une actrice à la voix abîmée par le tabac pour le personnage d’ET, ou encore celles que les films ont prêté à des masques sans voix : Robie le Robot, Chubaka ou Hal, l’ordinateur épuisé16.
Bref, on retrouve le caractère éclaté et disparate de la relation entre les voix et les visages, entre les voix et les personnages au cinéma. Tout semble possible dans une écriture de l’artifice. Ce sont la diégèse et le récit qui permettent l’assemblage de tels « visages » et de leurs voix et l’influence d’un élément sur l’autre opère dans les deux sens : d’une part, les voix qui doublent Scottie dans Vertigo suggèrent un personnage assez différent en anglais (inépuisable persona de James Stewart !), en français (qui peut paraître assez neutre) et en espagnol, où l’acteur module une voix de basse bien plus masculine (macho ?) que les précédentes. Mais, d’autre part, le montage qui enchaîne un vol de mouettes sur le cri de deux jeunes femmes sur la plage (Young and Innocent) où elles viennent de découvrir un cadavre fait d’elles des gulls — des dupes. Ou encore le cri de la femme de ménage de The 39 Steps est associé à la sirène du train… Autrement dit, tantôt la voix agit sur l’image du visage (les doublages de Scottie), tantôt c’est une autre image qui influence la voix (le montage de 39 Steps). Ces couplages improbables créent parfois un effet troublant, par exemple quand on entend la rare voix caverneuse prêtée au Mr Bean de Rowan Atkinson : voix presque acousmatique, comme venue d’un double inversé — un ça gigantesque et violent — de ce personnage dont l’âge mental est de quatre ans.
Il faut donc insister sur l’extraordinaire force de synthèse ou de coalescence entre la voix et le visage, fut-ce contre toute vraisemblance. Les récits en profitent souvent, et exploitent le désir de synthèse engendré par la voix qui fait sens, par exemple dans la belle séquence au cinématographe du Dracula de Coppola : Mina, presque entraînée de force par le Prince soudain devenu très entreprenant, est saisie d’effroi en entendant sa voix : « Who are you? I know you ». Elle le reconnait à travers les siècles de ce récit où la musique et la voix servent de fil conducteur à travers les âges. On a simplement retrouvé ici les trois grands types d’articulation entre le visible et l’audible tels que les suggère Chénetier à propos de l’écrit :

- Rapports de substitution ou de remplacement (image à la place du son et réciproquement : Le Cri de Munch ; le monde sonore de l’aveugle).

- Rapports de complémentarité, ou d’empathie, pour parler comme Michel Chion (visage et voix en harmonie ou enrichissement de l’un par l’autre).

- Rapports d’opposition, ou d’anempathie (Mr Bean, homme-enfant habité par la voix d’un géant) 17.

Expression. Malgré cette force du récit, on mesure l’importance des choix laissés aux acteurs : hauteur, vitesse, intensité, timbre, puis accents, âge prêté au personnage, dépendent tous du comédien. Mais c’est finalement le ton18 — mot un peu vague — réel ou feint, qui va relier le personnage au spectateur et Lubitsch peut démontrer que les mots importent peu, pourvu que le ton juste fasse croire aux espions de la Marshovie que la dispute est terminée entre le Roi, sa Reine et l’Amant joué par Maurice Chevalier (dans The Merry Widow, 1934). On les entend donc mimer le bruit sans paroles d’une conversation anodine et aimable pour tromper leur entourage. Car la voix dépend aussi de ses interlocuteurs, de ce qui passe d’un personnage à l’autre et du film au spectateur.
La voix s’adresse ainsi tantôt à un second personnage qu’elle interpelle, tantôt à un troisième personnage à qui ce « dialogue » s’adresse indirectement et, bien sûr, toujours au spectateur lui-même par personnages interposés. L’adresse explicite aux spectateurs est devenue un lieu commun du théâtre (Eugène Labiche) mais elle n’est pas rare au cinéma, comme dans la scène d’Annie Hall où Alvy prend le public à témoin de son conflit avec un universitaire pédant, avant de le confronter à un Marshall McLuhan en chair et en os. Ou qu’il commente sa réception dans la famille wasp d’Annie, soudain déguisé en rabbin pour nous faire voir comment (selon lui) la famille le perçoit.
Voix narratrices. Elles appartiennent à un entre-deux : à la fois diégétisables et adressées au spectateur. En voici quelques exemples : la voix de Pip naît tout simplement de la première page du roman de Dickens visible à l’écran19 ; la voix off de Watson naît de son journal et de ses papiers préservés dans une cave de Londres20 ; tandis que celle de la jeune Lady de Winter n’a pas encore de visage, pas plus qu’elle n’aura de prénom, tant elle est intimidée par Rebecca. On peut ainsi couvrir tout le registre de la visibilité du narrateur et de sa source originale : texte déjà écrit et donné à voir (Dickens), texte « fantôme » gardé en mémoire (le roman de Du Maurier), texte en construction (une aventure « inédite » de Holmes), etc. La voix du narrateur peut être ancrée dans la diégèse (tous les exemples précédents, mais aussi The Barefoot Comtessa où Bogart est visible dès l’incipit, au contraire de Laura où Waldo est provisoirement invisible), ou rester hors champ (dans A Letter to Three Wives21 la lettre qui déclenche le récit est visible et sa « voix » audible, mais son auteur restera dissimulée jusqu’a la fin). Et, comme souvent, l’habitude du dévoilement progressif du visage du narrateur a engendré son exact contraire dans The Lady in the Lake, où Marlowe annonce longuement son récit avant de disparaître de l’écran (récit en caméra « subjective »). Bref, l’écoute de la plupart des narrateurs feint de s’en tenir à leur univers diégétique, tandis que d’autres (Pip, Watson…) supposent un recours explicite à l’extérieur du film, à une voix venue d’ailleurs. Ce sont ces voix « transcendantes » — voix pour le spectateur — qu’il convient maintenant d’évoquer.

Les voix pour le spectateur

Il faut partir d’une fausse banalité : même inscrite dans la diégèse, même visible à l’écran grâce au visage qui la porte vers celui d’un autre personnage, la voix sort du film et s’adresse directement au spectateur. Dans son adaptation pour la BBC de 1995, la phrase initiale du roman Pride & Prejudice (« It is a truth universally acknowledged […] ») est prononcée par Elizabeth qui semble s’adresser à sa mère, mais elle rebondit vers les oreilles du spectateur, comme un écho décalé de l’original. Il est évident que c’est aussi à moi qu’elle s’adresse, à mon sens de l’ironie (avant de changer d’émetteur quand Mrs Bennet en assume le message, en écho au mouvement du roman), mais aussi à ma mémoire du livre et à la différence de traitement que je perçois ici, au point que l’absence même de l’indispensable formule dans le film de Joe Wright me fait aussi sursauter. Cette voix pour le spectateur a déjà un rapport avec la question du pouvoir que Pascal Bonitzer22 décrivait à propos de la voix off, même si elle reste dans un entre deux qui l’ancre à la fois dans la diégèse et dans le rapport au spectateur.
Revenons aux débuts, c’est à dire au Jazz Singer de 1927 : quand il dit « You ain’t heard nothing yet », Al Jolson parle pour parler, pour qu’on l’écoute parler (et chanter Tootsie Tootsie) après un très long film qui était resté muet avec ses cartons, sa musique et ses visages trop expressifs pour la parole. Comme le dit Alain Masson : « le son proclame sa propre motivation. Il met en valeur le fait qu’un canal nouveau s’établit : la transmission orale du message prend plus d’importance que le contenu23».
Or ce double jeu qui montre des spectateurs écoutant Jolson en direct, tandis que nous l’entendons en différé, annonce un instant clef du film. Jakie Rabinowitz, enfant, a fui le foyer familial quand son père rabbin lui a interdit de chanter du jazz. Devenu célèbre, Jack Robin revient voir sa mère vingt ans plus tard et le film devient enfin vraiment parlant, presque improvisé, quand la mère et son fils dialoguent et rêvent de l’avenir. Le père survient alors au cœur de cette séquence déjà oublieuse de l’autre cinéma et il ne prononce — ne hurle — qu’un mot : « STOP ! » Et voici que le film se tait, que les bouches s’agitent à nouveau en silence, accompagnées de la musique des films d’avant et des cartons du mélodrame muet. (« Have you no word for your son? », dit opportunément la mère). Le pouvoir de la voix du Père a eu raison de celles du fils et, bien sûr, de la très explicite tentation Œdipienne.
Il faudra attendre la fin du film pour qu’une double synthèse se fasse : la scène débute selon l’ancienne technique et montre le père sur son lit de mort, entouré des siens. Mais une voix s’élève dans la synagogue : le fils chante le Kol Nidre à sa place et le rabbin en meurt de joie. Le film dit d’abord sa foi dans l’Amérique qui permet aux communautés de vivre le rêve de la modernité (le jazz) tout en préservant leurs racines identitaires (la synagogue). Mais il suggère aussi la synthèse entre le récit traditionnel et l’avènement de la voix.
Récapitulons : la voix d’Al Jolson parle d’abord pour parler, pour montrer au(x) public(s) qu’elle existe. Puis elle affirme sa nouvelle indépendance dans l’improvisation de la parole adressée à la mère24 ; elle est ensuite interdite par l’ordre du Père qui restaure le langage antérieur. On aura alors remarqué qu’ici, la parole improvisée (le Jazz, le dialogue avec la mère) semble s’opposer à la parole écrite (les cartons, le texte biblique). Mais l’édifiante synthèse finale qu’incarne Al Jolson se fait entre la pratique bénie du Livre et la mise en trace des dialogues improvisés avec la mère. A sa manière, le récit de The Jazz Singer invente la parole comme trace, c’est à dire une forme de textualisation de la parole par le cinéma.
D’autre part, ce film a (spontanément ?) posé la question du pouvoir de la voix, de son autorité liée à sa source. Il faudrait étudier le pouvoir des voix au cinéma, mais de façon diffuse et réflexive, peut-être du côté du désir de voix dont parle Chénetier25, ou encore dans les traces de ce dont elles sont la synecdoque26. Désirs de voix : je vais conclure en élargissant un peu la belle formule de Chénetier mais en faisant l’impasse sur l’analyse des voix narratives, façon Genette et Jost, pour revenir brièvement sur la voix surplombante de l’auteur construit par le film, avant de finir avec ce qui est plus propre au cinéma, c'est-à-dire la quête de la voix incarnée, sa trace ou son « écriture ».
Passons un peu vite sur la figure de l’auteur caché derrière la voix d’un autre. Pourtant, même si le cinéma la met à distance (il y a une foule de techniciens au travail derrière cette « voix »), cette hydre nous saisit encore — d’autant plus que l’histoire de la critique de cinéma a voulu une trajectoire inverse de celle de la « mort de l’auteur » en littérature : au cinéma, faire vivre les auteurs contre la doxa des vedettes et des studios a été un combat de progrès. Même quand je n’entends pas, à la fin du film, « My name is Orson Welles », en voyant certaines images, il m’est difficile de ne pas entendre — quand même — les voix d’Hitchcock ou de Godard. Quand Marc Chénetier évoque la voix lyophilisée de l’auteur qu’un peu de salive fait revivre, il feint de croire que les mots contiennent la trace physique du corps de la Voix. Il n’en est rien, bien sûr, alors que la voix enregistrée du cinéma, au contraire, a la magie d’une empreinte bazinienne ; même mécanisée, même numérisée, elle est la trace physique de l’avoir été là du corps qui l’a émise. C’est ici que nous retrouvons les deux conceptions du cinéma qui s’opposent et deux films les illustrent assez bien.

Deux conceptions du cinéma

La voix est aussi affaire de traces. Je conclurai donc par une comparaison entre deux retours de la voix qui représentent deux conceptions très différentes du cinéma, même si la scène de Pepe le Moko27 est une enclave bazinienne au cœur d’un film qui ne l’est pas. Plus que jamais l’échange entre ce que vivent les personnages et ce que ressent le spectateur est en jeu ici, non pas sur le mode de l’identification, mais plutôt dans un rapport partagé, vicarial, avec les visages et les voix. Casablanca28 et Pepe le Moko montrent une scène comparable : une femme écoute les traces d’une voix perdue. Non pas la voix invisible au présent de Easy Virtue (la téléphoniste), mais deux voix qui reviennent du passé, l’une de façon fictionnelle, l’autre comme un fantôme du réel perdu. En effet, leurs conceptions du cinéma semblent s’opposer.
Le film de Michael Curtiz est une sorte de synthèse de ce que Bazin appelait un cinéma du langage, qui assemble des unités signifiantes hors de leur origine pour engendrer un sens nouveau ; au contraire, la scène du film de Julien Duvivier appartient plutôt à ce que Bazin appelait un cinéma de la « réalité », dans la mesure où le spectateur sait (ou croit savoir) que ce qu’il voit est la photographie d’un instant documentaire, arraché au monde réel. Deux types d’émotion semblent ici s’opposer : on peut être sensible à la présence de la trace du passé (un de mes amis archéologues vibre à la vue d’un simple morceau de terre cuite) ; ou on peut s’émouvoir devant une construction fictive, opéra ou cinéma de l’artifice de F. F. Coppola. Je crois pourtant que le cinéma offre en même temps les deux statuts de la voix-objet et des émotions qu’elle suscite.
La scène de Casablanca est très célèbre. Ilsa (Ingrid Bergman) a suivi son mari dans le bar de Rick (Bogart) et elle retrouve Sam, le pianiste noir que, manifestement, elle connait. Elle lui demande de jouer, puis de chanter l’air As Time Goes By (déjà connu à l’époque du film) et les réticences de Sam nous alertent : la chanson a une histoire et cette histoire est devenue interdite et douloureuse, comme le confirme la rage de Bogart qui survient bientôt. Ce n’est qu’en revoyant le film que la scène prend tout son sens. As Time Goes By renvoie à l’aventure parisienne du couple, à la fuite d’Ilsa quand elle a appris que son mari n’était pas mort en camp de concentration et au dépit amoureux de Rick laissé avec Sam sur le quai de la gare. La voix ici — par ailleurs fort belle — n’est que le support d’un récit, le fragment d’un appareil entièrement construit par le film. On sait aussi les hésitations entre plusieurs types de play-back — la voix de Dooley Wilson (Sam) doublée puis récupérée, ses mains de pianiste relayées par un autre29, etc. — et tout ici est écriture de l’artifice convergeant vers une synthèse émotionnelle au niveau de la diégèse. Visage et voix reconstruisent un récit perdu jusqu’à leur unité retrouvée à la fin du film, selon le même modèle hollywoodien que la fin de Singing in the Rain ou que la voix retrouvée de Dracula : l’unité de la voix, du visage et de leurs histoires s’impose au-delà de leurs évidents artifices.
La scène de Pepe le Moko montre également une femme qui écoute une chanson évoquant son passé : alors que Pepe (Jean Gabin) se cache dans la casbah d’Alger et qu’il exprime son dégoût de vivre au point d’envisager le suicide, une femme lui conseille de faire comme elle, de se tourner vers son passé, par exemple en écoutant un vieux disque, du temps où elle était chanteuse à Paris, comme en atteste une vieille photo d’elle accrochée au mur. Or ces velléités proustiennes assez banales annoncent en vérité une scène d’une intense émotion, à condition de disposer du savoir de son « arkhè », de comprendre ce qui se joue là, devant la caméra. La grosse femme30 est la célèbre chanteuse réaliste Frehel, qui écoute un vieux disque qu’elle a elle-même enregistré, et l’image se dédouble d’abord entre son visage alourdi et la photo qui la montre jeune et mince en train de chanter dans les années 1910. Frehel s’écoute. Ses lèvres tremblent d’émotion. Et puis, elle se met à chanter tout bas, avec ce qui lui reste de voix, et elle pleure. Et il est difficile de ne pas être pris par la force de cet « avoir été là » propre au remariage entre le visage et la voix tant la double présence du visage et de la voix offre l’évidence d’une cruelle rupture. Cette séquence réalise une rare fusion entre le personnage, la persona et la personne.
Ce sont donc trois écarts qui séparent ces traces rassemblées devant nous : voix du disque, voix du film et distance qui nous sépare de 1937 ; image de Frehel jeune, image de sa déchéance (dans la diégèse et dans le réel) et distance qui nous en sépare. Ces retrouvailles, cette reconstruction de leur unité perdue, ne débouchent pas comme dans Casablanca ou Singing in the Rain sur un récit et sur l’émotion de la reconnaissance. Elles ont, au contraire, la déchirante cruauté du réel.
Frehel et la résurgence factuelle de la voix perdue ; Casablanca et la production d’un fantôme de voix qu’on imaginait perdue. Deux émotions assez différentes et deux statuts réputés incompatibles du cinéma. J’évoquais en commençant une mise en crise des rapports entre le visage et la voix. De telles crises sont normalement le point de départ du récit et, par conséquent, elles sont vouées à une forme de résolution narrative. Mais l’exemple de Pepe le Moko montre aussi le potentiel d’intensité de l’image sonore : le cinéma n’offre pas que l’épiphanie des visages, c’est aussi le plus troublant des miroirs de la voix. Avec Bazin, il faut bien reconnaître que le savoir de l’arkhè du film — l’authenticité de la voix de Frehel —apporte une irremplaçable qualité d’émotion à la scène ; mais, contre Bazin, les artifices de Casablanca et la conception hollywoodienne de la représentation — bref le mentir vrai du cinéma du langage — nous instruisent autrement sur les émotions et sur les pouvoirs de la voix.

Films cités

Allen, Woody. Annie Hall. 1977.

Chaplin, Charles. City Lights. 1931.

Crosland, Alan. The Jazz Singer. 1927.

Cruze, James. The Great Gabbo. 1929

Curtiz, Michael. Casablanca. 1942

Donen, Stanley. Singing in the Rain. 1952.

Duvivier, Julien. Pepe le Moko. 1937.

Godard, Jean-Luc. Pierrot le Fou. 1965.

Hitchcock, Alfred. Easy Virtue. 1927.

Hitchcock, Alfred. Blackmail. 1929 .

Hitchcock, Alfred. Psycho. 1960.

Hitchcock, Alfred. Young and Innocent. 1937.

Hitchcock, Alfred. The 39 Steps.1935.

Lubitsch, Ernst. The Merry Widow. 1934.

Wright, Joe. Pride & Prejudice. 2005.

Ouvrages cités

Arnheim, Rudolf. Film as Art. 1933. Londres : Faber & Faber, 1983.

Bonitzer, Pascal. Le Regard et la Voix. 10/18. Paris : C. Bourgois, 1976.

Bordat, Francis. « Qui connait Marni Nixon ? » Bulletin du CICLAHO 5 (2010).

Chénetier, Marc « Repères pour l’étude d’une voix fantôme ». Revue Française d’Etudes Américaines 54 (1992).

Chion, Michel. Un Art sonore : le cinéma. Cahiers du Cinéma, Paris : 2003.

Chion, Michel. La Voix au cinéma. Cahiers du Cinéma, Paris : 1982, rééd. 2005.

Lecomte, Jean-Marie. « L’Imagination verbale dans les premiers parlants (1927-1930) ». Bulletin du CICLAHO 5 (2010).

Masson, Alain. L’Image et la parole : l’avènement du cinéma parlant. Paris : La Différence, 1989.

Shaeffer, Jean-Marie. L’Image précaire. Paris : Seuil, 1987.

1 J. Aumont et M. Marie, Dictionnaire théorique et critique du cinéma.

2 R. Arnheim, Film as Art, préf. de 1957, 12.

3 R. Arnheim, op. Cit., 164-189.

4 Ibid, 164.

5 M. Chion, La Voix au cinéma, 18.

6 M. Chénetier, « Repères pour l’étude d’une voix fantôme », 323.

7 M. Chion, Un art sonore : le cinéma, 292 et La Voix au cinéma, 20.

8 Joan Barry sera Emily Hill dans Rich and Strange de 1931.

9 Voir l’article de J.-M. Lecomte, Bulletin du CICLAHO 5 (2010).

10 Dès L’Image précaire, 41 sq.

11 R. Behlmer, Behind the Scenes, 267. « So what we have in the final film is a scene showing Debbie as Kathie supposedly replacing the strident nasal utterances of the character played by Hagen […] whereas in actuality Debbie’s voice was replaced by the real speaking voice of Jean Hagen and the singing voice of Betty Noyes. »

12 Il s’agit précisément de l’édition en Livre de Poche de 1964 de l’Histoire de l’Art, L’Art moderne, tome 1.

13 Le cinéma, et parfois le théâtre grâce aux coulisses, peut faire entendre Hamlet parler bouche fermée (Cf. « To be or not to be », dit par Laurence Olivier)

14 C’est surtout vrai dans Shortcuts et dans Gosford Park, mais certaines scènes de M.A.S.H. jouaient déjà de cette impossibilité d’écouter trois personnages à la fois…

15 Dans le Pride & Prejudice de Joe Wright (2005).

16 Respectivement dans Forbidden Planet de Fred McLeod Wilcox, Star Wars de Lucas et 2001: A Space Odyssey de Kubrick.

17 M. Chénetier, op. cit, p. 323.

18 L’exercice le plus célèbre est sans doute celui de Fernandel dans Le Schpoumtz, quand il répète « Tout condamné à mort aura la tête tranchée » sur tous les tons.

19 Voix de John Mills dans Great Expectations de David Lean, 1946.

20 The Private Life of Sherlock Holmes, Billy Wilder, 1970.

21 A Letter to Three Wives (Chaînes conjugales), Joseph L. Mankiewicz, 1949.

22 P. Bonitzer, Le Regard et la Voix, 33.

23 A. Masson, L’Image et la parole, 166.

24 A. Masson (op. cit.) note que ce dialogue est improvisé certes, mais sans doute aussi « prémédité ».

25 M. Chéneiter, op. cit., 326.

26 Ibid., 325.

27 Julien Duvivier, Pepe le Moko, 1937, avec Jean Gabin.

28 Michael Curtiz, Casablanca, 1942, avec Humphrey Bogart, Ingrid Bergman et Dooley Wilson.

29 Voir R. Behlmer, op. cit., 161 : Al Wallis « requested Leo Forbstein, the head of the music department, to “begin looking immediately for a Negro with a good crooning voice to double all of Dooley’s Wilson’s song ». Mais la voix de Wilson a finalement été gardée.

30 C’est Gabin lui même qui l’appelle « la grosse ». Plus tard, il lui dira qu’elle saura convaincre celle qu’il abandonne, puisqu’elle aussi « a été femme ». Tant de machisme désinvolte aurait du mal à passer aujourd'hui.