Les voyelles peuvent être difficiles à décrire phonétiquement parce qu’elles sont des points, ou plutôt des zones, à l’intérieur d’un espace continu. Toute langue aura un certain nombre limité de voyelles contrastées, dont chacune peut être représentée par un symbole alphabétique propre ; néanmoins, phonétiquement, chacune correspondra à une gamme de valeurs typiques, et entre deux sons de voyelles, il n’existe qu’un continuum d’inclinaison plutôt qu’un limite.
Une bonne analogie peut être faite avec les couleurs. Voici le graphique de chromaticité d’usage courant de la Commission Internationale de L’Eclairage (CIE) :
La forme en V arrondie du graphique définit le périmètre perceptible des couleurs, s’étendant entre trois couleurs ‘polaires’ : rouge, vert et bleu. Il y a un espace continu entre ces trois couleurs ‘polaires’, ainsi qu’entre eux et la zone centrale correspondant au blanc.
De même, l’espace vocalique peut être représenté sous la forme d’un V arrondi avec trois voyelles ‘polaires’, à savoir i-a-u. Il y a un espace continu entre ces trois voyelles, ainsi qu’entre elles et la zone centrale ‘incolore’ correspondant à la voyelle centrale réduite (le schwa). Schématiquement :
Les langues font des catégorisations différentes de l’espace colorimétrtique et de l’espace vocalique. Par exemple, de nombreuses langues (comme le vietnamien) ont un seul mot pour couvrir la partie de l’espace colorimétrique que l’anglais divise en green (‘vert’) et blue (‘bleu’). D’autre part, l’anglais n’a qu’un seul terme de base blue (‘bleu’) pour un espace que le russe et l’italien divisent en deux : Le sinij russe et le blu italien correspondent à ce que l’anglais doit appeler ‘bleu foncé’ tandis que goluboj et azzurro correspondent au ‘bleu clair’. De même avec les catégories de voyelles : la partie de l’espace vocalique que l’espagnol divise en deux voyelles i-e est divisée par l’italien et le yoruba en trois : i-e-ɛ.
La triangularité du graphique de chromaticité reflète les trois types de photorécepteurs (cônes) dans la rétine, qui répondent différemment aux différentes parties du spectre visible. La triangularité de l’espace vocalique reflète notre sensibilité aux différents caractéristiques comprises dans le spectre acoustique : u est caractérisé par des résonances (également appelées formants) dans la partie basse de la gamme vocalique, a par des résonances dans la gamme moyenne, et i par une combinaison de résonances haute et basse.
Le graphique bidimensionnel de l’espace colorimétrique est dérivé d’une manière assez complexe, mais un graphique bidimensionnel de l’espace voyelle peut être créé très simplement en traçant la résonance la plus basse (aussi appelée le ‵premier formant′ ou ‵F1′) contre la seconde résonance la plus basse (aussi appelée le ‵second formant′ ou ‵F2′). Voici les voyelles cardinales primaires telles qu’enregistrées par Daniel Jones et John Wells :
(F1 est tracé de haut en bas, F2 de droite à gauche ; les échelles sont logarithmiques et les nombres sont des valeurs de fréquence en Hertz. Le coin inférieur droit est grisé car, par définition, F1 ne peut pas être supérieur à F2).
La forme largement triangulaire de l’espace vocalique est évidente pour les deux locuteurs, bien que leurs valeurs absolues diffèrent. Ces divergences sont dues en partie à des différences naturelles dans la taille et la forme des tracts vocaux des locuteurs, et en partie à des variations dans la réalisation précise des sons : Le [u] de Wells, par exemple, est particulièrement extrême.
Aujourd’hui, il est remarquablement simple de produire de telles tracés à partir d’enregistrements sonores. Grâce aux développements technologiques et au travail public de brillants scientifiques-programmeurs comme Paul Boersma et Mark Huckvale, de nombreuses applications merveilleuses sont disponibles gratuitement. Le Praat de Boersma peut être téléchargé gratuitement en version Mac et PC.
Les premiers phonéticiens n’ont pas eu cette chance. Incapables de mesurer les sons de la parole, ils étaient renvoyés sur les impressions visuelles et tactiles (ou ‵proprioceptives′) qu’ils pouvaient obtenir de ce que le corps faisait pour produire les sons. L’un des grands pionniers fut Alexander Melville Bell, père de l’inventeur du téléphone Alexander Graham Bell (père et fils ont donné des conférences-démonstrations phonétiques à l’University College London au milieu du XIXe siècle). Bell a eu l’idée de décrire les voyelles en termes d’associations de configurations de la langue (anatomique).
Bell classifia les voyelles en termes de deux dimensions, en se basant sur son estimation de la hauteur ou de la hauteur de la langue, et de la position avant ou arrière dans la bouche. Sous peu, les phonéticiens avaient largement adopté cette vision de l’espace vocalique comme espace-de-langue [Note du traducteur: Comprenez ‵langue′ dans son sens anatomique], et même aujourd’hui, les termes haute/basse et antérieure/postérieure de Bell sont généralement utilisés comme classificateurs de voyelles.1Note du traducteur: C’est à cause du cadre de l’espace vocalique que dans le HLBI nous préférons les termes haute/basse plutôt que fermée/ouverte pour décrire les voyelles. Pour en savoir plus, reportez-vous ici. (C’est aussi la raison pour laquelle nous traçons conventionnellement le minimum F1 au sommet de l’espace vocalique, cette résonance ayant tendance à être inversement liée à la hauteur estimée de la langue).
Cependant, comme le dit Peter Ladefoged dans son Vowels and Consonants (‘Voyelles et Consonnes’) :
Ces premiers phonéticiens ressemblaient beaucoup aux astronomes avant Galilée … [qui] pensaient que le soleil faisait le tour de la terre toutes les 24 heures, et que la plupart des étoiles faisaient la même chose … Les observations des premiers astronomes étaient merveilleuses. Ils pouvaient prédire assez bien les mouvements apparents des planètes. Ces astronomes étaient certains qu’ils décrivaient comment les étoiles et les planètes faisaient le tour de la terre. Mais ils ne le faisaient pas. Il en va de même pour les premiers phonéticiens. Ils pensaient décrire le point le plus haut de la langue, mais ils ne le faisaient pas. Ils décrivaient en fait les fréquences des formants.
Dès 1928, l’orthophoniste américain George Oscar Russell publia une étude aux rayons X qui mina la notion de l’espace vocalique comme étant un espace-de-langue. Selon Russell, “les phonéticiens pensent en termes de faits acoustiques et utilisent la fantaisie physiologique pour exprimer l’idée”.
C’est donc peut-être un léger choc que de se rappeler que l’Association phonétique internationale promulgue toujours la vision ‘pré-galiléenne’ de l’espace vocalique comme espace-de-langue. Le Manuel de l’API (Cambridge University Press, 1999) commence sa section sur les voyelles par cette section transversale du conduit vocal et explique que :
le raccordement des cercles représentant le point le plus haut de la langue dans ces quatre voyelles extrêmes donne la limite de l’espace à l’intérieur duquel les voyelles peuvent être produites. Aux fins de la description des voyelles, cet espace peut être schématisé comme le quadrilatère [sur le tableau de l’API].
Le Manuel admet que, pour évaluer les positions intermédiaires entre ces extrémités de la langue, il est nécessaire d’écouter les sons réels. Ceci fait suite à Daniel Jones, dont le Outline of English Phonetics (9e éd., 1960) se réfère vaguement aux “chambres de résonance” qui déterminent la qualité des voyelles, et déclare pour les voyelles cardinales primaires que
les degrés d’écartement acoustique entre chaque voyelle et la suivante sont égaux, ou plutôt aussi égal qu’il est possible pour une personne ayant une oreille bien formée de le faire.
Il est intéressant de noter que Ladefoged nous dit dans son CV informel que
Jones n’a jamais défini ce qu’il voulait dire en disant que les voyelles cardinales étaient acoustiquement équidistantes. Il pensait que la langue faisait des mouvements égaux entre chacune d’entre elles, même après la publication des radiographies des 8 voyelles cardinales primaires produites par son collègue Stephen Jones [aucune parenté] montra que ce n’était pas le cas (Jones, 1929). Daniel Jones lui-même publia des photographies de seulement quatre de ses propres voyelles cardinales, bien que, comme il me le disait en 1955, il avait des photographies des huit voyelles. Quand je lui ai demandé pourquoi il n’avait pas publié les quatre autres photographies, il souria répondit : “Les gens les auraient trouvés trop déroutants”.
Le Manuel de l’API préfère parler d’ ‘abstraction’ :
L’utilisation de l’écartement auditif dans la définition de ces voyelles signifie que la description des voyelles n’est pas basée uniquement sur l’articulation, et c’est une des raisons pour lesquelles le quadrilatère de la voyelle doit être considéré comme une abstraction et non comme un modèlisation direct de la position de la langue.
Les voyelles cardinales primaires de Daniel Jones [i-e-ɛ-a-ɑ-ɔ-o-u] traçaient la périphérie de l’espace vocalique auditive-acoustique, leur articulation nécessitant des ajustements complexes de la mâchoire, de la langue et des lèvres. Mais la vision articulatoire de la description des voyelles a conduit à l’invention des ‵voyelles cardinales secondaires′ – les cardinaux primaires articulés avec des positions de lèvres inversées. Le tracé de ceux-ci sur la périphérie du quadrilatère signifie que les lèvres sont exclues du graphique. Cela le réduit à un espace de langue, et élimine les fondements auditifs-acoustiques qui l’avaient motivé (ouvertement ou non) en premier lieu.
C’est cet espace-de-langue (bien que stylisé ou ‘abstrait’) qui est perpétué sur le graphique de l’API : tout point sur celui-ci indique une articulation qui peut être arrondie ou non arrondie. Du point de vue acoustique, cela n’a pas de sens : si vous changez la posture de la lèvre d’une voyelle, vous changez le son, et donc sa position dans l’espace acoustique. En particulier, si vous inversez les positions des lèvres des voyelles cardinales primaires, les sons résultants sont tous centralisés – à l’exception de [ɒ], qui est une voyelle acoustiquement périphérique quelque part entre [ɑ] et [ɔ].
Voici à nouveau les espaces vocaliques acoustiques de Jones et de Wells, tracés comme auparavant au moyen de l’éditeur de voyelles Praat, mais maintenant complétés par quelques voyelles supplémentaires pour montrer comment elles remplissent l’espace à l’intérieur de la périphérie définie par les cardinaux primaires :
Selon la première phrase du Manuel de l’API, le but de l’Association est de “promouvoir l’étude de la science phonétique et des diverses applications pratiques de cette science”. Dans cet esprit, j’ai pensé qu’il valait la peine d’esquisser un graphique vocalique basé sur la science acoustique plutôt que sur la ‘fantaisie physiologique’. En faisant la moyenne des valeurs des formants de Jones et de Wells, puis en les ajustant pour interpréter plutôt littéralement la notion d’équidistance acoustique de Jones, je suis arrivé à un ensemble provisoire de valeurs qui peuvent être tracées comme suit (avec quelques lignes de raccordement en tant qu’aide visuelle) :
L’éditeur de voyelles Praat peut générer des voyelles synthétiques de base à n’importe quel point du graphique. Si vous cliquez sur les symboles du tableau ci-dessus, vous entendrez une voyelle synthétisée avec les valeurs F1 et F2 correspondantes. 2Note du traducteur: Malheureusement, il n’a pas été possible pour le moment, d’installer le logiciel permettant de faire écoute de ce graphique dans la traduction française ; donc allez à l’originel pour faire un essaie avec ce graphique. (Pour chaque voyelle, j’ai également utilisé l’éditeur Praat pour faire les ajustements conformes aux résonances supérieures F3 et F4. Alors que F1 et F2 sont adéquats pour différencier les voyelles sur le graphique, les formants supérieurs rendent les synthèses plus naturelles, F3 apportant une contribution particulière à l’‘arrondissement’ auditif des voyelles antérieures plus hautes.
En principe, on pourrait produire pour ces qualités (ou d’autres) des synthèses de qualité beaucoup plus élevées, au son véritablement naturel, en fournissant des voyelles de référence objectives standardisées, tout comme les couleurs des signaux de trafic et d’aviation sont pourvus de spécifications de chromaticité standardisées. La synthèse vocale permet un écartement équidistant fiable des voyelles, et de telles voyelles de référence pourraient remplacer les inévitables variations qui se produisent dans les démonstrations de voyelles qui ont été enregistrées par différents phonéticiens à partir de Jones. Notez que c’est la forme de l’espace – en gros, les rapports des valeurs des formants – qui importe plus que des fréquences absolues précises ; l’espace pourrait être normalisé et ajusté pour synthétiser le langage de femmes ou d’enfants.
Ici, j’ai essayé de styliser l’espace acoustique en un graphique sur le modèle du quadrilatère de l’API ; là encore, cliquer sur les symboles donne des synthèses générées par l’éditeur de voyelles Praat.
Le graphique est assez conservateur. Il maintient (en fait, dans une certaine mesure, il explique) les trois paramètres de ‘hauteur’ (ou ‘fermeture’), ‘postériorité’ et ‘arrondissement’ que tous les phonéticiens et phonologues utilisent. Les points noirs préservent les huit voyelles cardinales primaires de Jones, placées avec un écartement égal sur les côtés ‘antérieurs’ et ‘postérieurs’ de la périphérie. La voyelle neutre schwa est toujours située au milieu du centre.
La triangularité de l’espace voyelle est rendue claire. La plupart des langues ont des systèmes triangulaires ; l’espagnol, par exemple, a un système classique à cinq voyelles avec trois voyelles polaires qui sont des versions quelque peu centralisées des voyelles cardinales/référentielles i-a–u sur le graphique. Un système clairement quadrilatéral comme celui du finnois (avec i-æ-a-u) est encore révélé comme tel sur le graphique.
Il y a une ambiguïté délibérée dans la situation de a sur la carte. Au moyen de lignes de raccordement, j’ai préservé l’attribution de a de Jones à la série de voyelles cardinales ‘antérieures’. Mais a est situé au centre, en dessous de schwa. Et de nombreuses langues considèrent leur seule voyelle ‘bas’ (ou ‘ouverte’) comme appartenant à la catégorie phonologiquement ‘postérieure’. L’ambiguïté antérieure/postérieure de a pourrait être entérinée explicitement par l’ajout d’une ligne le reliant à la série ‘postérieure’.
J’ai apporté de légères modifications à l’interprétation de quelques symboles. Celles-ci ont pour effet général de réduire le nombre de qualités distinctes, de sorte que plusieurs symboles qui ont des définitions distinctes sur la graphique API sont traités ici comme des variantes transcriptionelles. Ces changements sont pour la plupart facultatifs (le tableau pourrait être rempli à nouveau si désiré), mais je pense que le tableau officiel de l’API est surchargé de symboles qui n’existent pas tant pour de bonnes raisons acoustiques ou linguistiques que pour remplir les cases implicites dans son cadre d’espace-de-langue.
Par exemple, je pense pas que le contraste entre ɨ et ɯ existe en aucune langue; la voyelle haute non-antérieure non-arrondie de langues comme le turc et le vietnamien est parfois transcrite comme ɯ et parfois comme ɨ. Cependant, les langues semblent utiliser une voyelle quelque peu haussée, quelque peu arrondie, qui n’est ni y ni u – par exemple, le ‘u comprimé’ du suédois et du japonais, et de de la voyelle écossaise FOOT-GOOSE et la voyelle ‘antériorisée’ de l’anglais britannique du sud FOOT. Pour cette qualité, il semble raisonnable d’utiliser ɵ/ʉ, et ma voyelle synthétisée est basée sur les formants de la démonstration de John Wells de l’API ɵ.
Enfin, j’ai ajouté la voyelle rhotique ɚ, qui se distingue acoustiquement de ə principalement par l’abaissement de sa troisième résonance (F3). Il serait facile de transformer le tableau ci-dessus en un espace vocalique tridimensionnel avec F1, F2 et F3 comme axes : chaque voyelle pourrait être perchée sur un ‘bâton’ dont la hauteur correspondrait à F3. ɚ pourrait être inclus dans un tel espace, son bâton se tenant près de celui de ə mais considérablement moins haut que n’importe quel autre bâton de voyelle. Cependant, la complication visuelle supplémentaire ne semble pas valoir la peine pour un graphique pratique, alors j’ai gardé l’espace en deux dimensions, et j’ai mis ɚ de côté.
POSTÉ mars 2013 par Geoff Lindsey. [traduction française Wmffre]
[Pour lire l’article original, cliquez ici.]
Notes
↑1 | Note du traducteur: C’est à cause du cadre de l’espace vocalique que dans le HLBI nous préférons les termes haute/basse plutôt que fermée/ouverte pour décrire les voyelles. Pour en savoir plus, reportez-vous ici. |
---|---|
↑2 | Note du traducteur: Malheureusement, il n’a pas été possible pour le moment, d’installer le logiciel permettant de faire écoute de ce graphique dans la traduction française ; donc allez à l’originel pour faire un essaie avec ce graphique. |