Pourquoi les traducteurs automatiques ne pourront jamais bien parler une langue ?

Les premières traductions automatiques sont arrivées dans les années 1950, elles consistaient à associer des dictionnaires de mots courants avec des règles linguistiques et grammaticales.  Mais ce système a très vite connu ses limites : le sens des mots parfois trop ambigu d’une langue à l’autre.

De Niro : « Did you f*ck my wife? »

Traduction Netflix : « Avez-vous eu l’audace de faire la cour à ma compagne ? »

Ainsi, à la fin des années 1980, un nouveau système apparaît, le système statistique. N’utilisant aucune règle linguistique mais de grands corpus parallèles sous forme électroniques, le texte en langue source est comparé avec le texte en langue cible au niveau des phrases et des mots. Cette technique permet de déterminer le sens en tenant compte du contexte. Cependant, ce système même amélioré rencontre ses limites, ces fragments de phrases peuvent être hétéroclites et donc ne sont pas toujours compatibles entre eux, ce qui peut donner des phrases bancales ou incohérentes surtout si la phrase à traduire est longue et complexe.

Hello

Traduction Automatique Neuronale (TAN)

Au début d’Internet, la part de l’anglais y était écrasante : plus de 90 %. En 2019, d’après Internet Word stats, la part des utilisateurs utilisant l’anglais sur internet est de 25%, et ce chiffre est en constante diminution depuis. Les besoins en traduction automatique sont donc de plus en plus inévitables.

« Yeah mister White ! »

Traduction Netflix : « Oui monsieur Blanc ! »

En 2015, un changement majeur se produit : l’arrivée de la Traduction Automatique Neuronale, c’est une technologie basée sur les réseaux de neurones artificiels. La « machine » est désormais capable, comme le cerveau humain, de restituer une traduction fiable mais aussi d’apprendre une langue. La qualité des données traduites est ainsi continuellement améliorée. Ses performances sont accrues par l’homme, en alimentant la « machine » avec un très grand volume de données (segment de phrases, mots et textes déjà traduits) afin d’améliorer la finesse et la fiabilité des résultats.

« In your f*cking face, sucker! »

Traduction Netflix : « Tel est pris qui croyait prendre ! »

En premier lieu, il y a une phase d’analyse. Les mots d’une phrase source sont codés pour devenir une séquence de vecteurs qui représente la signification des mots, un contexte est alors généré pour chaque mot. Grâce à ce nouveau contexte, la traduction correcte du mot est sélectionnée parmi l’ensemble de ses traductions possibles hors contexte. Ensuite, il y a la phase de décodage, au cours de laquelle la phrase est générée dans la langue cible.

En 2016, Google remplace son système de traduction statistique par ce modèle d’apprentissage profond. Ce qui entraîne le passage à la traduction automatique neuronale de tous les acteurs du domaine.

Les limites de la Traduction Automatique Neuronale

La Traduction Automatique Neuronale, comme ses prédécesseurs, a ses limites. Les phrases du texte source doivent être très explicites pour obtenir une traduction de qualité. La moindre ambiguïté doit être intégrée dans le programme en amont, sinon il y a un risque de se retrouver avec une traduction sans aucun sens. En effet, cette “machine” atteint ses limites face à des mots rares et des noms propres, ou encore face à un langage très technique.

De Niro: « Oh honey it’s okay »

Traduction Netflix : « Ce n’est pas grave le miel »

De plus, au delà d’un cercle restreint d’une quinzaine de langues, par exemple du français à l’anglais, il reste encore beaucoup d’autre couple de langues encore très défaillant comme par exemple de l’arabe au chinois. Ces différences entre les couples de langues s’expliquent par le fait que les langues n’ont pas les mêmes morphologies. Par exemple, le russe est une langue qui possède des mots qui agrègent énormément de définition alors que l’anglais isole beaucoup de mots et est donc est plus aisé à traduire.

La traduction parfaite d’une langue n’existera donc jamais malgré les progrès considérables réalisés au cours des deux dernières décennies. Une langue, c’est avant tout un contexte qu’aucune machine ne pourra deviner à la place de l’homme.

Publié dans Le journal de la formation

Laisser un commentaire

Merci de remplir correctement tous les champs

Support client

Découvrez Lingueo

Lingueo sur Facebook