METEOR (Metric for Evaluation of Translation with Explicit ORdering) est une métrique pour l'évaluation des résultats de traduction automatique. La métrique est basée sur la moyenne harmonique de la précision et du rappel de l'unigramme. Elle possède plusieurs fonctionnalités que l'on ne trouve pas dans d'autres mesures, telles que la correspondance radicale et synonymique, ainsi que la correspondance exacte standard des mots.
METEOR est une métrique plus précise que BLEU, une métrique plus populaire. Elle produit également une meilleure corrélation avec le jugement humain. Elle diffère de la métrique BLEU dans la mesure où BLEU recherche une corrélation au niveau du corpus.
Algorithme
De même que pour BLEU, l'unité de base d'évaluation est la phrase. L'algorithme crée d'abord un alignement entre deux phrases, la chaîne de traduction candidate et la chaîne de traduction de référence. L’alignement est un ensemble de mappages entre des unigrammes. Un mappage peut être considéré comme une ligne entre un unigramme dans une chaîne et un unigramme dans une autre chaîne. Les contraintes sont les suivantes : chaque unigramme de la traduction candidate doit correspondre à zéro ou à un unigramme dans la référence donnée.
Les mappages sont sélectionnés pour produire un alignement. S'il existe deux alignements avec nombre de mappages égal, l'alignement est choisi avec le moins d'intersections de deux mappages. Parmi les deux alignements indiqués en exemple, l'alignement (a) serait sélectionné à ce stade. Les étapes sont exécutées l'une à la suite de l'autre et chaque étape ajoute seulement à l'alignement les unigrammes qui n'ont pas encore été mis en correspondance lors des étapes d'avant. Une fois l'alignement final déterminé, le score est calculé comme suit : La précision Unigram P est calculée avec la relation suivante :
Où m est le nombre d'unigrammes dans la traduction candidate qui se trouvent également dans la traduction de référence, et est le nombre d'unigrammes dans la traduction candidate. Le rappel d'unigramme R est calculé comme suit :
Où est le nombre d'unigrammes dans la traduction de référence. La précision et le rappel sont combinés à l'aide de la moyenne harmonique de la manière suivante, le rappel étant pondéré 9 fois plus que la précision :
Les mesures qui ont été introduites jusqu'à présent ne tiennent compte que de la congruence par rapport aux mots uniques, mais pas par rapport aux segments plus larges qui apparaissent à la fois dans la référence et dans la phrase candidate. Par exemple :
Prenons la phrase suivante :
La voiture rouge a foncé dans la maison.
Et supposons que la phrase candidate soit la suivante :
La voiture a foncé dans la maison rouge.
Afin d'en tenir compte, des correspondances de n -grammes plus longues sont utilisées pour calculer une pénalité p pour l'alignement. Plus il y a de mappages qui ne sont pas adjacents dans la référence et la phrase candidate, plus la pénalité sera élevée.
Afin de calculer cette pénalité, les unigrammes sont regroupés en le moins de morceaux possibles, où un morceau est défini comme un ensemble d'unigrammes adjacents dans l'hypothèse et dans la référence. Plus les mappages adjacents entre le candidat et la référence sont longs, moins il y a de morceaux. Une traduction identique à la référence ne donnera qu’un seul morceau. La pénalité p est calculée comme suit,
Où c est le nombre de morceaux, et est le nombre d'unigrammes qui ont été cartographiés. Le score final d'un segment est calculé comme M ci-dessous. La pénalité a pour effet de réduire le jusqu'à 50 % s'il n'y a pas de bigramme ou de correspondances plus longues.
Pour calculer un score sur un corpus entier ou un ensemble de segments, les valeurs globales de P, R et p sont prises puis combinées à l'aide de la même formule. L'algorithme fonctionne également pour comparer une traduction candidate à plusieurs traductions de référence. Dans ce cas, l'algorithme compare le candidat à chacune des références et sélectionne le score le plus élevé.
S. Banerjee, A. Lavie, METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments in Proceedings of Workshop on Intrinsic and Extrinsic Evaluation Measures for MT and/or Summarization at the 43rd Annual Meeting of the Association of Computational Linguistics (ACL-2005), Ann Arbor, Michigan, juin 2005.
A. Lavie, K. Sagae, S. Jayaraman, The Significance of Recall in Automatic Metrics for MT Evaluation in Proceedings of AMTA 2004, Washington DC, septembre 2004.