ارائه یک مدل تخمین کیفیت مترجم ماشینی انگلیسی به فارسی با استفاده از یادگیری انتقالی

نوع مقاله : علمی-پژوهشی

نویسندگان

دانشگاه تهران

چکیده

امروزه، ارزیابی ترجمه ماشینی بدون داشتن ترجمه مرجع، به عنوان یکی از حوزه های پژوهشی ترجمه ماشینی از اهمیت بالایی برخوردار است. یکی از چالش های موجود در این زمینه، مخصوصاً برای زبان های کم منبع، عدم وجود داده های آموزشی مناسب است. برای این منظور میتوان از روش‌های مبتنی بر شبکه عصبی که قبلاً روی مدلهای زبانی چند زبانه آموزش دیده شده استفاده کرده و با استفاده از یادگیری انتقالی کیفیت ترجمه برای یک جفت زبان جدید را تخمین زد. در این مقاله کیفیت یک مجموعه تست انگلیسی - فارسی به این صورت تخمین زده شده است. همچنین مجموعه‌ ای از داده‌ ها ی آموزشی برای جفت زبان انگلیسی - فارسی تهیه شده و روی آن پیش پردازش های مناسب انجام گرفته مدل چند زبانه موجود با آن دادگان تنظیم دقیق شده است. استفاده از این داده ها ی آموزشی، همبستگی پیرسون با مجموعه تست را به میزان 29 درصد بهبود داده است.

کلیدواژه‌ها


عنوان مقاله [English]

Presenting a quality estimation model of English to Farsi machine translator using transfer learning

نویسندگان [English]

  • mohammad hossein jafari harandi
  • fateme azadi
  • sepehr rafiei
  • hesham faili
  • mohammad javad dousti
University of Tehran
چکیده [English]

Nowadays the evaluation of machine translation without reference translation is of great importance as one of the research areas of machine translation . One of the challenges in this field, especially for languages with few sources, is the lack of suitable training data . For this purpose, it is possible to use neural network based methods that have been previously trained on multilingual language models and estimate the translation quality for a pair of new languages using transfer learning . In this article, the quality of an English Persian test set is estimated in this way. Also, a set of educational data for the English Persian language pair has been prepared, and appropriate pre processing has been done on it, and the existing multilingual model has been fine tuned with that data . The use of these training data has improved the Pearson correlation with the test set by 29

کلیدواژه‌ها [English]

  • Quality estimation
  • machine translation
  • neural network
  • transfer learning
  • fine tuning