نوع مقاله : علمی-پژوهشی
نویسندگان
1 1PhD. Student, Department of Computer Engineering, Sharif University of Technology, AI Group
2 دانشجوی دکتری، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر، گروه هوش مصنوعی
3 دانشجوی کارشناسی ارشد، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر، گروه هوش مصنوعی
4 پژوهشگر، دانشگاه صنعتی شریف، آزمایشگاه پردازش هوشمند متن و زبان، گروه هوش مصنوعی
5 دانشجوی کارشناسی، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر، گروه هوش مصنوعی
6 آزمایشگاه پردازش هوشمند متن و زبان و علوم انسانی محاسباتی
7 دانشیار، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر، گروه هوش مصنوعی
8 استاد، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر، گروه هوش مصنوعی
9 سایر
چکیده
با وجود تلاشهای گسترده رایانشی بر روی گویش معیار فارسی، سایر لهجهها و گویشها و زبانهای ایرانی کمتر مورد توجه محققین حوزه زبانشناسی رایانشی قرار گرفتهاند. یکی از مهمترین چالشهای کار رایانشی بر روی این تمایزهای زبانی، نبود یک مجموعه داده دیجیتال و استاندارد است. در این پژوهش اولین مجموعه داده تکزبانه و نیز داده موازی بر روی گویشهای لری و یزدی که گویشهایی با منابع محدود محسوب میشوند، در مقابل فارسی معیار ارائه شده است. در ادامه مدلهای یادگیری ژرف ترجمه ماشینی کدگذار-کدگشا در دو نوع مدل شبکه عصبی بازگشتی و مدل ژرف مبدل برای این گویشها به فارسی معیار توسعه یافته و ارزیابی گردیده است. در این پژوهش که اولین تلاش محاسباتی روی این دو گویش محسوب میشود، برای ترجمه لری به فارسی و فارسی به لری به امتیاز BLEU به ترتیب ۳۹/7 و 29/3 رسیدیم. این امتیاز برای گویش یزدی به فارسی معیار و برعکس به 73/0 و 77/0 رسید. که نشان میدهند پژوهشهای فراتری برای توسعه منابع زبانی برای این زبان نیاز است.
کلیدواژهها
عنوان مقاله [English]
Linguistic Resources and Transformer-based Models for the Machine Translations between Luri and Yazdi Dialects versus Standard Persian
نویسندگان [English]
1 دانشجوی دکتری، دانشگاه صنعتی شریف، دانشکده مهندسی کامپیوتر، گروه هوش مصنوعی
2 PhD. Student, Department of Computer Engineering, Sharif University of Technology, AI Group
3 Msc. Student, Department of Computer Engineering, Sharif University of Technology, AI Group
4 Research Assistant, Language Processing and Digital Humanities Lab. , Sharif University of Technology
5 Bsc. Student, Department of Computer Engineering, Sharif University of Technology, AI Group
6 Qatar Computing Research Institute Engineering,
7 Associate Professor, Department of Computer Engineering, Sharif University of Technology, AI Group
8 Professor, Department of Computer Engineering, Sharif University of Technology, AI Group
9 Other
چکیده [English]
Despite recent advances in developing language technologies for the standard Persian dialect, the official Iranian language, a large number of Iranian language variations remained computationally unexplored. Iranian languages, e.g., Kurdi, Azeri, and many Persian dialects are examples of low-resource language distinctions lacking significant linguistic resources such as machine-readable lexicons or part-of-speech (POS) taggers. Efforts in developing language technologies for such languages can significantly contribute to language survival in the digital era and promote cultural diversity. To the best of our knowledge, for the first time, we created linguistic resources for the Luri and the Yazdi dialects by introducing the first parallel corpora between these language variations and the modern Persian language. In this study, we train neural encoder-decoders (1) recurrent sequence-to-sequence and (2) transformer-based machine translation models and evaluate the trained model using BLEU score on an unseen test dataset.
Availability of datasets and models: Datasets are available here at https://github.com/language-ml/dataset_yazdi_luri.git
کلیدواژهها [English]