A Tentative Method of Tokenizing Persian Corpus based on Language Modelling

Document Type : .

Author

Abstract

A digital Persian text suffers from two simple but important problems. The first problem concerns multi-token units to which the individual words are attached. The other problem concerns multi-unit tokens that result from the detachment of elements of a word. This paper introduces an algorithm to reduce these problems automatically and to achieve a standard text.
The proposed algorithm has three steps. In the first step, the multi-token units are split into individual words and the multi-unit tokens are then attached together . For this step, a core algorithm based on language modeling is introduced to split multi-token units into independent words. The algorithm is modified with respect to the possible challenges of improving the performance[m2] . Furthermore, this step utilizes a morphological analyzer to study derivational and inflectional affixes and exact matching in a word list to resolve the problem of the multi-token units. In the second step, an exact word matching strategy is used to resolve the multi-token unit problem of verbs. The third step repeats the algorithm in the first step to fix new problems raised by running the second step. The introduced algorithm was tested in tokenizing the data in the Persian Linguistic DataBase (PLDB). The algorithm achieved 72.04% correction of the errors in the test set with 97.8% accuracy and 0.02% error production in the spelling.







 
 

Keywords


فایل پی دی اف را دریافت نمایید

احمدیان، ا. ح. و ه. فیلی (۱۳۹۵) «روش مبتنی بر یادگیری برای تعیین مرز بین کلمات در متن فارسی» در مجموعه مقالات کنفرانس ملی سالانه انجمن کامپیوتر ایران، تهران، ایران.
بی‌جن‌خان، م. (۱۳۸۳). «نقش پیکرۀ زبانی در نوشتن دستور زبان: معرفی یک نرم‌افزار رایانه‌ای». مجلۀ زبان‌شناسی. ۱۹ (۲): ۶۷-۴۸.
شریفی‌آتشگاه، م. (۱۳۸۸). تولید نیمه‌خودکار درخت‌بانک گروه‌های نحوی در متون فارسی. رسالۀ دکتری، دانشگاه تهران.
طباطبایی سیفی، ش. و ا. صراف (۱۳۹۶) «سازه‌ساز: واژه‌بندی و یکسان‌سازی متون فارسی با رویکرد پیکره‌محور». در مجموعه مقالات دومین کنفرانس بین‌المللی پژوهش‌های دانش‌بنیان در مهندسی کامپیوتر و فناوری اطلاعات، تهران، ۱۱-۱.
عاصی، م. (۱۳۸۴). «پایگاه داده زبان فارسی در اینترنت». پژوهشگران. ش۲، تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی، ۱۶-۱۳.
عاصی، م. و س. قندی (۱۳۹۴). «پایگاه داده‌های زبان فارسی و پیکرۀ تاریخی آن». در مجموعه مقالات نخستین همایش ملی زبان‌شناسی پیکره‌ای، به‌کوشش آ. میرزایی، تهران: نشر نویسه پارسی، ۲۲۰-۱۹۳.
فرهنگستان زبان و ادب فارسی (۱۳۸۹). دستور خط فارسی. تهران: فرهنگستان زبان و ادب فارسی.
قیومی، م. (۱۳۹۶). «مسئله چندواژگی در پردازش نحو رایانشی زبان فارسی». مجموعه مقالات چهارمین همایش ملی زبانشناسی رایانشی. به‌کوشش م. قیومی و آ. شهریاری‌فرد، تهران: نشر نویسه پارسی، ۴۰-۱۱.
قیومی، م.، س. شریفی و م. صناعتی (۱۳۹۴). «تنوع نگارشی در زبان فارسی و تهیۀ خودکار دادگان املایی از پیکرۀ زبانی مبتنی بر وب». مجموعه مقالات اولین کنفرانس بین‌المللی وب‌پژوهی. تهران: دانشگاه علم و فرهنگ.
کاشفی، ا. (۱۳۹۰). «ویراستیار: مطالعۀ تطبیقی یک فعالیت پردازشی متن‌باز در زبان فارسی». ره‌آورد نور، ۳۴: ۱۰۱-۹۶.
وزیرنژاد، ب.، ف. سلطانزاده، م. مهدوی، و م. مرادی (۱۳۹۴). «ویرایش‌گر متن شریف: سامانه ویرایش و خطایابی املایی زبان فارسی». پردازش علائم و داده‌ها. ۱۲ (۴): ۵۲-۴۳.
 
Adda, G., M. Adda-Decker, J.Luc Gauvain, & L. Lamel (1997). “Text normalization and speech recognition in French”. Proceedings of 5th European Conference on Speech Communication and Technology (EUROSPEECH). Rhodes, Greece: 2711-2714.
Bijankhan, M., J. Sheykhzadegan, M. Bahrani, & M. Ghayoomi (2011). “Lessons from building a Persian written corpus: Peykare”. Language Resources and Evaluation, 45(2):143–164.
Faili, H., N. Ehsan, M. Montazery, & M. T. Pilehvar (2016). “Vafa spell-checker for detecting spelling, grammatical, and real-word errors of Persian language”. Digital Scholarship in the Humanities, 31 (1): 95–117.
Ghayoomi, M. & S. Momtazi (2009). “Challenges in developing Persian corpora from on-line resources”. Proceedings of 2009 IEEE International Conference on Asian Language Processing. Singapore: 108-113.
Ghayoomi, M., S. Momtazi, & M. Bijankhan (2010). “A study of corpus development for Persian”. International Journal on Asian Language Processing. 20 (1): 17-33.
Levenshtein, V. I. (1996). “Binary codes capable of correcting deletions, insertions, and reversals”. Soviet Physics Doklady. 10 (8): 707–710.
Li, C., & Y. Liu (2014). “Improving text normalization via unsupervised model and discriminative reranking”. Proceedings of the ACL 2014 Student Research Workshop. Baltimore, Maryland, USA: 86–93.
Scannell, K. (2014). “Statistical models for text normalization and machine translation”. Proceedings of the First Celtic Language Technology Workshop. Dublin, Ireland: 33-40.
Sarabi, Z., H. Mahyar, & M. Farhoodi (2013). “ParsiPardaz: Persian language processing toolkit”. Proceedings of IEEE 3rd International eConference on Computer and Knowledge Engineering. Mashad Ferdowsi University: 73-79.
Seraji, M., B. Megyesi, & J. Nivre (2012). “A basic language resource kit for Persian”. Proceedings of the 8th International Conference on Language Resources and Evaluation. Istanbul, Turkey: 2245-2252.
Shamsfard, M. (2011). “Challenges and open problems in Persian text processing”. Proceedings of the 5th Language and Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics. Poznań, Poland: 65-69.
Shamsfard, M., H. Jafari, & M. Ilbeygi (2010). “STeP-1: A Set of fundamental tools for Persian Text Processing”. Proceedings of the 7th International Conference on Language Resources and Evaluation. Valletta, Malta: 859-865.
SharifiAtashgah, M., & M. Bijankhan (2009). “Corpus-based analysis for multi-token units in Persian”. International Journal of Information and Communication Technology. Tehran: Iran Telecom Research Center, 1 (3): 15-26.
Yang, Y., & J. Eisenstein (2013). “A log-linear model for unsupervised text normalization”. Proceedings of the Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA: 61-72.