نوع مقاله : علمی-پژوهشی
نویسنده
پژوهشگاه علوم انسانی و مطالعات فرهنگی
چکیده
متن نگاشتهشدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژههای چندواحدی هستند که از اتصال یک واژه به واژههای بعدی حاصل میشوند. مشکل دیگر واحدهای چندواژهای هستند که از جداشدگی واژههایی که با هم یک واحد واژگانی تشکیل میدهند حاصل میگردند. این مقاله الگوریتمی را معرفی میکند که بتواند بهطور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را بهدست آورد. الگوریتمِ معرفیشده سه مرحله دارد. در مرحلۀ اول، واژههای چندواحدی از هم جدا میشوند و واحدهای چندواژهای به یکدیگر متصل میشوند. برای این مرحله، یک الگوریتم پایۀ مبتنیبر مدل زبانی معرفی شدهاست که کار تفکیک واژههای چندواحدی به واژههای مستقل را انجام میدهد. این الگوریتم باتوجهبه چالشهای پیشآمده بهبود مییابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیلگرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژهای استفاده میکند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده میشود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفیشده برای واحدسازی دادۀ زبانیِ پایگاه دادههای زبان فارسی استفاده شدهاست. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژههای دادة آزمون تصحیح شدهاست. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.
کلیدواژهها
عنوان مقاله [English]
A Tentative Method of Tokenizing Persian Corpus based on Language Modelling
نویسنده [English]
چکیده [English]
A digital Persian text suffers from two simple but important problems. The first problem concerns multi-token units to which the individual words are attached. The other problem concerns multi-unit tokens that result from the detachment of elements of a word. This paper introduces an algorithm to reduce these problems automatically and to achieve a standard text.
The proposed algorithm has three steps. In the first step, the multi-token units are split into individual words and the multi-unit tokens are then attached together . For this step, a core algorithm based on language modeling is introduced to split multi-token units into independent words. The algorithm is modified with respect to the possible challenges of improving the performance[m2] . Furthermore, this step utilizes a morphological analyzer to study derivational and inflectional affixes and exact matching in a word list to resolve the problem of the multi-token units. In the second step, an exact word matching strategy is used to resolve the multi-token unit problem of verbs. The third step repeats the algorithm in the first step to fix new problems raised by running the second step. The introduced algorithm was tested in tokenizing the data in the Persian Linguistic DataBase (PLDB). The algorithm achieved 72.04% correction of the errors in the test set with 97.8% accuracy and 0.02% error production in the spelling.
کلیدواژهها [English]
فایل پی دی اف را دریافت نمایید