@article { author = {Ghayoomi, Masood}, title = {A Tentative Method of Tokenizing Persian Corpus based on Language Modelling}, journal = {Language and Linguistics}, volume = {14}, number = {27}, pages = {21-50}, year = {2018}, publisher = {Linguistics Society of Iran}, issn = {23223847}, eissn = {}, doi = {}, abstract = {A digital Persian text suffers from two simple but important problems. The first problem concerns multi-token units to which the individual words are attached. The other problem concerns multi-unit tokens that result from the detachment of elements of a word. This paper introduces an algorithm to reduce these problems automatically and to achieve a standard text. The proposed algorithm has three steps. In the first step, the multi-token units are split into individual words and the multi-unit tokens are then attached together . For this step, a core algorithm based on language modeling is introduced to split multi-token units into independent words. The algorithm is modified with respect to the possible challenges of improving the performance[m2] . Furthermore, this step utilizes a morphological analyzer to study derivational and inflectional affixes and exact matching in a word list to resolve the problem of the multi-token units. In the second step, an exact word matching strategy is used to resolve the multi-token unit problem of verbs. The third step repeats the algorithm in the first step to fix new problems raised by running the second step. The introduced algorithm was tested in tokenizing the data in the Persian Linguistic DataBase (PLDB). The algorithm achieved 72.04% correction of the errors in the test set with 97.8% accuracy and 0.02% error production in the spelling.    }, keywords = {natural language processing,data tokenization,statistical language modeling,corpus linguistics}, title_fa = {ارائة یک روش مبتنی بر مدل زبانی برای واحدسازی پیکرۀ فارسی}, abstract_fa = {متن نگاشته‌شدۀ فارسی دو مشکل ساده ولی مهم دارد. مشکل اول واژه‌های چندواحدی هستند که از اتصال یک واژه به واژه‌های بعدی حاصل می‌شوند. مشکل دیگر واحدهای چندواژه‌ای هستند که از جداشدگی واژه‌هایی که با هم یک واحد واژگانی تشکیل می‌دهند حاصل می‌گردند. این مقاله الگوریتمی را معرفی می‌کند که بتواند به‌طور خودکار این دو مشکل را در متن نوشتاریِ فارسی بکاهد و یک متن معیار را به‌دست آورد. الگوریتمِ معرفی‌شده سه مرحله دارد. در مرحلۀ اول، واژه‌های چندواحدی از هم جدا می‌شوند و واحدهای چندواژه‌ای به یکدیگر متصل می‌شوند. برای این مرحله، یک الگوریتم پایۀ مبتنی‌بر مدل زبانی معرفی شده‌است که کار تفکیک واژه‌های چندواحدی به واژه‌های مستقل را انجام می‌دهد. این الگوریتم باتوجه‌به چالش‌های پیش‌آمده بهبود می‌یابد تا کارایی آن افزایش یابد. همچنین این مرحله از یک تحلیل‌گرِ صرفی برای بررسی وندِ تصریفی و اشتقاقی و روش انطباق فهرست واژه برای رفع مشکل واحدهای چندواژه‌ای استفاده می‌کند. در مرحلۀ دوم، از روش انطباق برای بررسیِ چندواژگیِ افعال استفاده می‌شود. مرحلة سوم تکرار مرحلة اول است تا مشکلات جدید ایجادشده در متن بعداز اجرای مرحلة دوم مرتفع شود. الگوریتم معرفی‌شده برای واحدسازی دادۀ زبانیِ پایگاه داده‌های زبان فارسی استفاده شده‌است. با استفاده از این الگوریتم، 72.40 درصد خطای نگارشی واژه‌های دادة آزمون تصحیح شده‌است. دقت این تصحیح در دادۀ آزمون 97.80 درصد و خطای نگارشی ایجادشده توسط این الگوریتم در دادۀ آزمون 0.02 درصد است.}, keywords_fa = {پردازش زبان طبیعی,واحدسازی داده,مدل‌سازی زبانی آماری,زبان‌شناسی پیکره‌ای}, url = {https://lsi-linguistics.ihcs.ac.ir/article_3864.html}, eprint = {https://lsi-linguistics.ihcs.ac.ir/article_3864_78f4e40d61dbf4e2c4d0156462e96912.pdf} }