تحلیلی بر پیکرۀ حاصل از داده‌های زبانی فارسی در فضای مجازی

نوع مقاله : علمی-پژوهشی

نویسندگان
1 پژوهشگاه علوم انسانی و مطالعات فرهنگی و فرهنگستان زبان و ادبیات فارسی، تهران، ایران
2 پژوهشگر گروه زبان و رایانۀ فرهنگستان زبان و ادب فارسی
چکیده
امروزه وجود ابزارهای ارتباطی نوظهور سبب شده‌است که ارتباط میان گویشوران ازطریق نوشتن میسر شود. ماهیت الکترونیکی، جهانی و تعاملی این دسته از فناوری‌های نوظهور سبب تسهیل و افزایش سرعت در ارتباطات شده‌است. تعامل زبانی با به‌کارگیری این ابزارها و رابطۀ میان گفتار و نوشتار سبب می‌شود که گونه‌ای از نوشتار توسط کاربران یک زبان خلق شود، گونه‌ای که به نونویسی معروف است. هدف از انجام این پژوهش بررسی ویژگی‌های نونویسی در فارسی و طبقه‌بندی انواع آن براساس پیکرۀ زبانی تهیه‌شده از داده‌های منتشرشده در شبکه‌های اجتماعی است. برای این هدف، داده‌های گردآوری‌شده در این پیکره‌ براساس شیوۀ نگارش معیارشان، در سطوح آوایی، بن‌واژه‌ای و مقولة دستوری به‌صورت نیمه‌خودکار برچسب‌گذاری شده‌است. سپس واژه‌هایی که صورت نوشتاری‌شان متفاوت از صورت معیار است و دارای نوعی نونویسی است ازجنبه ویژگی‌های خط و همچنین ویژگی‌های زبانشناختی مورد بررسی قرار گرفت. نتایج حاصل از تحلیل این داده‌ها و برچسب‌هایشان نشان می‌دهد که نونویسی در فارسی در فضای مجازی در دو سطح نگارشی و آوایی-ساخت‌واژی اتفاق می‌افتد و واژه‌های محتوایی بیشترین میزان نونویسی واژه‌ها را متحمل می‌شود.
کلیدواژه‌ها

عنوان مقاله English

A Study on the Persian Corpus Developed from Cyberspace

نویسندگان English

Masood Ghayoomi 1
Maryam Mesgarkhoyi 2
1 Institute for Humanities and Cultural Studies
2 Researcher of the Language and Computer Group at the Persian Academy of Persian Language and Letters
چکیده English

Nowadays, the existence of emerging communication tools has made communication between speakers possible through writing. The electronic, global and interactive nature of such emerging technologies has facilitated and increased the speed of communication. The linguistic interaction by using these tools and the relationship between speech and writing have causes a type of writing to be created by the users of a language, a writing type known as “neography”. The main aim of this research is to investigate the properties of neography in Persian and classify them into the categories based on a linguistic corpus developed from the data published in social media. To this end, the corpus is semi-automatically annotated based on the standard writing style, and the linguistic properties at phonetic, morphological and syntax levels. Then, the words whose written forms are different from the standard form and have a type of neography are studied based on the orthography properties and also linguistic features. The results of the analyzing the data and the assigned labels show that neography in Persian in the virtual space occurs at two levels of oryhography and morpho-phonetic, and the content words bear the highest amount of neography in the words.

کلیدواژه‌ها English

Neography
Broken writing
Colloquial writing
Virtual space
Persian orthography grammar
ادیبیان، مجید، و ممتازی، سعیده (1401) « تبدیل متن محاوره به رسمی فارسی با استفاده از شبکه‌های عصبی مبتنی بر مبدل،» مجله زبان و زبان‌شناسی، 18 (35): 45-67.
بی‌جن‌خان، محمود (1384) "نقش پیکره زبانی در نوشتن دستور زبانک معرفی یک نرم‌افزار رایانه‌ای"،مجله زبان‌شناسی، 19(37): 48-67.
بی‌جن‌خان، محمود (1391) "خط و زبان فارسی در فضای مجازی،" همایش محتوای ملی در فضای مجازی. کنسرسیوم محتوای ملی، کتابخانه ملی ایران، تهران.
دستور خط مصوب فرهنگستان (1402) دستور خط مصوب فرهنگستان. تهران: فرهنگستان زبان و ادب فارسی.
سمیعی گیلانی، احمد (1391) نگارش و ویرایش. تهران: سازمان مطالعه و تدوین کتب علوم انسانی دانشگاه‌ها (سمت).
شوهانی، علیرضا، و حسینی، سارا (1397) «بررسی وجود تأثیر فضای مجازی بر زبان و ادبیات فارسی معاصر»، نشریه زبان و ادب فارسی، 71 (238): 75-101.
صلح‌جو، علی (1386) "بشکنیم یا نشکنیم،". فصلنامۀ مترجم، 45(17): 9-22.
صلح‌جو، علی (1391) اصول شکسته‌نویسی: راهنمای شکستن واژه‌ها در گفت‌وگوهای داستان. تهران: نشر مرکز.
طبیب‌زاده، امید (1398الف) مبانی و دستور خط فارسی شکسته براساس صد سال آثار داستانی و نمایشی. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
طبیب‌زاده، امید (1398ب) فارسی شکسته: دستور خط و فرهنگ املایی. تهران: کتاب بهار.
طبیب‌زاده، امید (1399) «تغییرات آوایی و صورت‌های شکسته در فضای مجازی و استفاده از آنها در فرهنگ‌های جامع زبان فارسی،» دستور ویژه‌نامه نامۀ فرهنگستان، 16: 175-194.
غفاری، مهسا (1394) «واکاوی تأثیر شلخته‌نویسی فضای مجازی بر زبان فارسی (از قافیه‌نویسی رودکی تا شلخته‌نویسی امروز)،» روزنامۀ عطر یاس، شماره 675، تاریخ 18/10/1394، ص 4.
قیومی، مسعود (۱۳۹۸) «گذار از بن‌واژه‌سازی قاعده‌مند به آماری در فارسی،» در مجموعه مقالات پنجمین همایش زبان‌شناسی رایانشی. صص:57-86، تهران: نشر نویسه پارسی.
مسگرخویی، مریم (1399) «پیش‌نیازهای بررسی آسیب‌شناختی خط و زبان فارسی در فضای مجازی،» دستور ویژه‌نامه نامۀ فرهنگستان، 16: 149-174.
هدایت مفیدی، مسحه، کامیابی گل، عطیه، و علیزاده، علی (1396) «فضای مجازی و زبان فارسی: غیرمعیارهای نوشتاری در شبک‌ی اجتماعی تلگرام،» مطالعات رسانه‌ای، 12: 65-82.
Anis, J. (1999) Internet, Communication and French Language. Paris: Hermes.
Ariffin, S. N. A. N., and Tiun, S. (2020) "Rule-based text normalization for Malay social media texts," International Journal of Advanced Computer Science and Applications. 11(10), 156-162
Armin, N., & Shamsfard, M. (2011) "Converting Persian colloquium text to formal by n-grams," Computer Society of Iran. for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, pp: 1724-1734.
Atkins, S., Clear, J., and Ostler, N. (1992) “Corpus design criteria,” Literary and Linguistic Computing, 7(1): 1-16.
Dejond, A. and Mercier, J. (2002) French cyberl@ngue. Brussels, The Renaissance of the Book.
Douglas, F. (2003) “The Scottish corpus of texts and speech: Problems of corpus design,” Literary and Linguistic Computing, 18, 23–37.
de Saussure, F. (1916) Cours de linguistiquegénérale. Lausanne, Paris: Payot.
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. (2019), BERT: Pre-training of deep bidirectional transformers for language understanding, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Minneapolis, Minnesota:Association for Computational Linguistics, pp. 41714186.
Ferguson, C. A. (1959) Diglossia, WORD, 15:2, 325-340
Ghayoomi, M. (2012) “Bootstrapping the development of an HPSG-based treebank for Persian,” Linguistic Issues in Language Technology, 7(1).
Hudson, A. (2002) "Outline of a theory of diglossia," International Journal of the Sociology of Language, 157: 1-48.
Kashefi, O. (2020) “MIZAN: A large Persian-English parallel corpus,” https://arxiv.org/abs/1801.02107
Kilgarriff, A. and Grefenstette, G. (2003) “Introduction to the special issue on the Web as Corpus,” Computational Linguistics, 29, 333-348.
Kozhirbayev, Z. and Yessenbayev, Z. (2020) "Kazakh text normalization using machine translation approaches," CEUR Workshop Proceedings, Vol. 2780, CEUR-WS, 115-122.
Lazar, J. (2012) "Quelques observations sur les néographies photisantes en francais tchaté," Linguistica Pragensia, 22(1): 18-28.
Lindemann, S. (2005) "Who speaks 'Broken English'? US undergraduates' perception of non-native English." International Journal of Applied Linguistics, vol. 15(2): 187-212.
Mansfield, C., Sun, M., Sun, M., Liu, Y., Gandhe, A., & Hoffmeister, B. (2019) "Neural text normalization with subword units," In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Volume 2, pp: 190-196.
Masoumi, V., Salehi, M., Veisi, H., Haddadian, G., Ranjbar, V., & Sahebdel, M. (2020) “TeleCrowd: A Crowdsourcing Approach to Create Informal to Formal Text Corpora,” arXiv preprint arXiv:2004.11771.
McEnery, T. and Wilson, A. (2001), Corpus Linguistics: An Introduction, Edinburgh University Press.
Müller, T., Cotterell, R., Fraser, A., & Schütze, H. (2015). Joint lemmatization and morphological tagging with lemming. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing (pp. 2268-2274). Lisbon, Portugal. Association for Computational Linguistics.
Müller, T., Schmid, H., & Schütze, H. (2013). Efficient higher-order CRFs for morphological tagging. In Proceedings of the 2013 Conference on Empirical Methods in Natural language Processing (pp. 322-332). Seattle, Washington, USA. Association for Computational Linguistics.
Rasooli, M. S., et al. (2020). Automatic Standardization of Colloquial Persian. arXiv preprint arXiv:2012.05879.