نوع مقاله : علمی-پژوهشی
نویسندگان
1 پژوهشگاه علوم انسانی و مطالعات فرهنگی
2 پژوهشگر گروه زبان و رایانۀ فرهنگستان زبان و ادب فارسی
چکیده
امروزه وجود ابزارهای ارتباطی نوظهور سبب شدهاست که ارتباط میان گویشوران ازطریق نوشتن میسر شود. ماهیت الکترونیکی، جهانی و تعاملی این دسته از فناوریهای نوظهور سبب تسهیل و افزایش سرعت در ارتباطات شدهاست. تعامل زبانی با بهکارگیری این ابزارها و رابطۀ میان گفتار و نوشتار سبب میشود که گونهای از نوشتار توسط کاربران یک زبان خلق شود، گونهای که به نونویسی معروف است. هدف از انجام این پژوهش بررسی ویژگیهای نونویسی در فارسی و طبقهبندی انواع آن براساس پیکرۀ زبانی تهیهشده از دادههای منتشرشده در شبکههای اجتماعی است. برای این هدف، دادههای گردآوریشده در این پیکره براساس شیوۀ نگارش معیارشان، در سطوح آوایی، بنواژهای و مقولة دستوری بهصورت نیمهخودکار برچسبگذاری شدهاست. سپس واژههایی که صورت نوشتاریشان متفاوت از صورت معیار است و دارای نوعی نونویسی است ازجنبه ویژگیهای خط و همچنین ویژگیهای زبانشناختی مورد بررسی قرار گرفت. نتایج حاصل از تحلیل این دادهها و برچسبهایشان نشان میدهد که نونویسی در فارسی در فضای مجازی در دو سطح نگارشی و آوایی-ساختواژی اتفاق میافتد و واژههای محتوایی بیشترین میزان نونویسی واژهها را متحمل میشود.
کلیدواژهها
عنوان مقاله [English]
A Study on the Persian Corpus Developed from Cyberspace
نویسندگان [English]
1 Institute for Humanities and Cultural Studies
2 Researcher of the Language and Computer Group at the Persian Academy of Persian Language and Letters
چکیده [English]
Nowadays, the existence of emerging communication tools has made communication between speakers possible through writing. The electronic, global and interactive nature of such emerging technologies has facilitated and increased the speed of communication. The linguistic interaction by using these tools and the relationship between speech and writing have causes a type of writing to be created by the users of a language, a writing type known as “neography”. The main aim of this research is to investigate the properties of neography in Persian and classify them into the categories based on a linguistic corpus developed from the data published in social media. To this end, the corpus is semi-automatically annotated based on the standard writing style, and the linguistic properties at phonetic, morphological and syntax levels. Then, the words whose written forms are different from the standard form and have a type of neography are studied based on the orthography properties and also linguistic features. The results of the analyzing the data and the assigned labels show that neography in Persian in the virtual space occurs at two levels of oryhography and morpho-phonetic, and the content words bear the highest amount of neography in the words.
کلیدواژهها [English]