بررسی پیکره‌بنیاد تعیین سبک نگارش متون فارسی با واژه‌های دستوری و محتوایی

نوع مقاله : علمی-پژوهشی

نویسندگان

1 گروه زبان شناسی همگانی، دانشکده ادبیات و زبانهای خارجه، دانشگاه علامه طباطبایی، تهران، ایران

2 گروه زبانشناسی همگانی، دانشگاه علامه طباطبایی، تهران، ایران

3 گروه رایانه، دانشکده آمار، ریاضی و رایانه، دانشگاه علامه طباطبایی، تهران، ایران

4 عضو هیئت علمی دانشگاه آزاد اسلامی کرج

چکیده

امروزه پیکره‌های زبانی در تعیین سبک نگارش کاربرد فراوان دارند. در این پژوهش از پیکره‎ای به زبان فارسی برای تعیین سبک نگارش متون معاصر استفاده و کارآیی واژه‌های دستوری با واژه‌های محتوایی در راستای این هدف مقایسه شد. برای این منظور، پیکره‌ای از آثار هفت نویسندۀ معاصر به نام‌های هوشنگ گلشیری، بزرگ علوی، احمد محمود، محمود دولت‌آبادی، نادر ابراهیمی، جلال آل احمد و غلامحسین ساعدی انتخاب و گردآوری شد. سپس با استفاده از این پیکره و الگوریتم‌های یادگیری عمیق چون پرسپترون چندلایه و حافظۀ طولانی کوتاه‌مدت، کارآیی واژه‌های محتوایی و انواع واژه‎های دستوری در تشخیص سبک نگارش متن سنجیده شد. نتایج ارزیابی پژوهش نشان داد روش استفاده از واژه‌های دستوری عملکرد بهتری نسبت به روش واژه‎های محتوایی در تعیین سبک نگارش متن دارد. همچنین در میان انواع واژه‌های دستوری ضمایر خصوصاً ضمایر شخصی و اشاره بیشترین نقش را در تفکیک سبک نویسندگان پیکره داشتند. به علاوه، حروف ربط و افعال کمکی در تعیین نویسندگان فارسی بسیار مؤثر بودند.

کلیدواژه‌ها


عنوان مقاله [English]

A Corpus-based Study of Using Function and Content Words in Persian Authorship Attribution

نویسندگان [English]

  • Fatemeh Soltanzadeh 1
  • Azadeh Mirzaei 2
  • Mohammad Bahrani 3
  • Shahram Modarres Khiabani 4
1 General linguistics group, Persian Language & Literature faculty, Allameh Tabatabaiy university, Tehran, Iran
2 Department of Linguistics, Allameh Tabataba'i University
3 Department of Computer, Allameh Tabataba'i University
4 Department of English Language and Translation, Islamic Azad University, Karaj
چکیده [English]

Nowadays, corpora are widely used in authorship attribution. In this research, a corpus of persian contemporary texts was applied to identify the authorship of texts and the effectiveness of function and content words in this task was compared. In order to reach this goal, seven contemporary writers named Hoshang Golshiri, Bozor Alavi, Ahmad Mahmoud, Mahmoud Dolatabadi, Nader Ebrahimi, Jalal Al Ahmad and Gholamhossein Saedi were selected and their books were collected. Then by using this corpus and deep learning algorithms like multilayer perceptron and Long Short Term Memory, effectiveness of function and content words was evaluated. The results of the research indicated that function words based method was superior to content words one in authorship attribution. In addition, pronouns, especially demonstrative and personal pronouns, showed the highest efficiency among the types of function words to determine the author of a text. Moreover, features based on conjunctions and auxiliary verbs were valuable to recognize persian writers.

کلیدواژه‌ها [English]

  • Function words
  • Content words
  • Corpus
  • Authorship Attribution