بررسی پیکره‌بنیاد تعیین سبک نگارش متون فارسی با واژه‌های دستوری و محتوایی

نوع مقاله : علمی-پژوهشی

نویسندگان
1 گروه زبان شناسی دانشکده ادبیات و زبان‌های خارجه، دانشگاه علامه طباطبایی، تهران، ایران
2 گروه زبان‌شناسی ، دانشگاه ادبیات فارسی و زبان‌های خارجه، دانشگاه علامه طباطبایی، تهران، ایران
3 گروه رایانه، دانشگاه علامه طباطبایی، دانشکده آمار، ریاضی و رایانه، تهران، ایران
4 عضو هیئت علمی دانشگاه آزاد اسلامی کرج، البرز، ایران
چکیده
امروزه پیکره‌های زبانی در تعیین سبک نگارش کاربرد فراوان دارند. در این پژوهش از پیکره‎ای به زبان فارسی برای تعیین سبک نگارش متون معاصر استفاده و کارآیی واژه‌های دستوری با واژه‌های محتوایی در راستای این هدف مقایسه شد. برای این منظور، پیکره‌ای از آثار هفت نویسندۀ معاصر به نام‌های هوشنگ گلشیری، بزرگ علوی، احمد محمود، محمود دولت‌آبادی، نادر ابراهیمی، جلال آل احمد و غلامحسین ساعدی انتخاب و گردآوری شد. سپس با استفاده از این پیکره و الگوریتم‌های یادگیری عمیق چون پرسپترون چندلایه و حافظۀ طولانی کوتاه‌مدت، کارآیی واژه‌های محتوایی و انواع واژه‎های دستوری در تشخیص سبک نگارش متن سنجیده شد. نتایج ارزیابی پژوهش نشان داد روش استفاده از واژه‌های دستوری عملکرد بهتری نسبت به روش واژه‎های محتوایی در تعیین سبک نگارش متن دارد. همچنین در میان انواع واژه‌های دستوری ضمایر خصوصاً ضمایر شخصی و اشاره بیشترین نقش را در تفکیک سبک نویسندگان پیکره داشتند. به علاوه، حروف ربط و افعال کمکی در تعیین نویسندگان فارسی بسیار مؤثر بودند.
کلیدواژه‌ها

عنوان مقاله English

A Corpus-based Study of Using Function and Content Words in Persian Authorship Attribution

نویسندگان English

Fatemeh Soltanzadeh 1
Azadeh Mirzaei 2
Mohammad Bahrani 3
Shahram Modarres Khiabani 4
1 General linguistics group, Persian Language & Literature faculty, Allameh Tabatabaiy university, Tehran, Iran
2 Department of Linguistics, Allameh Tabataba'i University
3 Department of Computer, Allameh Tabataba'i University
4 Department of English Language and Translation, Islamic Azad University, Karaj
چکیده English

Nowadays, corpora are widely used in authorship attribution. In this research, a corpus of persian contemporary texts was applied to identify the authorship of texts and the effectiveness of function and content words in this task was compared. In order to reach this goal, seven contemporary writers named Hoshang Golshiri, Bozor Alavi, Ahmad Mahmoud, Mahmoud Dolatabadi, Nader Ebrahimi, Jalal Al Ahmad and Gholamhossein Saedi were selected and their books were collected. Then by using this corpus and deep learning algorithms like multilayer perceptron and Long Short Term Memory, effectiveness of function and content words was evaluated. The results of the research indicated that function words based method was superior to content words one in authorship attribution. In addition, pronouns, especially demonstrative and personal pronouns, showed the highest efficiency among the types of function words to determine the author of a text. Moreover, features based on conjunctions and auxiliary verbs were valuable to recognize persian writers.

کلیدواژه‌ها English

Function words
Content words
Corpus
Authorship Attribution
آذین، زهرا و بحرانی، محمد. (1393). «شناسایی خودکار شاعران شعر نو با استفاده از ویژگی های سبکی». مجموعه مقالات نهمین همایش زبانشناسی ایران، تهران: دانشگاه علامه طباطبایی.
امیری، محمد عارف، رستم بیک تفرشی، آتوسا و مدرسی، یحیی. (1396). تحلیل گفتمان پیکره‌-‌بنیاد ترانه‌های فارسی: زبان‌شناخت. 8(16)، 1-25. 
بابانژاد باقری، سیده مریم، پورآقاجان، عباسعلی و عباسیان، محمد مهدی. (1402). «پیش‌بینی ارزش شرکت مبتنی بر روش‏های یادگیری عمیق».  اقتصاد مالی. 17(64). 291-318. doi: 10.30495/fed.2023.705603
جوانمردی، کامیار و اکبری، منوچهر. (1397). «روش‌های یادگیری ماشین در بررسی ویژگی‌های زبان شعری در اشعار شاعران دفاع مقدس (مطالعۀ موردی: اشعار دو شاعر دفاع مقدس؛ قیصر امین‌پور و محمدرضا عبدالملکیان)». مطالعات دفاع مقدس، 15(4)، 144-121.
عارفی، سمیه.، بصیری، محمد احسان، و روزمند، امید. (1400). «انتخاب ویژگی برای شناسایی نویسنده در متون کوتاه برخط فارسی».  فناوری اطلاعات و ارتباطات ایران، 35-56.
کمال پور، مهسا، مدرس خیابانی، شهرام و حجازی، محمد جواد. (1401). «بررسی و مقایسۀ پیکره‌بنیاد گفتمان آثار جلال آل احمد و احمد محمود». تفسیر و تحلیل متون زبان و ادبیات فارسی (دهخدا)، 14(52)، 332-355.
کمال پور، مهسا، مدرس خیابانی، شهرام و حجازی، محمد جواد. (1399). «نقش کلیدواژه‌ها در تحلیل گفتمان مطالعة موردی: «خسی در میقات» و «غرب‌زدگی» دو اثر از جلال آل احمد». فصلنامه علمی - پژوهشی زبان‌شناسی اجتماعی، 3(3)، 55-76.
گلشائی، رامین. (1398). «واژه‌های دستوری به‌مثابه نشانگرهای گویش فردی: رویکردی پیکره‌ای به شناسایی هویت نویسنده در زبان فارسی»، جستارهای زبانی، 51(10)، 317-293.
میرزایی، آزاده. و صفری، پگاه. (1394). «ساخت واژه - متن‌های تخصصی و عمومی زبان فارسی بر اساس بسامدگیری واژه‌های نقشی و محتوایی». مجموعه مقالات نخستین همایش ملی زبان‌شناسی پیکره‌ای، تهران،  175-191.
میرزایی، آزاده. (1397). آشنایی با زبانشناسی پیکره‌ای. تهران: انتشارات دانشگاه علامه طباطبایی.
هومن، محمود. (1357). حافظ، به کوشش اسماعیل خویی. تهران: طهوری.
Alhuqail, N. (2021). “Author Identification Based on NLP”. European Journal of Computer Science and Information Technology, Vol.9, No.1, pp.1-26, 2021, Available at SSRN: https://ssrn.com/abstract=3820262
Argamon, S., & Levitan, S. (2005). “Measuring the usefulness of function words for authorship attribution”. Proceeding of the Joint Conference on Association for Literary and Linguistic Computing/Association Computer Humanities.
Argamon, S., Whitelaw, C., Chase, P., Hota, S. R., Garg, N., & Levitan, S. (2007). Stylistic text classification using functional lexical features. Journal of the American Society for Information Science and Technology, 58(6), 802-822. https://doi.org/10.1002/asi.20553.
Baker, P. (2006). Using Corpora in Discourse Analysis. London Continuum International Publishing Group.
Bayrami, P.; Rice, J.E. (2021). “Code authorship attribution using content-based and non-content-based features”. In Proceedings of the 2021 IEEE Canadian Conference on Electrical and Computer Engineering (CCECE), Canada, pp. 1–6.
Burrows, J. F. (1987). Computation into criticism: A study of Jane Austen’s novels and an experiment in method. Oxford: Clarendon Press.
Burrows, J. F. (1992). Computers and the study of literature. In C.S. Butler (Ed.), Computers and written texts: An applied perspective, (167–204). Oxford: Blackwell.
Burrows, J.F. (2003). Questions of authorship: Attribution and beyond. Computers and the humanities, 37 (1), 5-32.
Burrows, J. F. (2007). All the way through: Testing for authporship in different frequency strata. Literary and linguistics computing, 22(1), 27-47.
Coulthard, M. (2004). “Author identification, idiolect, and linguistic uniqueness”. Applied linguistics, 25(4), 431-447.
Dabagh, R. M. (2007). “Authorship attribution and statistical text analysis.” Metodoloski zvezki, 4(2), 149.
Gamon, M. (2004). “Linguistic correlates of style: authorship classification with deep linguistic analysis features”.  International Conference on Computational Linguistics.
Hedegaard, S., & Simonsen, J. (2011). “Lost in translation: authorship attribution using frame semantics”. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Portland, USA, 65-70.
Hoover, D. L. (2003). Another perspective on vocabulary richness. Computers and the Humanities, 37(2), 151–178.
Hoover, D. L. (2004). Frequent collocations and authorial style. Literary and Linguistic Computing 18(3), 261–268.
Hoover, D. L. (2007). Quantitative analysis and literary studies. In R. Siemens & S. Schreibman (Eds). A companion to digital literary studies (pp. 517–533). Oxford: Blackwell.
Houvardas, J., & Stamatatos, E. (2006). “N-gram feature selection for authorship identification”. AIMSA. 4183. 77-86. 10.1007/11861461_10.
Kešelj, V., Peng, F., Cercone, N., & Thomas, C.(2003). N-gram-based author profiles for authorship attribution”. Proceedings of the Conference Pacific Association for Computational Linguistics PACLING'03.
Kestemont, M. (2014). “Function words in authorship attribution. From black magic to theory? CLFL@EACL. 59-66. 10.3115/v1/W14-0908.
Klammer, T., Schulz, M. & Della, A. (2009). Analyzing English Grammar .Longman.
Kukushkina, O. V., Polikarpov, A. A., & Khmelev, D. V. (2001). “Using literal and grammatical statistics for authorship attribution”. Problems of Information Transmission, 37(2), 172-184.
McCarthy, P. M., Lewis, G. A., Dufty, D. F., & McNamara, D. S. (2006). “Analyzing Writing Styles with Coh-Metrix”. Proceedings of the Nineteenth International Florida Artificial Intelligence Research Society Conference.
Qian, C., He, T., & Zhang, R. (2017). Deep Learning based Authorship Identification.
Radford, A. (2004). Minimalist syntax: Exploring the structure of English: Cambridge University Press.
Rahgozar, A. (2020). Automatic Poetry Classification and Chronological Semantic Analysis. (PhD degree in E-Business, University of Ottawa, Ottawa, Canada).
Ramezani, R. (2021). “A Language-independent author attribution approach for author identification of text documents”. Expert Systems with application, vol. 180.
Refaeilzadeh, P., Tang, L., & Liu, H. (2009). “Cross-Validation”. Encyclopedia of database systems, 5, 532-538.
Sari, Y., Vlachos, A., & Stevenson, M. (2017). “Continuous n-gram representations for authorship attribution”. European Chapter of the Association for Computational Linguistics (EACL 2017).
Segarra, S., Eisen, M., & Ribeiro, A. (2015). “Authorship attribution through function word adjacency networks”. IEEE Transactions on Signal Processing, 63(20), 5464-5478.
Schütze, H., Manning, C. D., & Raghavan, P. (2008). Introduction to information retrieval (Vol. 39, pp. 234-265). Cambridge: Cambridge University Press.
Song, M. and Yi-Fang Brook W. (2009). Handbook of Research on Text and Web Mining Technologies. IGI Global.
Toolan, M.J. (2008). Narrative progression in short story: First steps in a corpus stylistic approach. Narrative, 16(2), 105–120.
Wanner, L. (2017). “On the relevance of syntactic and discourse features for author profiling and identification”. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics.
Zhao, Y., & Zobel, J. (2005). “Effective and scalable authorship attribution using function words”. Information Retrieval Technology. AIRS 2005. Lecture Notes in Computer Science, vol 3689. Springer, Berlin, Heidelberg.
Zhao, Y., & Zobel, J. (2007). “Searching with style: Authorship attribution in classic literature”. Proceedings of the Thirtieth Australasian Conference on Computer Science. 62. 59-68.