Investigating the Evolution of the Topics in Language and Linguistics Persian Articles with the Help of a Computer

Document Type : .

Author

Institute for Humanities and Cultural Studies

Abstract

Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.

Keywords


احدی، حوریه (۱۴۰۰). کاربست علم زبان‌شناسی در حل مشکلات کودکان دارای اختلالات رشدی: مرور نظام‌مند و فراتحلیل معیارهای زبانی و فرازبانی این کودکان و ارائه پیشنهادهایی جهت تدوین کتب آموزشی مناسب آنها. گزارش فنی. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
افشارنیا، سعید و نجف الهیاری‌فرد (۱۳۸۵). «تبیین جایگاه علم و فناوری (بررسی وضعیت ایران و مقایسه آن با سایر کشورها) پیش‌نیاز اساسی تدوین استراتژی و ترسیم مسیر رشد و بهبود نظام علم و فناوری». مجموعه مقالات کنفرانس بین‌المللی استراتژی‌ها و تکنیک‌های حل مسئله. تهران.
سواری، کریم و شمس‌الله بهمنی (1389). «آسیب‌شناسی تولید علم در موسسات و مراکز آموزشی کشور». همایش ملی مدیریت پژوهش و فناوری. تهران: دانشگاه امام صادق.
علایی ابوذر، الهام و همکاران (1400). «معرفی یک پیکره متنی تخصصی: پیکره پژوهشنامه». مجله پژوهش‌های زبان‌شناسی تطبیقی. س11، ش22، 271-289.
قیومی، مسعود (۱۳۹7). «ارائه یک روش مبتنی‌بر مدل زبانی برای واحدسازی پیکره فارسی». زبان و زبان‌شناسی. س14، ش27، 21-50.
قیومی، مسعود و مریم موسویان (1401). «کاربرد یادگیری ماشینی مبتنی‌بر شبکه عصبی برای دسته‌بندی مستندات علمی». پژوهشنامه پردازش و مدیریت اطلاعات. س4، ش37، 1217-1246.
کامیابی‌گل، عطیه و همکاران (1397). «استخراج اطلاعات از پیکره زبانی: معرفی پیکره مقالاه‌های علمی-پژوهشی دانشگاه فردوسی مشهد». کتابداری و اطلاعرسانی. س2، ش21، 3-25.
ناصح، محمدامین (1380). فهرست پایان‌نامه‌های کارشناسی ارشد و دکتری در زمینه گویش‌های ایران. تهران: فرهنگستان زبان و ادب فارسی.
ناصح، محمدامین (1383). فهرست پایان‌نامه‌های دانشگاهی در زمینۀ دستور زبان فارسی. تهران: فرهنگستان زبان و ادب فارسی.
ناصح، محمدامین (1386الف). فهرست پایان‌نامه‌های دانشگاهی در عرصه زبان و ادب فارسی و مسائل زبان‌شناسی. ضمیمه مجله 31 نامه فرهنگستان. تهران: فرهنگستان زبان و ادب فارسی. 
ناصح، محمدامین (1386ب). چکیدةپایان‌نامه‌های حوزه زبان و زبان‌شناسی. تهران: انتشارات دانشگاه علامه طباطبائی.
یارمحمدی، لطف‌الله، علی‌محمد حق‌شناس و رضا نیلی‌پور (1377) بررسی وضعیت علم زبان‌شناسی در ایران. گزارش فنی، فرهنگستان علوم جمهوری اسلامی ایران.
یارمحمدی، لطف‌الله، علی‌محمد حق‌شناس و رضا نیلی‌پور (1378) «بررسی وضعیت علم زبان‌شناسی در ایران». نامه فرهنگ بهار. 34، 117-125.
 
Blei, D. M. et al. (2003). "Latent Dirichlet allocation". Journal of Machine Learning Research. 3: 993–1022.
Blei, D. M. & J. D. Lafferty (2006). “Dynamic topic models”. Proceedings of the 23rd International Conference on Machine Learning. W. Cohen, & A. Moore (eds.), Pittsburgh, PA, 113-120.
Farahani, M. et al. (2021). "ParsBERT: Transformer-based model for Persian language understanding". Neural Processing Letters. 53: 3831–3847.
Griffiths, T. L. & M. Steyvers (2004). “Finding scientific topics". Proceedings of the National Academy of Sciences. 5228–5235.
Hofmann, T. (1999). “Probabilistic latent semantic indexing". Proceedings of the Twenty-Second Annual International SIGIR Conference on Research & Development in Information Retrieval. F. Gey, M. Hearst, & R. Tong (eds.), California, Berkeley, USA, 211-218.
Hughes, L. (2015). "Digital humanities, big data, and new research methods". Presentation at the Workshop on Digital Music Lab - Analyzing Big Music Data.
Minka, T., & J. Lafferty (2002). "Expectation-propagation for the generative aspect model". Proceedings of the 18th Conference on Uncertainty in Artificial Intelligence. A. Darwiche, & N. Friedman (eds.), San Francisco, CA, USA, Morgan Kaufmann Publishers Inc, 352–359.
Papadimitriou, C. et al. (2000). "Latent semantic indexing: A probabilistic analysis". Journal of Computer and System Sciences. 61(2): 217-235.
Sievert, C. & K. Shirley (2014). "LDAvis: A method for visualizing and interpreting topics". Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces. J. Chuang, S. Green, M. Hearst, J. Heer, & P. Koehn  (eds), Baltimore, Maryland, USA, Association for Computational Linguistics, 63–70.
Wang, C., D. Blei, & D. Heckerman (2008). "Continuous time dynamic topic models". Proceedings of the Twenty-Fourth Conference on Uncertainty in Artificial Intelligence. D. McAllester, & P. Myllymaki (eds.), AUAI Press, Arlington, Virginia, USA, 579–586.
Wang, X. & A. McCallum (2006). "Topics over time: A non-Markov continuous-time model of topical trends". Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. T. Eliassi-Rad, G. Chair, L. Ungar, M. Craven, & D. Gunopulos  (eds.), ACM, 424-433.
Zhu, M., X. Zhang, & H. Wang (2016). "A LDA based model for topic evolution: Evidence from information science journals". Modeling, Simulation and Optimization Technologies and Applications, Advances in Computer Science Research. 58: 49-54.
Zosa, E. & M. Granroth-Wilding (2019). "Multilingual dynamic topic model". Proceedings of the International Conference on Recent Advances in Natural Language Processin. R. Mitkov, & G. Angelova (eds.), Varna, Bulgaria. INCOMA Ltd., 1388–1396.