بررسی تکوین مباحث مقالات فارسی‌زبان و زبان‌شناسی با کمک رایانه

نوع مقاله : علمی-پژوهشی

نویسنده

پژوهشگاه علوم انسانی و مطالعات فرهنگی

چکیده

از زمان پیدایش اینترنت تاکنون، با حجم زیادی از داده‌هایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوۀ مطالعۀ داده‌ها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرح‌شده در مقالات رشتۀ زبان‌شناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدل‌سازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده می‌شود. پیکرۀ این پژوهش ازطریق خزش به‌دست آمده و پس‌از پالایش و پیش‌پردازش داده‌ها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژه‌های هر موضوع به‌صورت دستی برچسب‌گذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پس‌از فرایند برچسب‌گذاری مشخص شود. رشد و افول موضوعات استخراج‌شده از مقالات در پردازش‌های با تعداد ۵، ۱۰ و ۱۵ موضوع در بازه‌های زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاست‌گذاری در حوزۀ علم است که علاوه‌بر مطرح‌کردن یک روش‌شناسی فناورانۀ کاربردی در پژوهش، می‌توان موضوعات داغ میان پژوهشگران یک رشتۀ علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوع‌سازی و متوازن‌سازی موضوعات پژوهشی اهتمام ورزید.

کلیدواژه‌ها


عنوان مقاله [English]

Investigating the Evolution of the Topics in Language and Linguistics Persian Articles with the Help of a Computer

نویسنده [English]

  • Masood Ghayoomi
Institute for Humanities and Cultural Studies
چکیده [English]

Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.

کلیدواژه‌ها [English]

  • Evolution
  • Topic Modeling
  • Corpus Linguistics
  • Scientific Article
  • Content Analysis
احدی، حوریه (۱۴۰۰). کاربست علم زبان‌شناسی در حل مشکلات کودکان دارای اختلالات رشدی: مرور نظام‌مند و فراتحلیل معیارهای زبانی و فرازبانی این کودکان و ارائه پیشنهادهایی جهت تدوین کتب آموزشی مناسب آنها. گزارش فنی. تهران: پژوهشگاه علوم انسانی و مطالعات فرهنگی.
افشارنیا، سعید و نجف الهیاری‌فرد (۱۳۸۵). «تبیین جایگاه علم و فناوری (بررسی وضعیت ایران و مقایسه آن با سایر کشورها) پیش‌نیاز اساسی تدوین استراتژی و ترسیم مسیر رشد و بهبود نظام علم و فناوری». مجموعه مقالات کنفرانس بین‌المللی استراتژی‌ها و تکنیک‌های حل مسئله. تهران.
سواری، کریم و شمس‌الله بهمنی (1389). «آسیب‌شناسی تولید علم در موسسات و مراکز آموزشی کشور». همایش ملی مدیریت پژوهش و فناوری. تهران: دانشگاه امام صادق.
علایی ابوذر، الهام و همکاران (1400). «معرفی یک پیکره متنی تخصصی: پیکره پژوهشنامه». مجله پژوهش‌های زبان‌شناسی تطبیقی. س11، ش22، 271-289.
قیومی، مسعود (۱۳۹7). «ارائه یک روش مبتنی‌بر مدل زبانی برای واحدسازی پیکره فارسی». زبان و زبان‌شناسی. س14، ش27، 21-50.
قیومی، مسعود و مریم موسویان (1401). «کاربرد یادگیری ماشینی مبتنی‌بر شبکه عصبی برای دسته‌بندی مستندات علمی». پژوهشنامه پردازش و مدیریت اطلاعات. س4، ش37، 1217-1246.
کامیابی‌گل، عطیه و همکاران (1397). «استخراج اطلاعات از پیکره زبانی: معرفی پیکره مقالاه‌های علمی-پژوهشی دانشگاه فردوسی مشهد». کتابداری و اطلاعرسانی. س2، ش21، 3-25.
ناصح، محمدامین (1380). فهرست پایان‌نامه‌های کارشناسی ارشد و دکتری در زمینه گویش‌های ایران. تهران: فرهنگستان زبان و ادب فارسی.
ناصح، محمدامین (1383). فهرست پایان‌نامه‌های دانشگاهی در زمینۀ دستور زبان فارسی. تهران: فرهنگستان زبان و ادب فارسی.
ناصح، محمدامین (1386الف). فهرست پایان‌نامه‌های دانشگاهی در عرصه زبان و ادب فارسی و مسائل زبان‌شناسی. ضمیمه مجله 31 نامه فرهنگستان. تهران: فرهنگستان زبان و ادب فارسی. 
ناصح، محمدامین (1386ب). چکیدةپایان‌نامه‌های حوزه زبان و زبان‌شناسی. تهران: انتشارات دانشگاه علامه طباطبائی.
یارمحمدی، لطف‌الله، علی‌محمد حق‌شناس و رضا نیلی‌پور (1377) بررسی وضعیت علم زبان‌شناسی در ایران. گزارش فنی، فرهنگستان علوم جمهوری اسلامی ایران.
یارمحمدی، لطف‌الله، علی‌محمد حق‌شناس و رضا نیلی‌پور (1378) «بررسی وضعیت علم زبان‌شناسی در ایران». نامه فرهنگ بهار. 34، 117-125.
 
Blei, D. M. et al. (2003). "Latent Dirichlet allocation". Journal of Machine Learning Research. 3: 993–1022.
Blei, D. M. & J. D. Lafferty (2006). “Dynamic topic models”. Proceedings of the 23rd International Conference on Machine Learning. W. Cohen, & A. Moore (eds.), Pittsburgh, PA, 113-120.
Farahani, M. et al. (2021). "ParsBERT: Transformer-based model for Persian language understanding". Neural Processing Letters. 53: 3831–3847.
Griffiths, T. L. & M. Steyvers (2004). “Finding scientific topics". Proceedings of the National Academy of Sciences. 5228–5235.
Hofmann, T. (1999). “Probabilistic latent semantic indexing". Proceedings of the Twenty-Second Annual International SIGIR Conference on Research & Development in Information Retrieval. F. Gey, M. Hearst, & R. Tong (eds.), California, Berkeley, USA, 211-218.
Hughes, L. (2015). "Digital humanities, big data, and new research methods". Presentation at the Workshop on Digital Music Lab - Analyzing Big Music Data.
Minka, T., & J. Lafferty (2002). "Expectation-propagation for the generative aspect model". Proceedings of the 18th Conference on Uncertainty in Artificial Intelligence. A. Darwiche, & N. Friedman (eds.), San Francisco, CA, USA, Morgan Kaufmann Publishers Inc, 352–359.
Papadimitriou, C. et al. (2000). "Latent semantic indexing: A probabilistic analysis". Journal of Computer and System Sciences. 61(2): 217-235.
Sievert, C. & K. Shirley (2014). "LDAvis: A method for visualizing and interpreting topics". Proceedings of the Workshop on Interactive Language Learning, Visualization, and Interfaces. J. Chuang, S. Green, M. Hearst, J. Heer, & P. Koehn  (eds), Baltimore, Maryland, USA, Association for Computational Linguistics, 63–70.
Wang, C., D. Blei, & D. Heckerman (2008). "Continuous time dynamic topic models". Proceedings of the Twenty-Fourth Conference on Uncertainty in Artificial Intelligence. D. McAllester, & P. Myllymaki (eds.), AUAI Press, Arlington, Virginia, USA, 579–586.
Wang, X. & A. McCallum (2006). "Topics over time: A non-Markov continuous-time model of topical trends". Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. T. Eliassi-Rad, G. Chair, L. Ungar, M. Craven, & D. Gunopulos  (eds.), ACM, 424-433.
Zhu, M., X. Zhang, & H. Wang (2016). "A LDA based model for topic evolution: Evidence from information science journals". Modeling, Simulation and Optimization Technologies and Applications, Advances in Computer Science Research. 58: 49-54.
Zosa, E. & M. Granroth-Wilding (2019). "Multilingual dynamic topic model". Proceedings of the International Conference on Recent Advances in Natural Language Processin. R. Mitkov, & G. Angelova (eds.), Varna, Bulgaria. INCOMA Ltd., 1388–1396.