نوع مقاله : علمی-پژوهشی
نویسنده
پژوهشگاه علوم انسانی و مطالعات فرهنگی
چکیده
از زمان پیدایش اینترنت تاکنون، با حجم زیادی از دادههایی مواجه هستیم که در این بستر قرار گرفته است. این امر سبب شده است تا شیوۀ مطالعۀ دادهها و بررسی سیر تحول آنها از روش دستی به خودکار تغییر کند. هدف از انجام این پژوهش، استخراج موضوعات مطرحشده در مقالات رشتۀ زبانشناسی و روندشناسی تحول موضوعات در طول زمان با کمک الگوریتم مدلسازی موضوعی است. برای این هدف از الگوریتم تخصیص پنهان دیریشله استفاده میشود. پیکرۀ این پژوهش ازطریق خزش بهدست آمده و پساز پالایش و پیشپردازش دادهها، تعداد ۵، ۱۰ و ۱۵ موضوع از مقالات استخراج شده و براساس واژههای هر موضوع بهصورت دستی برچسبگذاری شده است. توزیع مقالات از سال ۱۳۰۶ تا ۱۳۹۹ سبب شد تا این مدت به ۵ مقطع زمانی تقسیم و موضوعات مربوط به هر برش زمانی پساز فرایند برچسبگذاری مشخص شود. رشد و افول موضوعات استخراجشده از مقالات در پردازشهای با تعداد ۵، ۱۰ و ۱۵ موضوع در بازههای زمانی قابل مشاهده است. دستاورد کاربردی این پژوهش سیاستگذاری در حوزۀ علم است که علاوهبر مطرحکردن یک روششناسی فناورانۀ کاربردی در پژوهش، میتوان موضوعات داغ میان پژوهشگران یک رشتۀ علمی را مشخص کرد و خلأهای موضوعات پژوهشی را یافت و بر متنوعسازی و متوازنسازی موضوعات پژوهشی اهتمام ورزید.
کلیدواژهها
عنوان مقاله [English]
Investigating the Evolution of the Topics in Language and Linguistics Persian Articles with the Help of a Computer
نویسنده [English]
Institute for Humanities and Cultural Studies
چکیده [English]
Since the advent of the Internet, we have come across a large amount of data that has been placed on this platform. This has caused the way data is studied and examined to evolve from manual to automatic. This research aims to extract the topics raised in articles in the field of language and linguistics and to study the evolution of topics over time with the help of the topic modeling algorithm. To this end, the Latent Dirichlet allocation algorithm is used. The corpus of this research was developed through crawling; and after filtering and pre-processing of the data, the number of 5, 10 and 15 topics are extracted from the articles; and based on the words of each topic, they are manually labeled. Due to the distribution of articles from 1927 to 2020 (1306 to 1399 according to the solar calendar), the time is divided into 5 time span and the topics related to each time span is identified after the labeling process. Among the 5 extracted topics, including Education, Discourse Analysis, Psychology, Syntax and Dialectology, all topics, except Discourse Analysis, are progressively studied over time. The growth and decline of the topics extracted from the articles can be seen in 10 and 15 topics. The practical achievement of this research is policy-making in the field of science. In addition to introducing a practical, technological methodology in do research, it is possible to identify hot topics among researchers in a scientific field and to find the gaps in research topics and to try to diversify and balance research topics.
کلیدواژهها [English]