نوع مقاله : علمی-پژوهشی
نویسندگان
1 دانشیار زبانشناسی، پژوهشکده زبانشناسی، پژوهشگاه علوم انسانی و مطالعات فرهنگی، تهران، ایران
2 دانشجوی دکتری، پژوهشکده زبانشناسی، پژوهشگاه علوم انسانی و مطالعات انسانی، تهران، ایران
3 دانشجوی دکتری، مؤسسه آموزش عالی علوم شناختی، تهران، ایران
چکیده
در سند نقشه جامع علمی کشور، به ارتقای جایگاه زبان فارسی در مقام زبان علم در بین زبانهای بینالمللی علمی اشاره شدهاست. یکیاز راهکارهای رسیدن به این هدف کلان، گسترش زبان فارسی ذکر شدهاست. برای رسیدن به این هدف که میتواند در حوزۀ سیاستگذاریهای مربوط به زبان فارسی مطرح شود، به درک بیشتر از محتوای زبانی نیاز است. از این منظور، کتابهای درسی دانشآموزان که با مفاهیم پایه آموزش میبینند اهمیت زیادی پیدا میکند. توصیف این ویژگیها میتواند بههنگام تهیه محتوای زبانی مد نظر قرار گیرد. در این پژوهش، پیکرهای از متون درسی کلاسهای اول تا ششم ابتدایی به حجمی در حدود 208هزار واژه تهیه شده و برچسبگذاری شدهاست. این دروس شامل فارسی، علوم، مطالعات اجتماعی و هدیههای آسمانی است. تمام جملات دروس مختلف به تفکیک پایه و درس، در فایلهای متنی ساده حروفنگاری شده و پساز هنجارسازی در فرایند پیشپردازش، در چهار سطح آوایی، بنواژه-ای، مقولۀ دستوری و تجزیۀ سازهای نحوی برچسبگذاری شده و بررسی شدهاست. نتایج حاصل از این میتواند به شناخت بیشتر از محتوای کتابهای درسی کمک کند و در حوزه آموزش و سیاستگذاری در این حوزه مفید باشد.
کلیدواژهها
عنوان مقاله [English]
An Account on the Annotated Corpus Developed from Textbooks of Grades 1 to 6
نویسندگان [English]
1 Institute for Humanities and Cultural Studies
2 Linguistics, Faculty of Linguistics, Institute for Humanities and Cultural Studies, Tehran, Iran
3 Institute for Cognitive Science Studies
چکیده [English]
In the comprehensive scientific roadmap of the country (Iran), the promotion of Persian language as a science language among other international science languages is taken into consideration. One of the ways to reach this goal is suggested as expanding the usage of the Persian language. To achieve the goal, which can be raised in the field of Persian language policy making, it is necessary to understand more about the linguistic content properties and the basic concepts that are taught in the textbooks to students. The description of these features can be considered when preparing the language content. In this research, a corpus of textbooks from grades 1 to 6 (the primary school period) is developed that contains around 208,000 words and annotated. These courses include Farsi, Experimental Sciences, Social Studies and Heavenly Gifts. All the sentences of different courses are written in plain text files, separated by grade and course, and after normalization in the pre-processing process, they are annotated automatically at four levels: broad transliteration, lemmatization, part-of-speech and syntactic constituency parsing. The results of this research can help to know more about the content of textbooks and to be useful in the fields of education and policy making in language planning.
کلیدواژهها [English]